NVIDIA Nemotron 3 Nano Omni是一种开放的多模态模型,将这些能力整合到一个系统中,使智能代理能够通过视频、音频、图像和文本的高级推理,提供更快、更智能的响应。 这一模型为企业和开发者提供了生产路径,实现更高效、更准确的多模态AI代理,具备充分部署灵活性和控制力。
Nemotron 3 Nano Omni 为开放多模态模型开辟了新的效率前沿,以准确性和低成本,在复杂文档智能以及视频和音频理解方面位居六个排行榜前茅。
已经采用Nemotron 3 Nano Omni的人工智能和软件公司包括Aible、Applied Scientific Intelligence(ASI)、Eka Care、富士康、H公司、Palantir和Pyler,以及Dell Technologies、Docusign、Infosys、K-Dense、Lila、OracleZefr 评估模型。
H公司首席执行官戈蒂耶·克洛瓦说:“要打造有用的智能体,你不能等几秒钟让模型解读屏幕。” “通过基于Nemotron 3 Nano Omni,我们的特工能够快速解读全高清屏幕录制——这是以前不现实的。这不仅仅是速度提升:更是我们代理实时感知和互动数字环境方式的根本转变。”

Nemotron 3 Nano Omni 使多模态药物更快、更精简
可以考虑让AI客服负责客户支持,处理屏幕录制,分析上传的通话音频并查看数据日志——或者财务部门的客服负责解析PDF、电子表格、图表和语音笔记。如今,大多数智能系统通过视觉、语音和语言的独立模型来完成这些任务。
这种方法通过重复推理增加延迟,分散不同模态的上下文,并随着时间推移增加成本和不准确性。
通过在其30B-A3B混合专家架构中结合视觉和音频编码器,Nemotron 3 Nano Omni消除了对独立感知模型的需求,提升了大规模推理效率。它将这种效率与强大的多模态感知精度相结合,使AI系统能够实现比其他具有相同交互性的其他开放全向模型更高的9倍吞吐量。结果是成本更低,可扩展性更佳,同时不牺牲响应速度和质量。
在智能系统中,Nemotron 3 Nano Omni 可以与专有云模型或其他 NVIDIA Nemotron 开放模型(如 Nemotron 3 Super 用于高频执行或 Nemotron 3 Ultra 复杂规划)协同工作,同时也可与其他供应商的专有模型配合,为代理工作流程(如计算机使用、文档智能和音视频推理)提供动力。
计算机使用智能体——Nemotron 3 Nano Omni为智能体在图形用户界面中导航、推理屏幕内容以及随时间理解用户界面状态提供了感知循环。 H公司最新的计算机使用代理软件由Nemotron 3 Nano Omni驱动,采用1920×1080像素的原生输入分辨率,实现高保真视觉推理。在OSWorld基准测试的初步评估中,这一集成在复杂图形界面导航上取得了显著进步,并利用了Nemotron 3 Nano Omni处理高分辨率图像的能力。
文档智能——解读文档、图表、表格、截图及混合媒体输入,使代理能够在视觉结构和文本内容之间进行连贯推理。对企业分析和合规工作流程至关重要。
音频和视频理解——在客户服务、研究和监控工作流程方面,Nemotron 3 Nano Omni 保持音视频上下文,将所说、展示和文档整合成一个统一的推理流,而非零散的总结。
免责声明:本文为转载文章,转载此文目的在于传递更多电子元器件信息,版权归原作者所有。本文所用视频、图片、文字如涉及作品版权问题,请联系小编进行删除。