深夜王炸！英伟达开源最强AI智能体模型，效率狂飙900%|微软|底层逻辑|知名企业|openai

分享至

就在刚刚，老黄深夜炸场了！

4月29日消息，英伟达今晨重磅推出Nemotron 3 Nano Omni开源全能多模态大模型。

该顶尖AI多模态模型，采用30B-A3B MoE混合专家架构，整合视觉、语音、文本多维能力于一体。

帮助AI智能体依托视频、音频、图像、文本全维度信息开展深度推理，输出更快、更智能的交互应答，为企业与开发者提供可落地的工程化方案。

同时，该模型显著提升了大规模推理效率。它不仅效率高，而且拥有强大的多模态感知精度，使AI系统的吞吐量比其他具有相同交互性的开放式全向模型高出9倍（900%）。

最终实现了更低的成本和更好的可扩展性，同时又不牺牲响应速度或质量。

英伟达表示，新模型在MMlongbench-Doc和OCRBenchV2等文档智能排行榜上提供了一流的准确性，同时在视频和音频理解方面也处于领先地位，在WorldSense、DailyOmni和VoiceBench等排行榜上名列前茅。

除了准确率之外，MediaPerf（一个开放的行业基准测试，它使用真实媒体数据和制作任务，从质量、成本和吞吐量等方面评估视频理解模型）显示，Nemotron 3 Nano Omni 在所有任务中都实现了最高的吞吐量，并且在视频级标注方面推理成本最低。

值得一提的是，另一家硅谷AI巨头依然发布重要消息。

针对市场有关销售增长放缓及未达内部目标的担忧，OpenAI周二公开回应称，公司消费端与企业业务正“全速运转”，需求持续增长，并淡化相关负面报道影响。

OpenAI在声明中表示，来自企业客户的需求及其尚处于起步阶段的广告业务仍在持续增长。“公司内部氛围非常积极，”该公司在一份声明中称。

《华尔街日报》周一晚间报道，随着竞争对手不断取得进展，OpenAI已未能实现多个内部目标。OpenAI将该报道形容为“典型的标题党”。

英伟达最强模型设计与跨模态数据和训练

Nemotron 3 Nano Omni 架构将多模态感知和推理集成到一个 30B 混合 MoE 模型中，原生支持文本、图像、视频和音频输入，同时在代理循环中保持统一的多模态上下文，无需单独的视觉、语音和语言模型。

该产品采用融合Mamba层与Transformer层结构，分别强化序列内存效率与推理精准度，大幅提升模型吞吐量，内存与计算效率最高可提升4倍，适配各类子智能体应用场景。

在视频处理层面，Nemotron 3 Nano Omni依靠3D卷积捕捉画面帧间运动特征，并通过高效视频采样层压缩多帧高密度视觉标识，保障大模型在上下文限制内顺畅完成视频内容解析。

多模态体系以成熟文本模型作为核心解码器，保留原生语言能力的同时搭建跨模态适配桥梁，有效降低多模态训练的难度、成本与不稳定性，强化连续感知任务的综合表现。

音频能力依托NVIDIA Parakeet编码器及定制化专业数据集搭建，结合Granary、Music Flamingo等技术实现超越基础语音转录的多元化音频理解能力。

视觉模块搭载C-RADIOv4-H编码器与视频摘要技术，通过分层压缩策略应对高清图像与动态视频处理需求，精准保留画面细节并保障OCR识别精度。

该模型基于海量跨模态数据与指令调优完成训练，面向真实智能体场景打造，可独立处理图文音视频多类型指令，充当大型智能体系统的多模态感知子模块，全流程由NVIDIA NeMo Evaluator库完成性能评测。

依托文档、截图、音视频等多元大规模数据开展适配器与编码器训练，让模型在复杂企业级感知任务中具备出色泛化能力。

NVIDIA 通过 Nemotron 3 Nano 和 Nemotron 3 Super 发布了业界最全面的基于文本的智能 AI 开放数据集，其中包括：10T+ 预训练标记、4000+ 训练后样本、20 多个 RL 环境配置和完整的训练方案，所有这些都是公开可用的。

借助NVIDIA Megatron-LM落地多阶段监督微调流水线，循序渐进拓展模态适配范围，逐步将上下文长度从16K提升至262K，筑牢跨模态指令跟随基础。

模型层面约 1270 亿个标记，涵盖文本+图像、文本+视频、文本+音频和文本+视频+音频等混合模态——反映了真实世界的上下文交互，而非单一模态数据。

针对真实世界任务的训练后训练：约 1.24 亿个精心挑选的多模态组合示例（文本+音频、文本+图像、文本+视频和文本+视频+音频），旨在支持文档推理、计算机使用和长期工作流程。

模型在监督微调后开展多环境强化学习，覆盖25种环境配置，依托NVIDIA NeMo系列工具完成超230万次环境部署，持续增强多模态任务与智能体工作流的运行稳定性。

英伟达还提供了使用 NVIDIA NeMo Data Designer构建的合成数据生成 (SDG)流水线，用于对 Nemotron 3 Nano Omni 进行后训练，以使其能够胜任复杂的长文档理解任务。

通过迭代的流水线开发、训练和故障分析，我们最终将一系列生成约 1140 万个合成视觉问答对（约 450 亿个tokens）的流水线整合到 Nemotron 3 Nano Omni 的最终训练数据集中。

图像训练数据已公开。

借助底层图像数据和模型，开发人员可以检查、调整和扩展多模态训练流程。

对于以往维护各自独立的视觉、语音和文档数据栈的企业而言，Omni 将这些数据栈整合到一个单一的、可用于生产环境的基础架构中，从而降低了跨模态部署智能体的门槛。

已经采用 Nemotron 3 Nano Omni 的人工智能和软件公司包括Aible、Applied Scientific Intelligence (ASI)、Eka Care、富士康、H Company、Palantir 和Pyler，而戴尔科技、DocuSign、Infosys、K-Dense、Lila、Oracle和Zefr正在评估该模型。

H Company首席执行官Gautier Cloix表示，“要构建实用的智能体，不能让模型花费数秒时间来解读屏幕。基于Nemotron 3 Nano Omni，我们的智能体可以快速解读全高清屏幕录像——这在以前是无法实现的。这不仅仅是速度的提升，更是智能体实时感知和与数字环境交互方式的根本性转变。”

OpenAI回应：商业化没放缓

此前，《华尔街日报》报道称，随着竞争对手抢占市场，OpenAI未能达成若干内部增长目标。

报道还称，OpenAI首席财务官Sarah Friar担忧，若销售增长不足，公司未来可能无力承担不断攀升的算力需求。

如果收入增长速度不能进一步加快，OpenAI 未来能否支撑庞大的数据中心和算力合同成本？

该消息出现在 OpenAI 冲刺潜在 IPO 的关键阶段，也让市场重新审视 AI 基础设施投资的回报周期。

受此影响，OpenAI 相关概念股出现明显下跌。

其中，甲骨文跌超4%，CoreWeave跌超5.7%。

股价的波动凸显了OpenAI在涉及顶尖云计算供应商和芯片制造商的复杂投资与交易网络中所扮演的核心角色。投资者本就对AI基础设施泡沫日益担忧，纷纷质疑OpenAI及其他科技公司未来数年投入数千亿美元建设数据中心和采购芯片的计划。

与此同时，投资者对AI基础设施泡沫担忧也持续升温。市场开始质疑OpenAI及其他科技公司未来数年投入数千亿美元建设数据中心与采购芯片的计划能否带来合理回报。

对此，OpenAI表示，公司仍将扩大算力资源视作“关键推动因素”，认为更多计算能力将帮助其持续改善客户产品体验。公司称，推动更多算力部署不仅是成本投入，更是支撑长期竞争优势的重要基础。

OpenAI本月稍早曾向投资者表示，早期大幅扩充计算资源，使公司在与长期竞争对手Anthropic竞争中具备关键优势，尽管后者近期正快速追赶。

不过，值得注意的是，即便在《华尔街日报》报道发布前，OpenAI实际上已开始对基础设施投资采取更审慎态度。

公司近期表示计划暂停英国一个项目，同时，微软同意租赁原本拟供OpenAI使用的挪威数据中心容量。另据3月报道，由于融资谈判拖延，甲骨文与OpenAI已放弃扩建得州旗舰AI数据中心计划。

市场人士认为，这些调整显示OpenAI并未无节制扩张，而是在高投入战略与资本约束之间寻求平衡。

Wedbush 分析师DivesTech认为，《华尔街日报》报道 OpenAI 最近未能实现其新用户和收入目标后，甲骨文遭到抛售，这是一种“过度反应”。

Wedbush 认为 OpenAI 在消费者和企业市场都获得了“非常高的需求”。该公司“强烈”不同意其增长放缓的说法。

分析师在一份研究报告中告诉投资者，甲骨文5530 亿美元的积压订单主要来自未来五年与 OpenAI 签订的价值 3000 亿美元的云合同，该项目预计将为公司贡献 300 亿美元的收入。

该行对甲骨文完成 5000 万美元融资的能力充满信心。该行认为近期围绕 OpenAI 的担忧被夸大了，并表示该公司拥有足够的资金来满足其至少未来三年的计算能力需求。

此外，一直以来，微软与OpenAI的合作被视为科技届最成功的“联姻”。微软向OpenAI累计投资130亿美元，一步步助推后者成为世界级AI巨头。而微软也依靠OpenAI拿到了AI时代的核心入场券。

然而在今年4月27日，微软与OpenAI双双在官网发布了一份公告“修订后的协议，厘清长期合作细则（Amended Agreement Provides Long-Term Clarity）”，对两家公司延续七年的合作框架作出重大调整。

两家公司在收入分配上也做出了重新调整。

微软将不再向OpenAI支付收入分成，OpenAI对微软的收入分成持续到2030年，并设总额上限。

此外，微软将继续“以核心股东身份深度参与OpenAI的长期发展。也就是说微软作为持股27%的OpenAI最大股东仍然可以享受OpenAI的增长红利。

而且，此前的协议规定一旦OpenAI被认定实现AGI，收入分成即停止。修订后的协议则取消了这一触发条款，也就是无论OpenAI是否达成AGI，微软都能稳定收到至2030年的分成。

在这份声明的最后，两家公司强调，虽然本次修订简化了合作关系，但两家公司共同推进事业的野心不变。声明还提到了两者其他的一些意向合作领域，包括“新建千兆级算力数据中心、联合研发新一代芯片、AI技术在网络安全领域的落地”等。双方将继续携手合作，为全球的个人与组织推进并扩展AI的发展。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.