网易首页 > 网易号 > 正文 申请入驻

面壁、智谱,卷上新赛道

0
分享至

模型长出了「眼睛」,将打开硬件最重要的一扇门。

作者 | 黎诗韵
编辑| 郑玄


去年 5 月,OpenAI 推出可实时语音交互的「4o」模型,相当于模型长出了「耳朵」和「嘴巴」。到去年 12 月,OpenAI 宣布在高级语音模式中加入视频通话和屏幕共享,相当于模型长出了「眼睛」,电影《Her》中人工智能助理慢慢成为现实。

而在国内,大模型公司也在加快布局这一技术方向。1 月 16 日,主打端侧模型的公司面壁智能宣布推出全球首个媲美「4o」的端侧模型「MiniCPM-o 2.6」,仅 8B 参数,能在端侧实现实时流畅的音视频通话,团队称该模型能实现「以端胜云」的效果。

同一天,智谱宣布推出全新端到端模型「GLM-Realtime」,能实现低延迟的视频理解与语音交互,同时模型融入了清唱功能,还能支持 2 分钟的记忆及 Function Call(能调用外部知识和工具)功能。这是自 8 月「智谱清言」上线视频通话功能之后,智谱在「4o」技术方向上的又一进展。

国内模型公司抢跑「4o」系列模型,一方面因为它是打造人工智能超级助理(AI Agent)的重要一环,另一方面它可能也是 AI 硬件进化的关键。

近期 AI 硬件火热背后,在于它展现出了成为下一代智能交互入口的可能。作为最靠近人类的设备,AI 硬件能感知真实物理世界、收集数据,再通过内嵌的智能,有望给人类带来交互的革命性体验——而这个过程里,「看」是相当关键的,因为人类接收的信息里约 80% 来自视觉——因此,解锁实时视频能力的「4o」系列模型或将成为技术关键。

目前,「MiniCPM-o 2.6」和「GLM-Realtime」都已经在硬件落地。不过分别是端侧部署、调用云端 API。据面壁智能介绍,「MiniCPM-o 2.6」将率先落地于汽车、机器人等硬件生态。据智谱介绍,「GLM-Realtime」API 已被集成到智能眼镜和陪伴娃娃中。

「我们相信实时视频&语音能力,将为 AI 硬件的爆发奠定坚实的智能基础。」智谱表示。

01

和追平「4o」性能同样重要的,

是如何最高效地实现它

2020 年,OpenAI 发布「GPT-3」,训练参数约为 1750 亿;到了 2024 年,面壁智能发布「MiniCPM -2.4B」——和 GPT-3 同等性能、但参数仅为 24 亿,相当于模型智能密度提高了 86 倍。

在国内的大模型公司里,只有面壁智能公开宣称「高效」是第一性原理。核心是通过提高模型训练效率,用最小参数、实现同等模型性能。在 2024 年 12 月的一场活动上,面壁智能联合创始人、CEO 李大海认为,模型的智能密度在加速提升,可称为「Densing Law」(密度定律):大模型的智能密度将从平均每 8 个月提升一倍,缩短为每 3.3 个月。

「今年年初我们让 GPT-3 水平的模型上了端,9 月份让 GPT-3.5 水平的模型上了端,未来会让 GPT-4o 及更高水平模型上端。」他据此做出预言。

一个月过去,他的预言就实现了。1 月 16 日,面壁宣布旗下「MiniCPM-o 2.6」追平了「4o」——「4o」的参数并未公开,一篇微软的论文透露它仍为百亿参数——而「MiniCPM-o 2.6」只有 8B,它因此成为全球对标「4o」最小的模型、也是首个端侧对标「4o」的模型。

如果说「4o」核心性能分为实时视觉、实时听觉、实时语音三方面,面壁智能称「MiniCPM-o 2.6」在这三方面均逼近「4o」。

在实时流式视频理解能力的代表榜单 StreamingBench 上,它取得实时流式全模态开源模型 SOTA;在视觉理解能力上,实现端侧全模态模型 SOTA;在语音理解方面,它超越「Qwen2-Audio-7B-Instruct」,实现通用模型开源 SOTA(包括 ASR、语音描述等任务);在语音生成方面,它超越「GLM-4-Voice 9B」,实现通用模型开源 SOTA;

对于「MiniCPM-o 2.6」多模态技术的关键,MiniCPM-o 技术负责人、清华大学博士后姚远总结为三点:一是采用端到端全模态流式架构,高效整合语言、视觉和语音信息,实现了端到端的联合学习;二是引入低延迟模态并布技术,将时间划分为多个循环时间片、分别处理窗口和输入,大幅降低了响应延迟;三是高级多模态学习,基于「语言行为理论」,模型不仅能进行信息传递,更能通过观察和角色扮演,达到更高级的心智水平,为参与人类社会活动打下了基础。

目前 MiniCPM-o 2.6 已经被部署到了 iPad 终端设备上,在实际 demo 演示中,可以看到「MiniCPM-o 2.6」能猜出游戏中小球藏到了哪个杯子、记住翻牌游戏中卡片的细节;能识别说话声,翻书、倒水、敲门声等;能说四川话、广东话等方言,扩充各种情感、音色、风格等。

而同一天推出的「GLM-Realtime」则有自己的创新:比如视频通话具备 2 分钟的内容记忆能力,在 demo 中演示人员走过几幅春联之后,问模型一分钟前它看到的对联内容,它能回答上来;比如在语音交互方面,它首次让大模型拥有了歌唱能力,在 demo 中它清唱了一首《过年好》;它也在向更智能的 Agent 演进,已经可以调用其他应用,帮人类查询天气、预订酒店等。

无论是云侧还是端侧模型,似乎能看到在追逐模型性能的同时,同等重要的是如何用更高效的训练完成它。前者如 DeepSeek,后者如面壁智能。

在李大海看来,两者的高效训练路径有所不同:DeepSeek 代表的云侧,主要是研究 MOE 架构的上限,通过更多、更高的专家模型和更高的任务分配准确率,让模型能以较少的激活参数量达到更好的效果。

而对于面壁代表的端侧来说,MoE 架构并不适用,稀疏化才是关键。面壁率先推出 WSD(Warmup-Stable-Decay)学习率调度器,通过预热、稳定、衰减三个阶段的学习率调整,提升模型训练效率。如今几乎被行业所有中小模型在训练中借鉴。接下来,面壁还将继续进行训练过程、数据工程、数据治理和模型架构的创新。

02

「4o」模型,助力 AI 硬件

成为下一代智能交互入口

在刚刚过去的 2025 CES 上,AI 硬件成为了最热门的方向,「百镜大战」、「智能耳机」、「AI 陪伴宠物」等等被讨论最多。参加完 CES,李大海认为大模型正在走向「无所不能」和「无处不在」,他笃信大模型将「无处不在」。

AI 硬件大火的背后,是它展现出了成为下一代交互入口的可能。作为最靠近人类的设备,AI 硬件能感知真实物理世界、收集数据,再通过内嵌的智能,有望给人类带来交互的革命性体验。

「10 年之后,至少有 1000 亿硬件会搭载端侧智能,成为拥有人类成年智能水平的新型智能人口。」李大海表示。

在这个过程里,「看」是相当关键的,因为人类接收的信息里约 80% 来自视觉——因此,解锁实时视频能力的「4o」系列模型或将成为技术关键。目前,「MiniCPM-o 2.6」和「GLM-Realtime」模型落地的第一站都是硬件。

据智谱介绍,「GLM-Realtime」API 已被集成到智能眼镜和陪伴娃娃中,在 demo 演示中,「GLM-Realtime」合作的是 Inmo 影目智能眼镜。

据面壁智能介绍,「MiniCPM-o 2.6」将率先落地于汽车、机器人等硬件生态。李大海表示,目前模型更倾向应用于「具身化」——即硬件需要像人一样感知周围环境——程度更高的硬件设备。在这个定义下,汽车、人形机器人,就比手机、电脑的具身化程度更高。

对这些硬件设备而言,加入「4o」系列模型的实时视频能力,将有助于它们的进化。比如在人形机器人领域,「4o」系列模型或能补上机器人大脑、小脑、本体的重要拼图,助力人形机器人底层技术的突破。在去年的世界机器人大会上,面壁智能就和人形机器人厂商「加速进化」合作,实现了业内首个端侧模型在人形机器人上的应用。

IDC 预测,2024 年中国终端设备市场中,将有超过半数的设备在硬件层面具备针对 AI 计算任务的算力基础。至 2027 年,这一比例将进一步攀升至接近 80% 的水平。

在 AI 硬件爆发的未来,端侧模型或许会迎来巨大机遇。

由于参数量小,端侧模型只需消费级终端算力芯片和内存配置就能运行。相较云端模型,其优势包括:更快的响应速度、本地部署的更高隐私性、无需联网的更高便利性、更低的模型推理成本等等,这意味着它可能会有更快、更广的应用空间。这是面壁智能成立之初看到的未来,也是它提升训练效率、降低模型参数的根本动力。

将「4o」级别模型在端侧跑通后,这个未来似乎越来越近了。

*头图来源:视觉中国

本文为极客公园原创文章,转载请联系极客君微信 geekparkGO

极客一问

AI 硬件的「视觉」能力

会对日常生活带来哪些深远影响?

全球最柔顺的行走,宇树机器人 G1 升级,最新演示画面。

点赞关注极客公园视频号

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
罗德里戈晒与C罗合照:我的偶像

罗德里戈晒与C罗合照:我的偶像

懂球帝
2026-06-29 02:08:13
中国女人到底有多少看过黄片?答案可能让你大吃一惊!

中国女人到底有多少看过黄片?答案可能让你大吃一惊!

樱桃小丸子1987
2026-05-20 14:46:33
蔡英文出席全球领袖峰会!全是花钱买来的假象

蔡英文出席全球领袖峰会!全是花钱买来的假象

爱看剧的阿峰
2026-06-28 21:47:07
6月28日,万众期待2026年退休人员基本养老金调整通知公布了吗?

6月28日,万众期待2026年退休人员基本养老金调整通知公布了吗?

云鹏叙事
2026-06-28 20:16:46
武汉大学教授曾言:中国农村当前最严重问题,不是农民收入太低

武汉大学教授曾言:中国农村当前最严重问题,不是农民收入太低

点燃好奇心
2026-06-12 01:55:52
独家:中国船舶集团原副总盛纪纲与董事长温刚、副总杜刚并称为“中船三刚”!两任领导都对他不错

独家:中国船舶集团原副总盛纪纲与董事长温刚、副总杜刚并称为“中船三刚”!两任领导都对他不错

新浪财经
2026-06-19 22:17:47
默茨对德国电信网络中仍存在中国设备深表担忧

默茨对德国电信网络中仍存在中国设备深表担忧

俄罗斯卫星通讯社
2026-06-28 16:16:24
马斯克:Grok 4.5模型已在SpaceX、特斯拉内部测试

马斯克:Grok 4.5模型已在SpaceX、特斯拉内部测试

IT之家
2026-06-28 19:09:04
赴美生子5年时间暴增20倍!如今,近2万家庭被一只“吞金兽”反噬

赴美生子5年时间暴增20倍!如今,近2万家庭被一只“吞金兽”反噬

小虎新车推荐员
2026-06-28 21:41:26
内塔尼亚胡警告伊朗无权介入黎巴嫩事务,以方将赴美阐明诉求

内塔尼亚胡警告伊朗无权介入黎巴嫩事务,以方将赴美阐明诉求

澎湃新闻
2026-06-28 17:45:12
大闹航班女子社会性死亡!女子正脸流出,知情人曝更多,评论炸了

大闹航班女子社会性死亡!女子正脸流出,知情人曝更多,评论炸了

轩逸阿II
2026-06-27 23:07:17
落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太辛酸

落难的凤凰不如鸡,多位明星无戏可拍,沦落到给景区打工,太辛酸

阿伧说事
2026-03-29 19:45:09
凯尔特人3年长约续约替补后场,他在下赛季会扮演更重要的角色?

凯尔特人3年长约续约替补后场,他在下赛季会扮演更重要的角色?

稻谷与小麦
2026-06-29 01:25:03
难怪西方集体对中国黑脸:全球蛋糕分完,发现桌上只有7亿人的碗

难怪西方集体对中国黑脸:全球蛋糕分完,发现桌上只有7亿人的碗

君笙拂兮啊
2026-06-28 17:58:17
华春莹会见日本经济界代表,替高市早苗传了一份“最后通牒”?

华春莹会见日本经济界代表,替高市早苗传了一份“最后通牒”?

刘振起观点
2026-06-28 17:15:44
亚洲球队晋级淘汰赛,知名球迷表态,这支亚洲队可能夺冠

亚洲球队晋级淘汰赛,知名球迷表态,这支亚洲队可能夺冠

酷侃体坛
2026-06-28 22:04:42
一个残酷真相:再过三年,再大牌的明星,也可能彻底无戏可拍

一个残酷真相:再过三年,再大牌的明星,也可能彻底无戏可拍

一盅情怀
2026-06-23 13:34:28
9GB…刚曝光的新iPhone,把果粉都惹怒了

9GB…刚曝光的新iPhone,把果粉都惹怒了

叮当当科技
2026-06-28 19:35:27
堂妹高考685分嘲笑我考了596分,我上大学,她的结果让人出乎意料

堂妹高考685分嘲笑我考了596分,我上大学,她的结果让人出乎意料

程哥讲堂
2025-06-18 15:46:06
钢琴家和性感老婆be了?京圈太子被迫做医美!

钢琴家和性感老婆be了?京圈太子被迫做医美!

八卦疯叔
2026-06-27 10:40:03
2026-06-29 04:23:00
极客公园
极客公园
让最棒的创新成为头条
12203文章数 78911关注度
往期回顾 全部

科技要闻

DeepSeek最新论文:如何让大模型跑得更快

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

头条要闻

四川宜宾市高县发生5.5级地震 震中距宜宾28公里

体育要闻

两周飞5万公里!因凡蒂诺遭环保人士猛批

娱乐要闻

曾沛慈拿下《乘风2026》年度总冠军

财经要闻

省钱,我只服梁文锋

汽车要闻

搭载华为乾崑六件套 东风奕派M8预售19.98万起

态度原创

艺术
手机
家居
数码
公开课

艺术要闻

她不用笔,她用刀

手机要闻

iOS 27 Beta 2曝光百度视觉搜索组件,新机蓄势待发中

家居要闻

绿意盎然 自然之境

数码要闻

古尔曼:预计苹果今年发布搭载M5 Ultra芯片的Mac Studio

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版