Jay 发自 凹非寺
量子位 | 公众号 QbitAI
嚯!先是OpenClaw玩转互联网,这下春晚也被机器人占领了。
打开电视,到处都是机器人,简直成了一场硅基生物狂欢节。
宇树、魔法原子、银河通用……各家机器人轮番上阵,引得家里客厅惊呼连连。
确实很难想象,明明去年还在扭秧歌,今年居然已经发展成了这样子。
但要说印象最深刻的,还得是松延动力的这个小品节目,《奶奶的最爱》。
![]()
当时这四位一立正,我一看,就寻思最右边这小家伙不简单。
不仅衣服是本命红,还戴个红色小棉帽,估计是最受偏爱的「大孙子」。
![]()
也确实不怪节目组偏心,这个小奶音,配上拽拽的走路姿势,实在太萌了。

但可别被它的外表轻易蒙蔽,最受奶奶偏爱的「孙子」,说话可是相当不饶人。
- 你确实是个笑话!
![]()
对了,亦庄机器人马拉松上的「小孩哥」也在,这次还是双胞胎。
讲着讲着,咵一下给观众来了个后空翻。

下面更是重磅,千算万算没算到,会有个和蔡明老师长得一模一样的机器人出现……
![]()
很难想象,这要是去年的我,看到2026年春节的自己窝在沙发上——
嗑瓜子的手停滞在半空中,目瞪口呆地看着这一个比一个离谱的机器人,会是什么想法……
春晚幕后大揭秘
线上终究隔了层屏幕,为了检验这些机器人在节目下的真实表现,量子位特意近距离给大家伙瞅了瞅。
看,这就是春晚开场登台的,蔡明老师的宝贝大孙子组合!
台上表现很chill,其实训练相当刻苦,天天搁这猛猛排练节目。
![]()
令人印象深刻的是,相比节目上,「小孩哥」在线下的冲击力明显强很多。
小身体大能量,而且有声音的加成,机器元件在空翻时碰撞的听感非常清脆。
听松延动力的工作人员说,「小孩哥」每天的日常就是随地大小翻,室内翻完马路翻,马路翻完草坪翻。
为了给观众表演一次成功的空翻,「小孩哥」承受了太多它这个年龄不该承受的东西…

接下来,要给大家着重介绍,这次春晚松延动力大家族中,我个人最喜欢的机器人——小布米。
对,就是节目上一身本命红,脑袋上系个大棉帽的「小奶娃」。
这是全球首款万元级机器人,售价9998元起
特别迷你,身高不到一米,跟刚学会走路的小朋友差不多。
配合上这劲爆的舞姿,实在太萌了。

最让我惊喜的,是它的语音交互。
当时工作人员让它讲了个冷笑话。
要不是现场人太多,我真有点要蚌埠住了。关键谁受得了它这样「一本正经」地调侃企鹅啊。
![]()
问了下才知道,奶声奶气的小布米背后,原来是AI界的「小品女王」——豆包
没错,它俩底层都是豆包大模型
虽然个头小小,但智商真不容小觑。
我们在现场考了它那个困扰无数顶尖AI的「洗车悖论」:
- 家离洗车店800米,我应该开车还是走路去?
本来没抱啥希望,结果——它居然答对了!?
平时没少和AI语音聊天,但亲眼看到这么小一个机器人,用奶声奶气的萌娃音跟你说话,真的很不一样。
EQ也很高。
当听到有人说「和朋友吵架了」,小布米没有一上来就讲大道理,而是先共情:「一定很难受吧。」
还拿「牙齿和舌头」打比方,说好朋友闹别扭很正常,建议等气消了好好聊聊。
大过年的,咱就不要搞硬核技术测试了。
量子位托小布米祝大家马年快乐,「快乐马不停,每天都马力全开」!
不错不错,咱也算是第一波收到硅基生物定制拜年的人类了。
松延动力x火山引擎,大脑与身体的强强联手
2025年底,松延动力发布了首款万元级人形机器人小布米Bumi,面向ToC启动了量产。
但光有硬件还不够。要想真正交付给消费者,小布米必须能自然地和人交互。
毕竟,目前家庭场景里,机器人的核心角色还是「陪伴」。如果不能说话、听不懂指令,体验会大打折扣。
语音是消费级机器人的关键入口。不管是陪聊、跳舞,还是日常互动,几乎都得靠对话来触发。
这也正是火山引擎和松延动力达成合作的重要契机。
没想到的是,在正式交付前,春晚成了第一个实战考场。
松延动力的节目比较特殊,它不是纯表演型,而是语言类,高度依赖实时对话和角色互动。
而在真人陪聊、角色扮演这一块,豆包应该是当之无愧的「女王」了。
于是双方一拍即合,把这套方案搬上了春晚舞台。
具体来说,火山引擎为「演员们」定制了一套端到端的豆包语音交互全家桶,核心是三个环节:ASR(语音识别)、LLM(大语言模型)、TTS(语音合成)。
先看ASR。
这个环节直接影响模型智商的下限。识别出了问题,LLM再聪明,回复也是牛头不对马嘴。
火山引擎为松延动力配的豆包语音识别模型2.0,是一双会「思考」的耳朵。
打个比方,一般来说,当你提到苏辙被贬的「筠州」,普通模型很容易听成其他同义词,比如「云州」或「郓州」。
人类通常不会犯这种错误,只要有一定的上下文,我们就能反应过来——
「噢,现在在聊苏辙,那应该是筠州。」
豆包的语音识别便参考了这种真人交互习惯。
接下来便交由LLM组织语言,采用的是豆包大模型
这点就不多做赘述了,大家日常都体验过。
一旦LLM开始输出第一个Token,TTS便开始同步生成语音,边生成边播放。
当然,让人感受最直观的,肯定还是听到声音出来的那一瞬间。
这次春晚用的是豆包语音合成模型2.0
相比传统模型,豆包在文本的情绪演绎上下了更多功夫,比如语气、语调、停顿等。
这层额外的情绪信息,是豆包的「人味秘方」。
不仅音色还原度高,更能根据当前对话内容,选择最合适的「声音表演」方式。
![]()
可能有人会说:这套「听见-思考-说话」的闭环,火山引擎上不是早就有现成方案了吗?
理论上没错,但要达到春晚级别的效果,不是调个API就能搞定的。
最直观的差异来自输入端硬件。
机器人的摄像头分辨率不如手机,麦克风阵列布局、收音结构也不同。这些都得重新适配和优化。
更大的挑战是使用场景
平时你用手机和AI聊天,嘴离麦克风就十几厘米;但在家庭场景里,人和机器人往往隔着一到两米,甚至更远。
而春晚舞台?更是地狱级难度:演员站位不固定、环境噪音嘈杂、网络信号波动……
并且几乎零容错,全国观众盯着的。
为了保证节目效果,火山引擎直接开启「爆肝模式」,专门打造了一套春晚定制版实时音视频方案,负责语音数据的采集、处理和低延迟传输。
在此基础上,还叠加了多项黑科技:3A降噪、VAD打断、声纹识别……
可以说,为了让机器人在台上博观众一笑,火山引擎在背后都快转冒烟了。
最终效果大家也看到了。整体时延控制在1秒以内,已经接近人与人对话的自然状态。
![]()
不过,费这么大功夫,如果只是为了和机器人聊天,有点杀鸡用牛刀。
具身形态的真正价值,在于它可以把语言和肢体动作结合起来。
举个例子。
当一个小朋友放学回家,郁闷地站在门口叹气:
「我今天考试考砸了。」
如果只是个智能音箱,或许只能说——
「没关系,我们一起看看哪里可以改进」。
但如果是小布米,它可以慢慢走到孩子身边,伸出「圆手」,轻轻拍拍他的肩膀。
这一刻,肢体接触传递的温度,是再多文本Token也换不来的。
具身智能正在走向消费级
自去年夏天的WAIC以来,关于人形机器人是不是泡沫的争论,几乎没停过。
但另一方面,这恰恰也说明,机器人在公众视野里的出现频率越来越高,迭代速度越来越快,已经到了无法被忽视的程度。
去年春晚,人形机器人还只是在台上转个手绢;
今年呢?遍地开花,连小品都安排上了。
尽管如此,开怀大笑之后,仍然无法避免那个灵魂之问:
我们真的需要讲小品的机器人吗?
![]()
对此,松延动力创始人姜哲源的回答是:
技术存在的意义,从来都不只有帮人类干活。
在他看来,对于所有产品,价值都可以分为两种,实用价值和情绪价值。
很多消费品都不能干活,它们存在的意义,就是让人开心。
机器人也一样。
能端茶倒水当然最好,但如果它能陪伴老人、安慰小孩、甚至让你笑出声,那也是一种真实的价值。
更何况,对消费级市场而言,机器人也并不是只能提供情绪价值。
K12教育,便是松延动力正在重点探索的下一个落地方向。
以编程为例,有一个硬件载体,孩子能更直观看到代码-动作的映射,会如何影响现实世界。
这种即时、具象的反馈,是屏幕给不了的。
而人形,本身就是人类科技最前沿、也最浪漫的想象。
小布米支持图形化编程,通过拖拽式编程软件,孩子可以给机器人设定这样一个任务:
- 在父母结婚纪念日时,从房间里走出来,比一个心。
姜哲源表示,有一个机器人在家里,对拓宽孩子的视野有很大帮助。
- 如果孩子从小就接触人形机器人,他对这些领域的感知,会比同龄人早好几年。
事实也印证了松延动力的思考。
从一线反馈看,无论是家长还是学校,对教育机器人都有非常强烈的需求。而这些需求,都是现有技术已经能满足的。
过去,人形机器人的落地场景,主要还是两类:商演和科研
但这两条路,都算不上「长坡厚雪」。
商演天然有边际效应递减。
第一次看很惊艳;第二次,还不错;但第三次,就不禁想问「它啥时候能去工厂拧螺丝?」
相对而言,科研要坚固一些。但场景集中在高校,天花板很大程度上取决于学校预算。
而且,科研存在周期性波动,一旦热度下降,需求回落得也会很快。
教育,可能是破局的关键。
首先,这是一场确定性极高的大趋势:随着AI渗透进基础教育,人形机器人作为「具身教具」,角色只会越来越重。
一开始可能集中在超级城市,但很快会向其他地区渗透。最终,这会是一个规模巨大的市场。
更重要的,是渗透深度。
机器人+教育,不是把一台机器人塞进教室这么简单,必须配套完整的体系:
教师培训、课程设计、教学场景适配、评估标准……
一旦这套解决方案跑通,形成成熟的解决方案,机器人会成为教学基础设施的一部分,提供长期稳定存在的结构性需求。
虽然暂时还不能在家当保姆,但这个中间态,可以在创造价值的同时,为具身智能的发展,争取更多时间,
![]()
跳舞、演小品,只是起点。
未来,硅基智能在生活中的比例只会越来越高。
也许五年后的除夕夜——
真会有一台机器人,翘着二郎腿坐在你家沙发上,一边帮你剥瓜子,一边吐槽春晚节目。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.