![]()
哈喽,大家好,小圆今天要跟大伙聊个挺有意思的研究,图灵奖得主杨立昆离开Meta后的首批公开学术成果里,有一项居然用到了咱们中国的宇树机器人,而且研究思路直接戳中了机器人领域的一个大痛点。
咱看《黑客帝国》时,谁没羡慕过尼奥靠脑机接口秒会功夫啊?现在杨立昆团队的研究告诉你,不用脑机接口,机器人看段AI生成的视频就能学动作,这波操作属实有点惊艳。
![]()
![]()
要聊这项研究的厉害之处,得先说说以前机器人学动作有多费劲,不管是让机器人打太极还是简单的开门,传统方法都离不开两样东西:要么是昂贵的动作捕捉设备录数据,要么是研究员一遍遍地人工演示。
就说动作捕捉吧,一套专业设备动辄几十万,还得搭专门的场地,普通团队根本玩不起。后来强化学习火了,但还是绕不开数据问题,没有足够多的真实动作数据,机器人就只能在特定场景里“打转”,没法通用。
![]()
杨立昆团队的新研究《从生成的人类视频到物理上合理的机器人轨迹》,偏偏就选了条不一样的路,不用真实动作数据,改用AI生成的视频,他们用当前最先进的两个视频生成模型Wan2.1和Cosmos-Predict2,造了个包含428个视频的动作库。
从简单挥手到复杂的物体交互都有,可能有人会问,AI生成的视频靠谱吗?这问题问到点子上了,也是研究要解决的核心难点之一,说实话,这种变废为宝用合成数据练机器人的思路,确实比死磕真实数据要高明得多。
![]()
![]()
这个能让机器人看懂AI视频的框架叫GenMimic,它最牛的地方就是能给AI生成的视频挑错纠错,咱都知道,AI生成视频经常出幺蛾子,比如人物肢体突然扭曲、关节角度不对劲,甚至出现穿模这种物理上不可能的情况。
GenMimic的解决办法分两步走,第一步先把视频里的人类动作转译成机器人能懂的关节指令,第二步就靠两个核心技术去伪存,第一个是加权关键点追踪,简单说就是让机器人学会抓重点,比如做挥手动作时,手腕和手掌的位置是关键。
![]()
至于背景里偶尔变形的胳膊肘,就可以忽略不计,这样就算视频有点小瑕疵,机器人也能抓住动作的核心逻辑,第二个更绝的技术是对称正则化,研究团队发现,不管AI视频怎么乱生成,真实世界里的动作大多是对称的,比如走路时左右腿的摆动幅度不会差太多。
他们就把这个规律编进算法里,就算视频里出现左脚绊右脚的离谱画面,算法也能靠对称性修正过来,让机器人走得稳稳当当,不得不说,这两个技术就像给机器人装了火眼金睛和逻辑大脑,把合成视频里的垃圾信息过滤掉,只留下有用的动作规律。
![]()
![]()
要验证技术好不好用,得有靠谱的测试标准和实机演示,团队专门建了个叫GenMimicBench的基准测试集,里面的428个视频分两类:一类是Wan2.1生成的室内清晰场景,另一类是Cosmos-Predict2生成的杂乱户外场景,正好能测试机器人在不同环境下的适应能力。
最让人兴奋的是实机演示环节,团队把这套算法装到了宇树科技的G1人形机器人上,要知道,人形机器人模拟到现实的跨越一直是个难题,仿真里好用不代表真能在物理世界里落地,但宇树G1没让人失望。
![]()
就看了段AI生成的视频,就能准确复刻挥手、指向、伸展这些动作,甚至一些复杂的上肢组合动作也能完成,当然也有不足,比如快速转身、大步迈腿这些剧烈下肢动作,机器人还得解决平衡问题,但单论上肢动作的视觉成功率,已经足够实用了。
小圆觉得,这里面最值得说道的就是宇树机器人的表现,这从侧面证明了咱们国产人形机器人的硬件实力已经能承接国际顶尖的算法测试,而这项技术的价值远不止学动作,它其实为机器人训练找到了一条无限供血的路子。
![]()
![]()
就像杨立昆一直强调的,真正的智能得懂物理世界,这项研究最妙的地方,就是让机器人从幻觉里学出了真实感,通过过滤和修正合成视频的瑕疵,反而掌握了更本质的动作规律,现在GenMimicBench数据集和代码都开源了,接下来肯定会有更多团队跟着这个思路探索。
![]()
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.