网易首页 > 网易号 > 正文 申请入驻

对话原力灵机唐文斌:我不喜欢讲我不信的话,也无法成为我不想成为的人

0
分享至

文|富充

编辑|苏建勋

创业满一年,唐文斌的身上依旧保留着旷视时期的印记,在和我们的对话中,他时常说到“本质”这个词——那是旷视内部的一个“流行词”。

清华“姚班”毕业之后,唐文斌和同学印奇、杨沐在2011年创办了旷视科技。在这家AI 1.0标志性企业中,人们喜欢追问“本质”。

创业旷视的14年里,唐文斌经历了AI 1.0浪潮的完整起伏。从高歌猛进的业务扩展,到屡次与上市失之交臂,这些经历也打磨着他对“本质”的理解。

关于对旷视最重要的反思,唐文斌认为是摊子不要铺得太大,而是应该先集中全力,把一个最有优势的业务做透。

近来履新阶跃星辰董事长的印奇,在不久前的采访中也有过类似表达——商业模式本质上是做排除法。看过了热闹,大家更清楚一个道理:与其做很多事,不如想清楚什么不做。

2025年3月,唐文斌创办具身智能公司原力灵机。二次创业中,唐文斌更会做减法了。

过去一年中,原力灵机没有跟业界一起卷订单规模,也没有急着推出一个“软硬全栈”的故事提升估值。

原力灵机的第一年,把主要精力放在模型开发,以及数据、框架、评测等AI基础设施工作上。因为在唐文斌看来,这些是决定迭代效率的基础。

“一直跑在前面”的迭代能力,和“短暂的领先”相比,是更本质的竞争力。

当被问及会不会因为节奏“慢”,而受到投资人压力时,唐文斌对《智能涌现》说:“有些公司确实通过一些浮夸的方式获得了不错的收益,我们也困惑过,要不要也这样做。但后来想明白了,我不是很喜欢讲我不信的话,也无法成为我不想成为的人。”

他把自己这些年的变化概括成三个阶段:“初生牛犊不怕虎”的盲目自信,被现实教育后“觉得很多事情不知道怎么做”的迷茫,以及如今抵达的“谦虚的自信”——知道自己知道什么,也非常清楚自己不知道什么。

用AGI通用机器人开启生产力极大富足的时代,是唐文斌当下心中的星辰大海。不过,这一次的落点更脚踏实地:随着模型能力提升逐个解锁场景,先把自己在旷视时期就有积累的物流业务做到商业闭环。

以下是唐文斌与《智能涌现》的对话,内容经作者整理。


△原力灵机CEO唐文斌,图片:采访人提供

创业第一年,关键词:迭代

智能涌现:回顾原力灵机创业这一年,你脑子里冒出来的第一个词是什么?

唐文斌:迭代。过去一年里,很多东西都在变——技术认知、数据方案、场景选择、融资节奏等等。和历史上的经验一样,具身智能的变化也比我们预想的要快。

我们今天面对的,依然是一个充满未知的领域。在今天的具身智能行业里,一家公司本质的竞争力,不是今天有多领先,而是迭代效率有多高。谁能在变化中更快地发现问题、修正问题,谁才可能一直跑在前面。

智能涌现:原力灵机的主创团队来自旷视,经过旷视十多年的创业经历,你仍然觉得当下的创业有很多意料之外的变化吗?

唐文斌:是的,即便我们从AI 1.0时代积累了很多经验教训。

旷视时期我们逐渐解决了计算机视觉、自动驾驶、大模型等领域的问题,到现在进入具身智能领域。每一次身处其中的时候,我们并不知道明确的路线是什么,但历史上每一次的感悟都是,技术变化的频率比我们预期中更快。

对于现在我们所投入的具身行业也是一样,我们依然在解决很多未知的问题,这需要我们快速迭代自己的想法。

智能涌现:再次创业,你还会有兴奋感吗?如果有的话,从何而来?

唐文斌:我觉得无论在旷视还是现在做机器人的创业,都是在“把这个世界应该被解决的问题做得更好”。这也是我们所说的工程师的兴奋感,叫“我能解决这个问题”。

从旷视时期,我就形成了一套朴素的观念,叫做“技术信仰,价值务实。简单来说,我们没有创造新需求,如果创造一个居家做情感陪伴的机器人,这相当于创造了一个新需求。但我们目前在做的事情,而是用更好的工具解决已有问题,比如让机器人去解决、替换原来工业场景里人类做起来繁杂、危险的工作。

智能涌现:这可能是一个非常务实的定位,但是听起来会不会没那么“性感”?

唐文斌:我觉得要看怎么定义“性感”。我认为今天我们不管在生活和生产的过程中,我们有大量的问题可以有更好的解法。解决好这些客观存在的问题是可以产生巨大价值的,无论是商业价值、社会价值,还是用户价值等等。

如果真的创造出了AGI通用机器人,人类会进入一个生产力极大富足的时代。这种很高的技术期待本身,就是一种星辰大海式的愿景。

找好场景,解开“数据死锁”

智能涌现:现阶段,具身智能的本质问题,你觉得是什么?

唐文斌:是模型,模型能力够强,才能解锁场景,而模型的突破点在数据。

数据本质上是在消灭不确定性,真正有价值的是Outlier的数据。你只有让机器人进到真实场景,它才有机会犯错,见到更多“错题”,减少不确定性。

智能涌现:关于数据采集,现在有很多方法,既有数采工厂,也有很多具身公司开发素材手套、胸前摄像头等让人类在实际工作采集数据。你们的采集方法如何?没有自己开发数采工具吗?

唐文斌:我们也有自己的数采工具,也买外面的数采工具和数据。但工具是方法,这些解决方法不本质。

本质的做法,还是要让机器人在真实场景中把数据飞轮转起来,收集到Failure Case。就像今天自动驾驶的数据,平稳运行的数据并不稀缺,真正有价值的是接管的数据,就是自动驾驶算法不Work时的数据,才是AI真正要去学的东西。

现在采用的无论是遥操作还是以为人中心的视频、数采手套等方法,实际上是在模拟场景,但它并不是收集机器人真实和物理世界交互的工作场景数据。也就是说,通过这样的数据,开发者并不知道机器人靠今天的逻辑,到底在什么地方会犯错。

智能涌现:不进场景就没有你说的Outlier数据,没有多样的数据就训不出一个能进场景干活的好模型——这是一个“死锁”。这个死锁怎么解开?

唐文斌:要找到适合当前机器人能力的场景。现阶段,我们要把机器人当成学徒工,而不是期望很高的正式工。

我们总结了几个找场景的条件:第一,容错——犯错后果不严重,或者有人兜得住;第二,对节拍有容忍度——机器人现在完成任务的时长不固定,但如果完成得慢,任务流程也不会因此崩溃;第三,长时间作业——否则客户采购的性价比算不过来;第四,能泛化,如果任务太专用,非标自动化基本就搞定了。

智能涌现:你说现在原力灵机主要在做物流场景?是因为它更容错吗?

唐文斌:物流表面上看不容错,比如你买瓶可乐,没发给你,这就是错了,客户会投诉的。但物流有很多流程环节,可以通过系统设计变成容错:让机器人先干,失败了人再接管上。

而且物流的节拍要求没那么强,一天大概有两到三个波次。完成着两三个波次就可以,至于到底是9点干完,还是10点干完,不对整体造成太大影响。

智能涌现:所以你在场景上的策略是“沿途下蛋”?

唐文斌:我的模型最终是追求通用能力,并不是说我是朝着某个场景去的,只是在模型能力提升的过程中会逐渐解锁一些场景。

所以,比起沿途下蛋,我更喜欢形容当前的模型和场景是个“夹角关系”。横轴是场景,斜着向上的这条射线是模型能力,两者不是完全分开的,也不是一开始就重合的。只是随着模型越来越强,它能覆盖的场景会越来越多,这个夹角会越来越小,最后趋向一致。


△唐文斌在黑板上画起模型能力与场景解锁的“夹角图”。横轴是场景,斜着向上的射线是模型能力,模型能力的提升,最终会落地在场景上。图片:作者拍摄

“软硬全栈”不是衡量估值的本质问题

智能涌现:旷视时期,你就聚焦物流场景,做原力灵机之后再输出给客户的方案、产品会有不同吗?

唐文斌:简单而言,无论是我们当年在旷视做的物流机器人业务,还是现在很多同行在做的方案,本质上解决的都还是“搬运”的问题。也就是说,机器人主要替代的是人的“腿”。

但真正更复杂的“手上动作”,其实一直没有被很好解决。比如抓取、拣选、拿起、放下、打包,这些都还大量依赖人工。我们现在做原力灵机,更希望让模型逐步具备处理这些手部操作的能力,再和现有系统联动起来,形成一整套方案。

智能涌现:那原力灵机自己会做“手”的硬件吗?

唐文斌:“手”其实是个广义的概念,我们叫末端执行器。两指的夹爪是一种,三指是一种,四指、五指也都是。

我不认为一种构型可以吃遍所有场景,有一些场景,用三指手就可以完成任务,成本还比五指手便宜。所以比做不做手更本质的是,要明确自己服务的场景,真正需要的是什么。

智能涌现:如果没有自己研发硬件,或者如果不是所谓的“软硬一体”全栈公司,会不会影响估值?

唐文斌:我觉得这不是本质问题。做不做硬件本质上都只是手段,关键还是看你想解决什么问题。

如果某个硬件环节和我们的核心结构设计、产品主线强相关,而且现成供应链满足不了需求,那我们当然会考虑自己做;但如果外部厂商愿意配合定制,能够满足我们的要求,那我也没有必要什么都亲自下场。毕竟公司最宝贵的精力,还是应该放在更有差异化的地方。

所以核心不在于“你是不是一定要自己做”,而在于你有没有自己做的能力。 如果你完全没有这个能力,就很容易被供应链拿捏。但如果你具备自己做的能力,就可以主动选择——哪些该自己做,哪些可以交给合作伙伴。就像苹果公司,也不是自己生产。

最好的具身智能模型,应该从Day 1就接触物理世界数据

智能涌现:你们在DM0发布会上,强调这是“具身原生模型”,还和阶跃星辰做了数据融合训练。这算你们的“非共识”吗?

唐文斌:与其说非共识,不如说这是别人做不了的事。

我们觉得最好的具身智能模型应该从Day 1就开始接触物理世界的数据。互联网数据、自动驾驶数据、机器人数据,三类数据混在一起训,模型的上限会更高。

但三类数据在不同公司手里——互联网公司、自动驾驶公司、机器人公司。只有特斯拉、小米等少数大型公司才会同时拥有这三类数据。

我们能做,是因为和阶跃星辰恰好是有底层信任。这不只是技术问题,需要合作公司之间有数据定价、资产归属、算力分摊等方面的深度信任。


△原力灵机DM0模型包含互联网、自动驾驶、具身三类数据的多源混合训练,图片:采访人提供”

智能涌现:为什么最好的具身智能模型,应该从Day 1就接触物理世界数据

唐文斌:你可以先把模型想象成一个初中毕业生,接受了九年制文化课,然后被拉去练三年体育,要变成“体校生”。这个学生没有从小练体育,体能上限有限;狂练三年体育之后,文化课又落下了。所以最后得到的,通常是一个上限不高的体校生。

回归到数据上,问题是这样的,今天行业里大多数具身模型,本质上还是先拿一个开源的VLM模型做底座,相当于一开始接触的主要是互联网数据;然后再加入动作数据,微调成一个VLA。

这样做,一方面会限制模型在真实世界中的能力上限,另一方面也容易在后期训练中出现“偏科”——为了强化动作能力,反而损失了一部分原本的通用理解能力。

所以我们更认同一种“具身原生”的训练方式:从 Day 1 开始,模型就应该见过足够多的物理世界数据。

智能涌现:现在行业里经常把VLA、世界模型这些能力拆开来讲,或者认为世界模型要替代VLA。你们怎么理解它们的关系?

唐文斌:我们认为,世界模型和VLA应该是一套统一的架构,而不是谁替代谁。

现在很多人的思路是:一个世界模型负责预测“接下来世界会变成什么样”,另一个VLA或策略模型负责决定“我应该做什么动作”。但我们的理解不一样——更好的方式,是在同一个框架里同时完成这两件事:它既在预测动作,也在预测这个动作之后世界会发生什么变化。

因为物理世界本来就是有因果关系的。比如你伸手去抓一个物体时,脑子里其实已经对它的重量、抓取方式和需要多大力形成了预期;但真正抓上去那一刻,如果发现它比预想中更重,你就会立刻根据触觉和受力反馈调整动作。这个过程中,你对世界的理解和你的动作决策,本来就是一体的。

我们理解的世界模型也是这样。它不应该只是一个“预测下一帧画面”的视觉模型,而应该和VLA融合在一起,形成一套统一的训练框架。这里面还需要多模态信息,比如上面例子中所说的触觉(力反馈),也需要有Memory,才能把任务真正做完整。

这也是为什么我们一直强调,具身智能模型最好从Day 1开始就接触物理世界数据——它要学的不是孤立的动作,而是动作、反馈和世界变化之间的完整因果关系。

智能涌现:你们联合Hugging Face发起了RoboChallenge这个具身模型的真机Benchmark,也引起了业内对原力灵机“又做裁判又做选手”的争议。所以,在你看来做评测的必要性是什么?

唐文斌:其实评测是非常重要的。我们内部有一句话说叫,如果你花了50块钱,这个模型应该花20块钱去评测一下它。否则如果你自己都不知道如何衡量他的好坏,我们先不说衡量大家,我们就先衡量自己,如果都没有这根尺子。你如何能够把这事儿做好?


△“RoboChallenge最新评测榜单(截至2026年3月30日),图片:采访人提供”

智能涌现:如果你的模型真的好,最后客户买单了,这不是一种更实际的Benchmark吗?

唐文斌:对,但这个反馈周期很长。而且,其实今天客户买单,可能是出于很多种原因。客户不买单的模型,大概率不是一个好模型;但好模型不一定会得到客户的订单。

以及当前可能模型在某个场景能力很强,但如果想考察它通用场景中的泛化能力,那还是需要一个Benchmark评测。

务实与做自己

智能涌现:你们在今年2月10日,成立近一年的时候,才正式发布了第一款模型。和行业普遍节奏比,会不会有点“慢”?

唐文斌:我觉得今天的一些短暂的领先并不本质,比如别人一成立就发布了模型,或者DM0目前在Benchmark上的表现比较好。但当前的领先还说明不了什么,过两天可能就被追上了。

现在的本质是因为很多东西都在变化,真正重要的是迭代效率——你内部能不能更快地发现问题、解决问题。如果迭代效率比别人高,你就能一直跑在前面。

智能涌现:你曾经说具身智能的“ChatGPT时刻”是,“一个场景1000台机器人,持续运行”。这个标准怎么来的?

唐文斌:一个场景1000台持续运行,意味着两件事。第一是业务流程闭环了,不用人过多参与的情况下,机器人也可以持续完成任务;第二是,账算明白了,客户愿意批量化使用。

达到这个水平,才能说是真正地被客户用起来了。

智能涌现:所以现在有真实的具身智能持续运行的场景吗?

唐文斌:持续运行的商业化场景其实都没那么快。我觉得大家对场景还是要有一定的耐心。但我觉得今年,最晚明年,至少在一线场景上,会出现真的商业化。

智能涌现:那你怎么看待当下具身行业里,那些“客户采购具身智能公司的机器人组建数据采集工厂,又将采集的数据卖给机器人公司”,从而做大收入流水的现象?

唐文斌:这实际上是一种“循环收入,我不能说这些做法不对,这些企业确实获得了收入。但公司要想清楚自己的价值导向,如果你的销售成天在干循环收入,谁还愿意干那些真正难的事情?

智能涌现:你现在对做To C的产品有想法吗?

唐文斌:最终会做。但To C比To B难得多。To C最终有两种,一种是做玩具,一种是做工具。现在具身智能To C还是在做玩具的阶段,工具现在还有阶段性的,没到那个技术点上。

在C端,一个机器人通常要会干很多件事情,用户才觉得有用。但在B端,它只要干好一件事,就能持续创造价值。而且C端对成本更敏感,对错误容忍度更低。

所以还是先从B端开始,等模型能力足够强,成本降下来,再想C端的事。

创业十年:愚昧之巅、绝望之谷、自信的平常心

智能涌现:从业务本身来讲,现在和十年前在旷视时,差异点是什么?

唐文斌:旷视当时做了好几个不同的业务,觉得技术可达,市场也可达,就都去做了。但结果是人才稀释了,最强的那些人被摊薄了。

这回到创业公司经常被问到的一个问题“如果大厂干了这件事情你怎么办呢?”。但实际上大厂并不是举公司之力在干一件事情,而创业公司可以。

我的体会是,max(A+B+C)基本上等于max(A,B,C)。就是说,把多个能力简单叠加,效果不会超过把最强的那一个做到极致。

智能涌现:你当下在企业管理中,最不能接受的现象是什么?

唐文斌:我们现在还比较强调开放和谦逊。我觉得我比较不想看到的,是一种叫自负,就是Ego很大的情况。

当然,作为创业公司,一旦做好决策,还是要坚决贯彻执行。但在此之前,观点是要被允许开放讨论的。我觉得今天这个世界变化太快了,大家的智慧、开放的心态是能够更好迭代的基础。

智能涌现:你觉得现在的自己,和十年前在旷视时有什么不同?

唐文斌:十年前刚创业的时候,很多东西不懂,是一种“初生牛犊不怕虎”的状态,觉得自己什么都行。后来被现实教育了,又走向另一个极端——不自信,觉得很多事情不知道怎么做。

再后来,试错多了,慢慢回到一种自信的平常心,不是盲目的自信,也不是胆怯的不自信。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
浙大研究:每天多吃一个蛋,心脏疾病和癌症死亡风险增加?真相来了

浙大研究:每天多吃一个蛋,心脏疾病和癌症死亡风险增加?真相来了

消化石医生
2026-03-30 11:17:40
演唱会下大雨曾毅扔伞,玲花苦笑大喊“烦人”,也扔伞被雨淋惨了

演唱会下大雨曾毅扔伞,玲花苦笑大喊“烦人”,也扔伞被雨淋惨了

阿讯说天下
2026-03-30 14:59:47
江苏省长会见李想!

江苏省长会见李想!

电动知家
2026-03-30 19:16:47
火爆冲突3人吃T!掘金逆转勇士6连胜 约基奇25+15+8波神里程碑

火爆冲突3人吃T!掘金逆转勇士6连胜 约基奇25+15+8波神里程碑

醉卧浮生
2026-03-30 12:38:53
就3分!首胜,终于拿到了!

就3分!首胜,终于拿到了!

左右为篮
2026-03-29 21:35:56
考文垂城距离重返英超仅一步,英冠积分榜领先对手9分

考文垂城距离重返英超仅一步,英冠积分榜领先对手9分

林子说事
2026-03-30 01:24:22
结婚6年后,唐艺昕宣布新身份:“再见了,张太太!”

结婚6年后,唐艺昕宣布新身份:“再见了,张太太!”

科学发掘
2026-03-30 10:31:22
退休人员乐开花!2026年养老金调整方向敲定,尤其是这类人更受益

退休人员乐开花!2026年养老金调整方向敲定,尤其是这类人更受益

社保小达人
2026-03-30 10:20:07
中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

中东危机只是小菜?更大危机还在后面,外媒:中国将彻底颠覆战场

叹知
2026-03-29 18:13:46
7年败光数亿,55岁王中磊落魄,被迫拍短视频还债,儿子在美潇洒

7年败光数亿,55岁王中磊落魄,被迫拍短视频还债,儿子在美潇洒

以茶带书
2026-03-30 18:03:47
突发快讯!美军袭击伊朗钢铁厂后,伊朗反手炸了美国的“大动脉”

突发快讯!美军袭击伊朗钢铁厂后,伊朗反手炸了美国的“大动脉”

陈意小可爱
2026-03-30 09:44:53
41岁美女朱明月去世,常熬夜吃外卖,几千万身价,公婆惦记财产

41岁美女朱明月去世,常熬夜吃外卖,几千万身价,公婆惦记财产

180视角
2026-03-30 11:49:38
阴阳先生看房子风水:卧室里若有这2个东西,无论多贵也要丢掉

阴阳先生看房子风水:卧室里若有这2个东西,无论多贵也要丢掉

磊子讲史
2026-03-28 18:32:26
悲催!滴滴司机车内张贴求职广告,知名本科毕业,称愿做良驹牛马

悲催!滴滴司机车内张贴求职广告,知名本科毕业,称愿做良驹牛马

火山詩话
2026-03-30 06:25:28
今日最惨股,上一分钟还是一字涨停状态,下一分钟就在跌停板上了

今日最惨股,上一分钟还是一字涨停状态,下一分钟就在跌停板上了

丁丁鲤史纪
2026-03-30 16:49:15
“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

“黄毛的爹,酗酒的妈”,上海三口之家火了,只有孩子看着不叛逆

妍妍教育日记
2026-03-29 07:40:03
突发!无锡一会员制超市全面开放!

突发!无锡一会员制超市全面开放!

江南晚报
2026-03-30 21:17:48
A股分红派息转增一览(3月30日):1股今日股权登记

A股分红派息转增一览(3月30日):1股今日股权登记

每日经济新闻
2026-03-30 07:59:53
美军特种作战部队人员已抵达中东,特朗普:希望像“在委内瑞拉那样”,从伊朗“夺取石油”,与伊朗“可能”很快达成停火协议

美军特种作战部队人员已抵达中东,特朗普:希望像“在委内瑞拉那样”,从伊朗“夺取石油”,与伊朗“可能”很快达成停火协议

每日经济新闻
2026-03-30 13:17:05
特朗普第86波打击,伊朗求援中方坚定回应

特朗普第86波打击,伊朗求援中方坚定回应

三毛看世界
2026-03-30 15:18:47
2026-03-30 22:28:51
36氪 incentive-icons
36氪
让一部分人先看到未来
151019文章数 2848618关注度
往期回顾 全部

财经要闻

本轮地缘冲突,A股凭什么走出独立行情

头条要闻

开发商承诺有学校3年后交房没建 业主起诉被当地驳回

头条要闻

开发商承诺有学校3年后交房没建 业主起诉被当地驳回

体育要闻

想进世界杯,意大利还要过他这一关

娱乐要闻

单依纯凌晨发长文道歉!李荣浩再回应

科技要闻

一句谎言引发的硅谷血案

汽车要闻

限时12.58万起 银河星耀8远航家系列上市

态度原创

手机
时尚
游戏
数码
公开课

手机要闻

全焦段创作自由 vivo X300 Ultra专业V单发布

这件衣服绝美!今年流行的风格而都离不开它

《GTA4》重大泄露!开发机流出:118G海量数据泄密

数码要闻

4499元起!vivo Pad6 Pro正式发布 搭载行业首款4K屏

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版