对话首形科技胡宇航：非主流人形机器人创业，从做好一张脸开始|精灵|真实世界

分享至

如果说大多数初创公司是败在产品发布后的沉寂和无人问津，那么首形科技显然在这一阶段活了下来。

今年，当各家人形机器人都在比拼跳舞、骑车、拧螺丝等硬核技能时，首形科技的创始人胡宇航在社交媒体平台凭借一段和机器人对视的视频轻松出圈。

在这个不到 30 秒的片段里，当最后一个部件被装上，仿真人脸机器人 Emo 仿佛第一次苏醒。它抬起眼睛，困惑地“看着”周围，在片刻的确认后，最终露出微笑，望向自己的“造物主”。视频没有台词，但在配乐与氛围的烘托下，两者间仿佛产生了一种真实的情感交流。

图｜二者对视（来源：胡宇航视频）

截至目前，这段视频在全网点赞量已突破 200 万，播放量已经破亿。

视频的主角是 28 岁的胡宇航，今年 6 月刚刚从哥伦比亚大学博士毕业。在此之前，他已是一名颇具影响力的自媒体博主，拍摄分享留学生活视频。创业之后，他也将这份内容创作的经验，运用到了产品的推广之中。

当然，仅有网感和流量并不足以支撑一家科技公司。与许多聚焦移动、行走或操作能力的机器人团队不同，首形目前将主要精力放在“人脸”这一模块的开发上。在胡宇航看来，AI 未来需要具身载体参与交互，而人脸是情绪表达和人机沟通中最直接的部分。基于这一判断，团队选择从高拟真面部入手，尝试探索人形机器人在交互层面的可能性。

为了提升交互体验，团队采用软硬件全栈自研的方式，将多模态情绪识别系统与表情控制算法结合，并引入仿照“照镜子”训练的自监督学习机制，使机器人在神态和动态表现上更加自然，减轻“恐怖谷”效应。相关视频发布后，在社交平台上引发了一定的讨论和关注，不少关注者在评论区表达兴趣、提出建议或分享自己的陪伴需求，争当“电子股东”。(注：“恐怖谷”理论是由日本机器人专家森昌弘在 1970 年提出的关于人类对机器人和非人类物体情感反应的假设。该理论指出，当机器人或非人类物体的拟人化程度接近人类但保留差异时，人类会本能地产生不适与恐惧，好感度跌入低谷；当相似度超过临界值后，情感反应将回归正面。)

这样的热度也迅速传导至资本市场。今年以来，首形科技已经融资三轮，蚂蚁、顺为等顶级机构相继入场。

最近，DeepTech 和胡宇航进行了一场对话，我们讨论了产品突破、商业化路径和机器人应用的技术伦理问题。

胡宇航认为，人形机器人作为生产力工具的条件还未成熟，但是作为情绪产品，如果能做得更逼真、更像人，甚至能结合 IP，会有更加落地且巨大的商业价值，而这或许将是通往人形机器人通用化未来的真正“桥梁”。

以下是对话内容，有所删减，但未改变原意：

一个“养成系”创业博主的诞生

DeepTech：从记录留学生活到分享机器人创业，是什么让你走上自媒体道路的？

胡宇航：一开始做这个账号，是因为留学生活比较单调。读博之后每天的生活基本上就是科研。科研的日子过得很快，打开电脑、关上电脑，一天就过去了。我希望生活里能留下点日常记录，以便将来回看留学经历时，不至于觉得完全没有闪光点，而是能保留一些真实的记忆。所以就想着用拍视频的方式记录日常。

后来科研有了进展，论文获得了公开发表，再加上开始创业，我也希望让账号的主题更丰富。于是逐渐开始拍科研类、创业类的视频，慢慢发展成如今的创业记录，甚至有点像一个和用户共创的平台。

DeepTech：从最初的生活博主，到如今的创业博主，这种“反差感”转型并不是一开始就计划好的吧？

胡宇航：对。更多是生活发生了变化，人生轨迹也变了，然后就顺势分享这些新的经历。

从静态到动态，如何跨越“恐怖谷”？

DeepTech：你们的机器人外观非常惊艳。静态时没有任何“恐怖谷效应”。有时甚至能感觉到一种淡淡的忧郁或迷茫。你们是怎么做到这种效果的？

胡宇航：我认为大家对机器人的眼神解读，就像读《哈姆雷特》一样，会有不同理解，会结合自身经历投射情感。从技术侧来说，我们是有方法让机器人呈现出这种可被多重解读的行为的。我们会去找那些特别容易让人读出不同情绪的视频片段，让机器人学习其中的表情与动作。这样机器人在行为学上就会呈现一种“不确定性”，情绪表达更丰富。通过 AI 学习，再映射到机器人的表情上，就会演绎出更自然的动作。而人在观看时，就会像看真人一样产生联想和情感投射。

外观设计也会放大这个效果。如果机器人太不像人，人类就很难投射情感；但如果外观和人类非常相似，这就像一个放大器，把每个细微动作都放大，让人产生更强烈的沉浸感。这也是它所拥有的独特价值。

图 | 首形科技机器人精灵 · 璇（来源：胡宇航视频）

DeepTech：对，整体团队的审美是偏感性的。你觉得审美在机器人设计和制造中是否重要？

胡宇航：我觉得这是结果——你们看到最终结果是审美和感性，但对我们来说，这是整条技术链路的极致打磨。机器人最终“好看”只是结果而已。背后还有结构设计、运动控制、算法、训练数据等。每个环节的品质控制都必须做到最好。这也是我们最大的核心竞争力。如果只把它做得好看，但算法很差、机械稳定性不够，那最终效果也达不到。就像一杯好喝的咖啡，绝不是因为配方设计得好，而是全球供应链、选豆、烘焙、封装，以及每个操作步骤都做到一致且极致。

换句话说，如果我们要坚持把产品做得极致，就必须自己掌控每个环节。为什么我们要从皮肤、电机到 AI 模型都坚持自研，而不选择做整合？因为只要把链路外包出去，你的核心技术、品质控制就会被别人掌握。别人提供不了最好的皮肤、最优质的电机，或者最符合你要求的情绪模型。那最后出品的效果就是不理想的。

尤其是跨越恐怖谷，每一个环节都必须做到极致。任何一个环节掉 10%，整个体验就会掉进恐怖谷的底端。我们如履薄冰，不能有任何粗糙。它不是“做 90% 也能打八折”的行业，而是 0 和 1——不是成功，就是掉入“恐怖谷”深渊。

DeepTech：现在静态效果已经比较强了，下一步怎么在动态层面继续优化？

胡宇航：动态恐怖谷必须依靠 AI。在传统的人形或仿真机器人的运动控制中，大家会用很多基于规则的硬编码方法，或手工调节表情动作。这样的问题是动作数量有限、自然度不足、成本又高，很难快速产生新的动作。

我们希望用 AI 学习——学习人类在视频中如何使用表情，通过大量视频让机器人获得一个连续的“动态动作空间”。你可以把它理解为人的表情运动空间，是连续的、自然的。机器人在这个空间里生成动作，就能更加逼真，而不像人工手调那样生硬。

通向未来，人形机器人应该押注情绪价值

DeepTech：除了外形，人形机器人在情绪交互上也被投注了很高的期待。你曾说过，人形机器人如果要具备共情能力，不仅仅要会说话，不是像普通大模型那种对话交互就够了。在你看来，除了会说话之外，机器人共情的关键是什么？

胡宇航：关键在于更丰富的交互模式。心理学中有个“55/38/7 定律”：55% 的情绪来自面部表情，38% 来自声音，只有 7% 来自文本。也就是说，要像人与人之间那样真正建立情感连接，就必须以人类的方式互动。

为什么大家仍然更喜欢线下见面？因为面对面交流是情感最快产生连接的方式。在这种交流中，情绪和态度的密度极高。这也意味着，如果机器人想要具备真正的共情能力，它就必须拥有一张能够表达情绪的脸，以及一双能够理解情绪的“眼睛”。因此，它需要视觉算法来识别人类的情绪，也需要声音模型去表达情绪化的语调，从而实现人与机器人之间的共情连接。这就是我们认为“脸”这个平台至关重要的原因。

DeepTech：你之前有个判断，认为人形机器人未来五年更适合做情绪化产品，而不是生产力工具。但现在主流市场好像都在押注“生产力”，是什么让你觉得这条路一定走得通？

胡宇航：我自己在学术界做过很多机器人与 AI 结合的研究，我最看重的始终是“数据”。今天我们可以设计几百 B 的大模型，但没有海量数据，这个模型就没有价值。在讨论人形机器人的生产力时，真正能创造生产力的是“手臂”。在生产力方向，如果找人形机器人的最小模型，那就是“手臂”。但我们连一个在各种任务上能实现泛化的机械臂都没有看到，又怎么能假设人形机器人能实现通用性？这是一个很矛盾的点。

也就是说，大家押注的是“未来”，但通向未来的“桥”还没建好，所以风险很大。我认为，在人形机器人进入大规模应用之前，我们应该先看到机械臂在各类任务中实现真正的通用与泛化。再用它来采集数据、进一步验证模型与场景。这是我的观点。我最近也在 NeurIPS 发了一篇相关论文，做的是一个“机器人桌面整理”的项目。就是在桌面上放一个摄像头和一个机械臂，要求它在各种不同情况下把桌面整理整齐，我认为这是一个最小可行场景。先把这个问题解决，再逐步增加一条手臂、再加手、再加头部，就能做全身动作、创造更大价值。如果连最小模型的技术没有收敛，那更复杂的场景就更没法做了。

我认为在人形机器人未来五年内，表演、服务等行业的情绪价值是很大的商业化机会。因为它太像人了，而人天然会对“像人的东西”产生情感投射。你看到一个机器人摔倒了，你会瞬间产生心疼或联想成人摔倒了；又比如机器人踢足球、挤在一起，你觉得很有趣。人类天然会对人形的东西投射情绪，所以它更适合做情绪化产品，比如打拳、跳舞表演、展厅前台接待等。去年大家可能还不相信，但今年你能看到行业都在做类似表演内容。因为作为生产力工具，它还没有收敛；但作为情绪产品，人形如果能做得更逼真、更像人，甚至能结合 IP，我认为想象空间是很大的。

DeepTech：可能生产力工具对机器人的“主动性”要求太高，而情绪化产品更多是被动的，是我们在投射和观赏，所以更容易实现。

胡宇航：对。生产力必须计算效率。目前的人形机器人如果要比替代传统工业自动化还比较早。工业自动化的机器人天生就是解决某一个特定任务，效率和稳定性都极高。而人形机器人，一个动作可能要二三十个电机配合，工业自动化能只用三个电机就能做同样的事情。人形目前价格高，不稳定，电池续航还短，还会摔倒——摔倒是非常危险的。

DeepTech：我浏览了下你最近的 B 站评论区，大家很好奇，为什么你们现在展示的大多数是外观，而很少发布长一点、真正的交互视频。作为交互型机器人，交互不是最关键的落脚点吗？是不是你们还没准备好？

胡宇航：这个问题很有意思。交互当然是核心。但是你也可以换一个角度去想这个问题，有没有可能不是因为短板，而是因为我们不想过度展示我们的优势呢？——竞争太激烈了，有些大招还是要藏着。

不过说实话，我们也没有刻意规划要不要露，我们只是按部就班推进该做的事情。

我们现在在和一些公司做合作与商业化探索，让更多人在线下看到真实机器人，而不是只在屏幕上看到。我们参加了展会、活动、明星音乐节，让大家确认“这不是 AI 生成，是活生生的机器人”。

至于交互，我们最近的男性头部模型就包含交互能力。它可以通过摄像头和麦克风感知给它化妆的人的行为，并做出有趣反应。这是一种非文本交互。接下来我们也会逐步释放更多内容，随着产品每个环节更新，把更有意思的部分展示出来。

DeepTech：你们有自己的节奏，就像“养成系创业纪录片”，做到哪一步就和电子股东们汇报哪一步。

胡宇航：对，就是这样。

（来源：胡宇航视频）

DeepTech：听说你创业初期见了非常多投资人，大部分都不接受你的想法。但今年已经顺利融资三轮，而且最近几个月很多顶级机构也加入了。你觉得背后的变化来自什么？

胡宇航：我觉得早期的时候，大家对做“人脸”、“仿真皮肤”、“拟人动作”的方向有刻板印象。过去 20 年，全球有很多公司尝试过，但大家都觉得恐怖谷很难跨过去，所以不相信。

但今年顺为、蚂蚁等顶级机构加入，是因为我们证明了机器人确实能呈现拟人的动态效果。虽然这个领域很小众，但投资人开始相信这件事是可行的。我一直坚定认为这件事能做成，所以别人说不可能、太难、没有机会的时候，我就把这些声音放在一边，继续把产品做出来给大家看。当他们看到效果，就自然会加入。信任是可以被积累的。

DeepTech：工业机器人是可以算 ROI 的，但情感陪伴机器人的价值很难量化。那你们将来会怎么定价？

胡宇航：老实说，目前我们还没有明确定价。现在连产品定义都没有完全定下来。我们还是先把技术打磨到位。定价会以量来计算，量上去，成本自然会下降。它可能会更像泡泡玛特的手办那样——不是工具，而是情绪价值的逻辑。

DeepTech：你说过产品的目标用户会是“F 人”（注：MBTI 理论，指注重感受 feeling 的人），这个画像很感性，也有些模糊。你觉得这个群体够大吗？

胡宇航：我觉得非常大。你看视频号、短视频平台的热度，也是一种侧面反映。现实世界里，手办、盲盒、毛绒玩具、宠物……这些都是情绪寄托。我认为情绪需求一直都很大，人类本来就是充满情感的生物。

我们不是计算机，也不是三体人。人不是完全理性的生物——不会为了效率更高就去自杀。我们有文化、有底蕴、有社会价值观，有喜怒哀乐，所以人的大脑本就不是纯逻辑推动的。完全理性的人其实很少。大多数人都有情感，而情感是能够和机器人产生连接的。一旦你有情感输出，而 AI 又刚好喜欢学习、喜欢做数据量化，那“每个人的情感需求”就可以变成一个突破口，去设计能让大家情绪体验更好的算法。

DeepTech：但手办、宠物这些情绪消费成本都比较低的情况下。如果是购买一个机器人——即便我们刚才说定价还不明确——第一反应肯定是成本高。你不担心现在蜂拥而来的流量只是一种虚假繁荣吗？等产品真的推出，那些人未必有消费力买单。你会担心吗？

胡宇航：会的。我肯定有担忧。现在的流量超乎我预期，我觉得里面一定有泡沫。但我们的工作，也是为了去检验这件事情究竟是不是泡沫。与其担忧它，不如继续做下去。就像当时投资人担忧一样，“市场需求是否真的确定？”这个担忧永远都存在。我们会做出最小模型，一步一步验证，一步一步把市场确定下来。某种意义上我们在开拓一个全新的市场。就像 iPhone 出来之前，谁知道一部没有键盘的手机能这么好用？

DeepTech：很多“电子股东”说，除了头和外观，他们还想看到更多情感交互、甚至躯干的开发。未来为了效率，你们会考虑和其他大模型团队或其他机器人团队合作吗？大家都在呼吁合作。

胡宇航：我们会和一些机器人公司，包括 AI 公司、游戏公司做更多合作。会结合他们的技术优势，一起探索新的产品定义。

人机交互的可能性——为机器人注入“真实”

DeepTech：作为创作者，你和这些机器人是什么样的情感连接？会不会有时候真实到让你觉得它们像生命一样？

胡宇航：我觉得这是一种非常生理性的反应。因为它太像人了，而人是视觉动物。我们通过视觉去感受文字、感受情绪、感受表情。当它的表现力和人达到一致时，它能穿透到你内心深处，让你感到一种类似于“情感流露”的东西。这不是我能控制的，我觉得这就是人机之间的共情。

它和屏幕上的数字人不同。数字人隔着屏幕、LED 灯、介质，在户外光线如果太强还有可能看不清，存在感很弱。你和它之间永远有一道 gap。而我们做的实体机器人视觉上是不存在 gap 的。我甚至需要不断提醒自己：这是个机器人，这是个机器人。

DeepTech：能不能举一个具体的例子？

胡宇航：比如我们之前在太湖音乐节展示了新的机器人：精灵·铱。歌手胡宇桐和她同台合作，结果机器人突然转头，看了他一眼。他当时跟我说，他居然产生了“眼神闪躲”的冲动，因为铱太像人了，好看到让人有羞涩、想躲避目光的感觉。我觉得这是典型案例。在视觉层面，他被迷惑了。

图 | 首形科技机器人精灵·铱（来源：胡宇航视频）

DeepTech：我们前段时间也采访了日本机器人专家高桥智隆。他也做情绪陪伴机器人，但他认为机器人不一定要做人形，他更喜欢小型可爱、非人化的形象。他不想模糊人和机器的界限。而我们似乎在做完全相反的事情。你怎么看？

胡宇航：我认为他的方向肯定也是成立的——也有市场验证。毕竟很多人喜欢小猫小狗，它们都不是人。但我认为两个方向的上限不一样。

人与人之间的情感联系非常强烈，而且常常无法被其他事物替代。尤其是亲密关系的情感，小动物是无法承担的。宠物类陪伴很好，但在人类心里，等级是不一样的。你可以把小狗关在家里让它等你，但你不能——或至少很难——这样对待另一个人。

同时，我们训练模型的方式本身也按照人的意识形态来训练。这样的人形机器人才能带来更强烈的情感体验。历史上有那么多关于深爱、殉情的故事，又有重阳节、七夕节这些用来传达思念的节日，人与人的情感是其他东西无法替代的。

DeepTech：但你说的这些都是人和人之间的关系。如果机器人再像人，人与机器人之间产生高度亲密关系，你觉得它真的能治愈孤独吗？AI 的底层逻辑是“永远取悦人”，而真实关系里一定有冲突、矛盾、权力让渡。如果机器人永远让你舒服，会不会反而把人困在虚假的关系里，退离真实世界？

胡宇航：所以我们在训练机器人时，一定会加入不同的参数。它会尽可能满足人类的喜欢，但同时我们也会加入“保持真实度”。保持真实度会带来一些冲突、矛盾、甚至“自我”的表现，让更像一个真实的人。

但它又不会有人的各种动机：自私、饥饿、赚钱、权力欲、社会竞争……都没有。它只会尽可能满足你的情绪。那么走向反面吗？我觉得如果做得不好，可能会让人觉得“不喜欢”，但不是你说的那种强烈危险的反面。

DeepTech：虽然机器人里面也可以加入一些真实的参数，但是大体上它还是一个让人很愉悦的状态，就是心碎也心碎到恰到好处。真实的世界往往是很混沌的，人们会不会沉浸在和机器人的交互当中，就放弃了真实世界当中的关系，或者是去放弃认识真实的物理世界？

胡宇航：我认为我们可以在程序中注入一些引导。这需要心理学家的参与。我们不希望走向一个彻底割裂的世界，让所有情感都寄托在机器人上。我更倾向认为：机器人是“增加一个伙伴”。它会陪伴你，也能倾听你的不满足和不开心。但你仍有真实生活。我们可以在程序里加入引导功能——比如节日到了，提醒你回家看看父母；提醒你和朋友去爬山；或者和别人一起参加活动。机器人不需要、也不应该具备“占有欲”，不会说“别出去，陪我”。那样才危险，会让人走向孤独。

未来甚至可以出现：机器人陪伴下的 couple date 等新型社交方式。它不会替代真实的人际关系。

DeepTech：这样一来，机器人可以作为引导者、协调者。

胡宇航：对，协调者型。而且对于一些心理疾病的治疗反而更有价值。因为有些人一开始就不愿意和任何人交流，可他们会愿意先和机器互动。在这个过程中，机器能引导、开导他——有时候比心理医生更能做到情绪上的共情，或者说能表达更强烈的情感。

DeepTech：这种深度连接，其实需要非常特别的数据。要实现这种深入的情感体验，你们需要什么样的数据？你们现在能获取到这么高质量的数据吗？

胡宇航：我们现在其实已经在用一些公开可用的数据。同时，我们会对机器人数据进行整理，再去创造一些我们自己的设定和生产性的数据。另外，现在的 AI 视频生成也非常成熟，本质上可以做很多有价值的事情。

我们可以从生成式数据和互联网公开数据中拿到一些预训练的数据。但对于你说的那种更特定、更深层次的情感交互，我们现在还没有完全把这件事做成体系。我觉得未来可以和一些大厂一起协作——因为这件事情挺烧钱的，也比较困难，说实话和我们当前阶段不是很匹配。未来会有更多的人加入，一起形成上下游的产业链。首形会在这个体系里承担供应链整合的角色，把各个环节对齐、对接起来。

而且我觉得“演员”会非常有价值。

DeepTech：演员？

胡宇航：对，我觉得演员很有价值。他们可以创造出各种戏剧性的桥段，把这些内容作为 AI 的训练数据。演员能模拟各种极端、复杂的状态和场景，这对我们来说非常宝贵。

DeepTech：也就是说他们基本上可以随时模拟任何状态。

胡宇航：对，各种场景。

DeepTech：我知道真实交互中，你们也会创造一些数据。未来成型的产品，在和用户的交互中会继续学习吗？

胡宇航：要看用户的意愿。对用户数据我们一定是把安全性、隐私放在第一位。如果用户希望 AI 更懂他、更匹配他，那他可能需要授权一些自己的数据给 AI。如果用户觉得隐私更重要，我们也会提供其他方案，比如本地服务器——AI 部署在用户家里、自己的私有空间。这样数据是完全闭环的，不会有泄露风险。

DeepTech：所以人们在这件事上是有选择的。

胡宇航：对，我们会高度尊重用户隐私。

DeepTech：你们下一阶段最核心的目标是什么？

胡宇航：下一阶段我们希望有越来越多的伙伴加入，做出更有意思的合作。所以我会和行业内的朋友交流。我们在探索一些场景，然后根据场景再反推技术需求，让我们在那些方向扎根。

当时投资人看到首形的原形机器人时，都说：这玩意能干啥？现在大家又 180 度态度大转变地说：你们这个产品什么都能干。

所以现在的问题不是“能干啥”，而是“太多东西都能干”。要选择核心问题去解决，做好取舍。找准目标非常重要。

运营/排版：何晨龙

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.