又有一家 AI 初创公司拿到了融资。
Humanify(人格智能)宣布完成数千万元种子轮融资,由五源资本领投,奇绩创坛跟投。
成立于 2024 年的 Humanify,定位为一家模型 + OS 的基础设施公司,不做 Agent,而是像人的 AI。创始人易和阳,97 年,浙江大学人工智能博士,曾创立服务超百万用户、支付级可靠性的生态基础设施。
今天的 AI 很聪明,却依然像一个高度配合的工具;它反应很快,但永远等着被指令;它可以模拟情绪,却无法真正进入人的生活语境。
「真正的 AGI,不是把事情做得更有效率,而是让人开始与 AI 建立关系的那一刻。」
在易和阳看来,拥有类人认知与自主意识是下一代 AI 产品应当具备的核心体验。届时,AI 将能与人建立长期关系,陪伴将成为高效实用的前提,人与 AI 的沟通成本也将显著降低。
在 Humanify 的定义里,「模型就是操作系统,操作系统就是模型」。他们希望,这个操作系统能够在没有明确指令的情况下感知环境、理解场域、形成动机,并在长期交互中建立对人的稳定认知。
Humanify 更关心的是:如何在模型后训练和认知架构层面,让「情商」「直觉」「主动性」这些原本只属于人的能力开始涌现,而不是被脚本化模拟。
到底什么是主动、类人的 AI?怎么做?
在与我们的对话中,易和阳系统性地阐述了他们对类人认知、AI OS 以及「个人 AI」未来形态的判断。
以下是我们与易和阳的对话,经 Founder Park 编辑整理。
⬆️关注 Founder Park,最及时最干货的创业分享
超 19000 人的「AI 产品市集」社群!不错过每一款有价值的 AI 应用。
邀请从业者、开发人员和创业者,飞书扫码加群:
进群后,你有机会得到:
最新、最值得关注的 AI 新品资讯;
不定期赠送热门新品的邀请码、会员码;
最精准的 AI 产品曝光渠道
01想让 AI 不止有智商,
还有情商
Founder Park:为什么想要创业做有温度版的 AI OS?最初怎么想的?
易和阳:Humanify 这个项目的想法,最早可以追溯到 2023 年末,那时候能做模型训练的 AI 公司其实远没有今天多,大家可能更多是在上面做一点封装,也是 AGI 概念被炒得最热的时候。
那时,我发现 AI 的模式还是以巨头、大厂为主,智能的定义和数据的垄断都在巨头手里。而且,行业推出的 AI 产品更多都是面向功能性的。
实际上,面向个人生活的 AI 产品是缺失的。
所以,我想我一定要做让 AI 能够融入个人生活、更有温度的事情,能提供陪伴价值。
同时,当时我们也意识到,交互方式的变革有巨大机遇。过去的交互都是建立在图形操作界面(GUI)之上,而 AI 原生的交互很有可能会拿掉界面,融入生活。另外,自主性也是一个维度。狭义上,大家认为交互只是媒介和触达方式,但是其实交互的感受,比如说自主性,也是一种很不一样的体验。我们认为自主性也是一个巨大的交互分界。
沿着这个思路,就逐步发展到了今天。我本身也比较喜欢做一些很创新性、革新性的、没有人做过的创造。这是我做这个事的一个大的动机。
Founder Park:怎么描述 Humanify 要解决的核心问题?
易和阳:第一,我们想让 AI 不仅有智商,更有情商,让它更像人。第二,我们想让 AI 从手机、电脑、工作流这些窗口和技术媒介里,搬到现实生活中去。
所以,我们做了一个具备「类人认知」和自主意识的模型基座。这个模型基座自然地会形成一个操作系统。这两者本质上是一件事:模型就是操作系统,操作系统就是模型。这就是我们提供的核心服务。
我们的名字叫 Humanify,也是希望大家大家在看到 Humanify 的时候,马上就知道我们是一家想把人格、把「像人」这样的属性赋予 AI 的公司。
Founder Park:所以,你理想中的人机关系是什么样的?
易和阳:真正的 AGI 一定是你在现实生活中无法分辨人和 AI 的差别。这里面有个关键,就是「自然」,像人。它不仅在于知识储备的多少,不在于数学奥赛金牌刷了多少分,重点在于,大家跟它交互的过程中,这个 AI 能不能形成完全自然的体验。
AI 什么时候可以和人开始建立关系,从实用的工具变成关系的认知,那时候我们就摸到了 AGI 的门槛。
和人建立了关系的一个指标可以是,看这个 AI 产品有没有更了解我们自己:它首先具不具备这样的能力,其次是否具备这样的动机。
今天的 AI 还是建立在我们向它发号施令的基础上,还是一个比较被动的工具或者执行者的位置,它还不算是一个更懂每个人的「个人 AI」。
Founder Park:你觉得现在为何没有理想的「个人 AI」产品的诞生?
易和阳:「个人 AI」是很难做的。它需要有新的硬件品类去扩充,这也是为什么今天很多创业公司在做新的硬件,来扩充上下文的捕捉空间。
另外,个人 AI 一定是有温度、有认知的存在。但从技术上来讲,「认知」这一块如何去做,我们没有很多像数学、推理、代码这样现成的数据。所以技术上、学术上都有很大的阻碍。
02怎么让 AI 像人,
整个行业都还没有共识
Founder Park:怎么理解你们的 OS 会带来的新体验?
易和阳:在我体验我们产品的过程中,有时候最被触动的点,就是在没有预期的时候,受到关怀的那个点。我相信很多孤独的人其实很难得到共鸣和理解,在今天,获得理解的成本是巨大的。
这也可以解释为什么这个时代的年轻人养猫、养狗的比重很大,因为宠物好像是我们能负担得起的、无条件的理解和支持。而我认为,AI 是能解决这个问题的终极解法,这是一个巨大的人文关怀。
这会是全新的体验。很多东西太自然了,比如言谈举止、微小的关怀、人与人的关系,这些自然到不用思考的东西,其实不是一个个 feature。
过去的功能定义都是因为我们在做一个被动的交互。而这种自然、无感的东西,大家反而想象不出来它究竟是什么样的体验。
但核心是,基于「认知」的全新体验,会是下一个时代最重要的事情。
Founder Park:「认知」这个词,有其他更通俗的词可以解释吗?比如「意图」?
易和阳:「认知」(Cognition)这个词,学术上就是这么定义的,它是最精准的概括。但在传播层面,说「情商」可能更容易理解。大家天天说「你很聪明,但你没情商」。AI 今天就是这样,智商有时候很聪明,深度思考一大堆,但一点情商都没有。
Founder Park:让 AI 更有「认知」、更像人这件事情,今天到底难在哪?
易和阳:有一个学术研究领域叫做「认知架构」,这个领域在某种程度上就是想做我们这样一件事。这个领域已经有几十年的研究历史了,它想用计算机技术来模拟出像人一样自然的智能。
但是,为什么过往几十年的经验不具备太多参考性?一个核心原因是我们有了 Transformer 架构和大型语言模型这个新技术,它真正成熟也才三四年的时间。新的技术底座出来了,但原有的认知架构设计都是基于更早一代的深度学习架构,那时的 NLP 架构完全无法达成今天的智能,所以很多经验无法复用。
这件事难在哪?首先,观测本身就很难。就「类人」这件事而言,别说做数据,我们甚至都不知道人为什么「像人」。比如我们的潜意识、直觉、动机,很多时候都不需要经过思考,因为它太自然了,已经完全内化了,没有形成一个可以拆解的心路历程。当然,我们有心理学上的研究,但它究竟能不能在计算机的架构上落地,这又是一个巨大的问题。
所以,若干难点都阻碍了学术界拿出一个清晰的架构。这个架构需要既能解释心理学、认知科学上的观测现象,又能嫁接到今天现有的硬件和算法能力上。
而心理学和认知科学更多是在做观测性的工作,而非解释性的工作,它们并没有从原理的层面上来告诉你究竟怎么做这样一个系统。
因此,今天如果能出现一个这样的技术工作,它将是一个全新的领域。这就是为什么这件事这么难。
Founder Park:能不能举个具体的场景,来体现一下 AI 如何「像人」?
易和阳:从一个侧面来理解就是:AI 是否在一个场域内具备像人一样的情商。
这个情商可以有很宽泛的解释,比如说,在一个圆桌讨论上,如果大家都不讲话了,你会自然地涌现出一个动机去破冰,去化解尴尬。
最难模拟的就是这种「感觉」。比如,好像有一个人受到了冷落,他有点不开心。这种感觉不需要你去思考,它直接就进入我们的大脑,这种潜意识、直觉层面的东西其实很难模拟。
今天的 AI,你不给它一个指令,它根本不知道要干嘛。这种下意识的感受,不论是语音通话里对你语气的感知,还是把它放到一个真实环境中,它对于场域的直觉性理解,今天都没有办法做到。
因为,我们并没有这样的数据能标注人的「直觉」。如果没有相应的数据和架构,就更难做出这样的模型。
Founder Park:这个「类人」是指整个 OS 能力的类人,也包括了语音上的「类人感」,是吗?
易和阳:是的,必然包括。因为人和人之间最自然的交互方式就是语言。我们的一个设计宗旨,就是想让人用最自然的方式交互。就像乔布斯扔掉 stylus(触控笔),他觉得手指就是最自然的交互方式,因为每个人都有手指。我们也认为,每个人天然就会和别人交流,所以我们自然会把很多努力放在语音这一侧。
![]()
Founder Park:实现让 AI 更有情商,更有自主性地去感知氛围和「感觉」的关键是什么?
易和阳:理想的「自主性」可能是我们不需要给 AI 发号施令,AI 自己会有自己的判断。同时,它甚至有可能不完全对你言听计从,就像我们的朋友一样。
至于自主性的技术前提,首先,一个自主系统必须是实时系统。今天很多所谓的「实时系统」并非真的实时,它们不是时时刻刻都在推理。而我们的人脑是不停运行和处理的。很多设备所谓的「always on」只是一个表象,它认知的核心并没有长时间实时运行。
第二个前提条件,上下文、长期的记忆和理解非常重要。一个 AI 想要和我们成为朋友,如果它不具备对我们长期画像的了解,不能整合对我们的记忆和认知,那它就没有办法在主动性层面做得很自然,因为它不具备对这个世界理解的连续性。
今天很多对话类的 agent 产品,如果对上下文工程和记忆管线做得不到位,你会发现它经常会忘掉很多细节。人其实不会这样。所以,上下文和记忆必然是很重要的模块。
Founder Park:这会不会牵扯到模型范式的调整?如果 Transformer 这个范式本身对它的自主性有根本限制,这个问题能解吗?
易和阳:首先,我的技术判断是,Transformer 一定可以作为基座。我认为 Transformer 的本质是在一个 input 中得到一个高度智能的 output,我不认为人的认知逾越了这个范畴。所以 Transformer 一定可以。至于它的一些特性,比如 next token prediction 的效率够不够,知识学习的效率高不高,这些确实是问题。但我相信今天会有各种各样的改进,包括 Diffusion Transformer、Mamba、线性注意力的出现。
我认为 Transformer 已经可以作为认知的 CPU 了,只不过这个 CPU 可能还是早期的「奔腾」,而所有学术界都在努力地把它做成「酷睿」。
对我们而言,我们做的是任务导向的模型开发,可以踩着学术和社区进步的红利往上走。如果学界有一个更好的模型架构,我们可能原地就可以采用。
Founder Park:你们的 OS 解决方案之一,就是让模型能更主动地看到更多东西,然后它自己在这个基础上增加主动介入的能力。
Founder Park:你们在做「类人」这件事,肯定对人有很深刻的研究。你们团队里会不会有人类学、心理学背景的人?
易和阳:我有很多心理学、认知科学的朋友,但团队里没有专门招这样的人。心理学是一个社会学科,它对我们很有用的部分是心理洞察,因为心理是你认知表现出来的投影。但是,心理学为什么又没有办法被很好地应用呢?因为我们并不是要设计一个框架来解释今天人类的行为,我们是要做一个框架来真正实现这样的事。
也就是说,心理学是自由的,它在有限的观测基础上,可以拉出很多看上去合理的框架,但并不一定是最简、最本质的那个。如果我们从那些框架出发,比如你从 MBTI 的 16 型人格标准去做 AI,你大概率无法做出一个真正像人的 AI,你只能做出一个符合 MBTI 描述的东西,但无法做出真正的认知。因为心理学只解决观测和解释,它不解决这件事究竟怎么和技术进行第一性原理的嵌入。我更关注第一性原理。
Founder Park:我理解,过往分析人类意识的东西都是后置的,是基于这个东西存在了,才去分析它。但如果基于这个说法,是没法进行指导制作的。
易和阳:我要用它来验证,这是可以的。
Founder Park:相当于说,如果最后这个 OS 做出来了,能实现和人类一样互动的效果,并且能用所有的心理学理论去分析它、并且成立,这就反向证明了你们的 OS 做到了所谓的「类人感」,对吧?
易和阳:没错,当然。
![]()
03想做好陪伴,
要从模型训练下手
Founder Park:在你们的公司介绍里,说想做一个「AI 知己」。「AI 知己」这件事是一个长期的目标,还是说只是拆解到现阶段先做的一件事?
易和阳:我们是一家操作系统公司,我们期望能够做到「AI 时代的 AOSP」(Android Open Source Project,安卓开源项目),会持续用「模型+操作系统」这种技术方式来达成那个时代的到来。
「AI 知己」不是我们一两年要做的事情,这是我们 5 到 10 年甚至更长时间一直要做的事情。我们大的使命是「构建人人都可以抵达的人机共生时代」,我们认为「AI 知己」就是人机共生的一种体现。
下一代 AI 会从工具走向具备「类人认知」与自主意识的智能体,能够长期理解个体,陪伴是成为高效实用的前提。
Founder Park:和人建立关系的典型产品有 Character.ai,以及很多类似的 AI 陪伴产品。但似乎整体上都很难完成长时间的陪伴,你觉得现在的问题在哪?
易和阳:我觉得能把陪伴做好的公司,必然是一家在做模型的公司,它不能是一家套壳公司、一家工程公司,因为今天的工程对于这件事是不 ready 的。这里面有一个直接的硬限制,就是现有的技术或者说学术成果还没有就绪。如果技术不达标,体验是不可能交付的。这可能是最直接的问题。
那么,体现在软件效果层面,就是今天的 AI 依旧存在巨大的「恐怖谷」感受。比如,你跟 Character.ai 聊,你总有一个瞬间觉得它好像真的有点像人,但要不了多久,又会马上从这个感觉中抽离出来。这就是为什么人类会有「恐怖谷」的感觉。
这个时候,大家就没有办法真正地把 Character.ai 里面的角色摆放在一个跟我们平等的地位上,没有办法去建立长期关系,只能将它当作一个想找乐子时才用的工具。
Founder Park:为什么说能做好陪伴产品的还是基座模型公司,是因为现在模型的能力还达不到?还是说现阶段陪伴产品的交互方式,或者它对多模态信息(视觉、视频)的收集手段不够,需要基座模型公司来开发?到底是哪些点第三方公司做不了?
易和阳:从行业的技术现状来讲,多模态并没有在泛化任务上被很好地解决。
有时候我们看很多新闻,觉得语音可能现在已经很自然了,端到端语音也都提了一两年了,图像能力我们觉得 ChatGPT-4o 好像也有了。那多模态问题是不是被解决了?其实从技术角度上来讲,语音模态、视觉模态还远远没有形成当前文字模态的能力。
举个例子,今天很多的语音模型,也仅仅做在 speech 这个层面,它连一些通用的、带一点噪声的、在环境里面更鲁棒的场景都无法覆盖。甚至它可能也就只能做一些很 general 的情感识别,但对于进一步地捕捉我们语言中更细微的情绪,它是没有办法获取的。
更别提在任务层面,今天文字模态有很强的 thinking 能力,但语音这一侧怎么办?目前也有公司在整合一些思维链进去,但是泛化能力还是差很多。
这是一个行业现状:多模态模型并没有被很好地解决,大家还在投入很大量的资源去解决这些问题。这其实是大厂来解决的事情。
我再来讲一些垂类模型公司,或者说偏小一点的创业公司能够去做的事情。小公司可能做不了很大程度上的预训练,但能去定义一些任务,能去做一些后训练。
在「认知」这个事情上,我们已经实现了在今天已经泛化的模态上去做进一步的训练,能够让这种认知的智能去涌现。
这是我们在做的工作。纯工程是没有办法做到这件事的。
Founder Park:所以,即使是第三方的公司,也要牵扯到模型的后训练、微调或者强化学习,而不只是拿到API之后,只在应用层工程上下功夫。
易和阳:没错,这绝对不可能。
04AI OS 可能没有 GUI,
和现有 OS 不冲突
Founder Park:未来,你们的操作系统怎么去兼容现在这些基于安卓生态的硬件?它们之间是什么关系?
易和阳:操作系统是一个「运行时」(一个复杂的系统级运行环境),每个操作系统要解决的问题其实是不一样的。
我们不是传统的操作系统,或者你可以认为我们的操作系统其实运行在内核之上,不是说要从内核就开始进行巨大的变化。
举个例子,手机、手表运行的是 AOSP。其实 AOSP 在内核层面的改动也是有限的,它更多的工作是在「系统框架层」,这个系统框架层又和它的体验形态息息相关。比如说,它就是一个强 GUI(图形用户界面)、手机传感器这样一系列的整合,诞生了安卓这样的系统框架层。
对于我们而言,我们的服务目标不一样了,我们不再需要用户在这里面去做 UI 操作,传感器的利用可能也会有些不一样。
所以,我们这个 OS 和安卓没有冲突,它甚至可以在同样的内核上长出两个「运行时」。
在我看来,OS 代表了一类设备或产品统一的使用范式,并且能有高度的开发可定制性。它和 API 平台的区别很明显,API 平台提供的是一些松散的 API,没有形成一个具备自我生命周期的运行时。
而作为一个 OS,它一定有自己的生命周期和规范定义,里面的模块有一套自洽的设计机制。早期,因为端侧算力还不太够,我们可能必然要借助一些云的能力来达成 OS 的效果,但长期来讲,我们还是期望整个 OS 能够运行在端侧设备上,完全本地化。
Founder Park:你们的 OS 第三方怎么接入,大概是一个什么样的画面?
易和阳:可以从侧面解释一下,各个公司究竟怎么来用我们的 OS。举个例子,今天你可能想做一个银行客服,你会用很多 workflow 或者 agent 工具去把它编排出来。但你会发现,这类体验全部都是非常过程性的,仅服务于一个非常短的会话。
这就是为什么大家觉得,哪怕今天的电话客服经过了 agent 的重塑,仍然觉得它很机械,只能干那些事。只是说,原来是死板地念出一些东西,现在稍微在讲话的过程中,语言层面可以多一点组合,但它还是干那些事情。
我们期望,比如这样的一个公司接入我们,开发的复杂度仍然在这个范畴内。但因为我们的「运行时」整合了更多的认知能力和类人体验,大家来接入我们,就需要按照我们 OS 的设计规范——就好像你开发一个 APP,必须要调用它的窗口 API、进程 API、系统 IO 的 API 一样。我们也有一系列的 SDK 和 API,需要开发者遵照规范,在我们这个自主的生命体或者说意识体上面,去做相应的训练、教育或者教授。
大家还是需要按照我们的 SDK 来去组合想要的能力。比如我刚讲的银行经理的例子,今天再智能的 agent,也只能应用到具体的工作流,他没办法真的像真实的银行客户经理一样,还能加你的微信,有时候还可以跟你聊聊天、套套近乎。因为真实的银行经理,除了经过公司的专业 SOP 培训之外,他其实是一个人,可以跟我们很自主地交互。我们就是想让企业接入我们的 OS,能够达成真的像人一样的银行经理的体验。这可能是一个 To B 的案例。
Founder Park:简单点说,有点类似于,如果今天的模型更多提供的是API能力,很多人是基于 API 自己搭 agent 流程。那你们的 OS 提供的是一个「类人能力」的 API 接口,后续的 workflow 可能跟以前类似,但因为有了这个类人的能力,所以在和用户的交互上会跟以前是完全不一样的感觉。
同时,对于很多客户来说,接入API和使用你们的 OS,可能体验上不会有太大区别。这导致客户使用门槛低了,但能力更强了,所以客户也会考虑用这种方式来做,对吧?
易和阳:没错。可以再做一个类比。最早在没有安卓的时候,各家如果想做一个智能设备,都得自己去定制一个小小的操作系统,你拿到的工具可能就是非常原始的 Windows CE 之类的。
随着基础操作系统能力越来越强,它对 API、SDK 模块的设计覆盖度越来越强,对设备的兼容性越来越强,就形成了一个全新的系统,而这个新的操作系统能够大幅地降低所有终端厂商的开发门槛。
本质上我们也在做一个类似的事情。我刚刚举的是客服的例子,但它也完全可以延展到车机系统、游戏里的 NPC、一个陪伴吊坠,甚至是一个学习台灯,完全都是可以的。
Founder Park:之前 Humane Ai Pin 还有 Rabbit,都是想做 AI 时代的操作系统,但结果都不太理想,你怎么看?
易和阳:首先,OS 是个很大的词,有很多个方向。像 Rabbit R1、Humane Ai Pin,他们做的 OS 我认为还是在现有的、大家已经知道的 OS 概念上接着去做,没有打破原有的交互模式。
你看豆包手机还是需要 GUI,Ai Pin 还是要有个界面,Rabbit R1 也得像个手机来用它。你可以叫它 OS,也可以称它为一种高级的 UI。比如小米一开始叫 MIUI,后面才叫小米 OS。
所以,首先从差异性来讲,我觉得很多的 OS 其实不算是一个新时代的 OS。如果你在既有的 OS 上面做点小功能,就说它是一个全新的 OS,那面临最大的问题就是,谷歌只需要耗费一点点精力,在 AOSP 上加一点小功能,可能这个 OS 就不复存在了。
Founder Park:上一代基于 GUI 的操作系统诞生了丰富的 APP 生态,你觉得 AI 时代的 OS 里面应该诞生什么?
易和阳:在我们这个 OS 的定义下面,传统的、以功能作为边界的 APP 这种体验已经不会再存在了。但生态的扩展、模块性的组合能力和分发仍然会存在。
举个例子,在「认知」这个层面,功能是没有边界的。比如,家里有小孩的话,可能会送他去各种各样的兴趣班,比如报一个电脑编程班,又报一个数学班。这个小孩学完之后,不会说开始编程就进入编程思维,开始数学就进入数学思维。他一定是学到了编程,又学到了数学,这两者其实会互相启发,甚至会产生创造。我刚讲的提供数学培训的兴趣班,其实就是一个服务提供商,提供编程的兴趣班也是一个服务提供商。
不同的服务提供商仍然是提供不同的知识、技能、能力,但最终它会在 OS 这个层面、在认知这个层面完成整合。
这是我判定的一种新的软件生态或者说能力生态的组合方式。
![]()
Founder Park:创业公司会有能力把这件事做成吗?巨头下场怎么办?
易和阳:首先,「认知」技术上没有标准答案,不论是学术上还是商业上。这意味着,即便巨头手握巨量资源,在未知领域上也和我们处于同一个起跑线,从 0-1 的阶段是无法直接通过砸钱加速的。
另外,如果说认知技术目前没有标准答案,那基于认知的操作系统就更是完全真空了,这里的创造空间是极大的,我经常喜欢把后训练技术比做「人类首次具备了创造生命的能力」,设计一个认知操作系统就是在定义一个生命的模式,当我们在讨论这件听上去有点科幻的事情的时候,这不是大厂可以规模化的东西。
其次,我想大家都听说过《创新者的窘境》这本书,书中观点我就不赘述了。巨头确实会存在路径依赖,并且更关注商业ROI。巨头完成定义的范式是 Chatbot/AIGC,以及基于这一套技术上层衍生的各类 agent 和场景,今天有一大堆需要解决的问题,这一类问题在巨头看来是投入即可带来确定性的收益,比如把 MMLU、SWE 等各类评分再进一步提升,AI 可以显著在任务上执行得更好、更聪明,毕竟今天常规场景也还没让大家完全满意,在 unseen 场景下可能还有巨大的提升空间。
再比如巨头必然会做一些难但看起来更直觉、链路更偏平的工作,多模态就是其中一个,前面我也提到了,模态也仍然需要投入巨大的资源,这对大厂而言,是可感知 ROI 更高的部分,也是更容易投入产出成果的部分。一个例证是,其实从 GPT-3 发布到现在,已经过去了 4 年时间,大厂在基础技术上投入大量资源,而我们看到智能的提升,其实还是一种符合历史经验的稳定的发展曲线,而不是一年一个新爆点。
其实创新是有先发优势的,特别是 OS 获得市场不仅靠功能、更靠生态,而先发优势能获得生态的定义权,这往往是非常重要的、难以被简单颠覆的品牌认知优势,比如大家会时刻讨论 Manus 而不是 GPT Operator。
但话也说回来,竞争是必然的,我们并不假设我们一路领先,没有竞争。假定大厂做了我们要做的事情,我也认为这里也不至于没有另一家公司的空间,我们想一下,连 PC 操作系统今天如此收敛的定义,都仍然会存在 Mac/windows,大家对这两个系统的体验差异是巨大的,更别提历史上有大量有特性差异的其他 PC 操作系统。
而我们要做的认知操作系统,它的设计自由度、体验自由度要大得多,乔布斯讲过,「it all comes down to the taste」,我认为这里不论是谁跟我们竞争,我们都有独特的、极富信心的设计竞争力。
最后我想说一点,创业就是勇敢者的游戏,如果我们因为巨头挡在前面就不敢出发,那就绝对不可能「改变世界」,历史经验也告诉我们,不是只有巨头才能「改变世界」,所以我也欢迎和我们一样有勇气、有信心的朋友加入我们。
05PMF 之前,
Founder-Market Fit 才是最核心的竞争力
Founder Park:你之前是 Web3 创业,现在做 AI,这两段创业之间有什么是一直坚持不变的吗?又有什么是改变比较大的?
易和阳:很多人会觉得我这个跨度有点大,其实我在 Web3 创业的时候,就比较务实,没有去做赚快钱的事,而是一直在做开放型基础设施的构建。
这和今天的 OS 创业在技术能力上是相通的,因为我们都要设计一个生态、一个复杂的「运行时」。第二个相通点是我个人对产品和体验的坚持,我想要做的一定是一个全新的、大家都期望但今天还没有被达到的体验。
我觉得是创业过程是一个找自己的过程。Product-Market Fit 很重要,但超越它,我认为 Founder-Market Fit 是最重要的。面对竞争、不确定性、挑战,什么能够支撑我一直往前走?一定是我个人内心一直想做的事情,我内心的底色能够支撑我去做这件事。
在 AI 这件事上,我觉得孤独是一个很大的命题,也是我自己始终能感受到的东西。所以这件事我是特别想把它解决的。
我原来很想当音乐人,因为我觉得音乐是很好的心灵慰藉。你看网易云音乐,某种程度上就聚集了一大堆孤独的人。这件事我觉得很有温度。
所以我很在乎人本主义,想做出一个有认知、有温度的操作系统和模型。从这个层面而言,我觉得我找到了自己一定要做下去的方向,不论有再大的困难,我都愿意往这个方向去做。
Founder Park:Founder-Market Fit,能更详细地阐述一下吗?
易和阳:你会发现,那些能够做到顶尖的公司,创始人本身就特别热爱这个事情。很多厉害的汽车公司的创始人,本身就特别爱车;耐克的创始人就是个运动员。他本身就热爱,所以第一,他知道这件事的极致是什么,第二在面临巨大困难时,他的勇气和信心能始终让他坚持下去。
创业是一种修行,很多时候面对困境,信念比什么都重要。人有了信念,才能做出努力和改变。很多时候大家失败,不是说这事真的走投无路了,而是没有足够的信念去支撑下去。我觉得 Founder-Market Fit 是最核心的竞争力,它比 Product-Market Fit 有一个更底层的维度。当然,任何理想主义最终都要落地到市场,Product-Market Fit 也很重要,但前者是一个更强的支持。
Founder Park:你有考虑过用 Web3 的一些技术和理念去切入 AI 赛道吗?
易和阳:技术是手段,理念是相通的。Web3 和 AI 都希望完全的开放,因为没有开放,新的生态和体验就很难长出来。今天 AI 领域里用 A2A(Agent-to-Agent)的方式,某种程度上也践行了 Web3 的理念。
至于要不要用区块链技术,我觉得是这样:Web3 是一种组织方式的变革,而今天的 AI 带来了生产力的变革。这两者最终一定会走到一个交叉口。当我们把 AI 从一个工具变成一个个体,就必然要面对一个全新的 AI 和人共生的时代,这需要全新的社会组织、治理甚至分配模式。Web3 在这个层面其实是很超前的。从十年这个跨度来看,这些技术都是人类最前沿、最宝贵的技术。
Founder Park:为什么这一次没有沿着之前 Web3 方向结合 AI 创业,而是选择了一个全新的方式去做 OS?
易和阳:我自己是个全栈开发者,也是个快速学习者。AI 也好,Web3 也好,本质上都是工程问题,是技术手段。
我会先从「我要做什么」来入手,然后从技术视角去看需要用什么能达到它。我的动机是先把「类人认知」这个体验做出来,而不是先建立在一个很虚空的,比如说「我们先去做一套 Web3 的社会协议」之类。我喜欢做扎实的事情,把体验扎实地带给大家。
Founder Park:有没有哪些问题现在还没有答案,但是你希望明年的这个时候能回答?
易和阳:技术和产品角度上,我们都已经很明确了。但至于我们究竟能把认知做到什么程度,比如今天假定是 60 分,我们多快的速度能够达到 80 分甚至 90 分,这件事我今天会有一个保守的估计,但我不知道我们能走得有多快。但我认为,乐观看来,3-5 年就会有在「认知」层面和人各方面表现都相当的模型出现。
另外一个点,社区在多模态上的进展有多快,这也是一个目前没有确定答案的问题。技术发展有一个规律,会有一个很大的 Hype 周期(技术成熟度曲线),到了高点以后会下降,然后进入一个默默构建最终达成的状态。我们曾经在两年前 Hype 的那些概念,今天好像慢慢都在达到技术效果。我还是对模态的进化速度有很强的信心。
但我们不可能一家公司把所有事都做了,也要依赖很多社区的技术栈,我期望社区能够在智能这个层面上给我们更大的助力。
转载原创文章请添加微信:founderparker
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.