网易首页 > 网易号 > 正文 申请入驻

AI的价值不是聊天,而是能干活

0
分享至


你有没有想过,AI助手的终极形态应该是什么样的?是更聪明的聊天机器人,还是能真正帮你完成复杂工作的数字员工?今天,当我体验了Kimi刚刚发布的"OK Computer" Agent模式后,我突然意识到:AI行业可能正在经历一次根本性的范式转变——从"回答问题"到"完成任务"。

这不只是功能上的升级,而是整个AI产品思维的重构。我们习惯了与AI对话,问它问题,听它回答。但Kimi的"OK Computer"告诉我们:AI的价值不应该止步于提供信息,而应该延伸到真正解决问题、完成任务。这种转变看似微妙,实际上却可能重新定义我们对AI工具的期待和使用方式。

"OK Computer":不只是名字这么简单

当我看到Kimi将新的Agent模式命名为"OK Computer"时,立刻想到了Radiohead那张同名专辑。1997年,这张专辑预言了数字时代人类与技术的复杂关系。27年后,Kimi用同样的名字推出AI agent,这种巧合让我觉得别有深意。

"OK Computer"模式的核心理念很直接:让Kimi从一个聊天伙伴变成一个能独立完成复杂任务的工作团队。我体验后发现,这不是简单的功能叠加,而是对AI助手定位的重新思考。传统的AI助手像一个知识渊博的顾问,你问它答。而"OK Computer"更像是一个包含产品经理、设计师、数据分析师、前端工程师的虚拟团队,能够理解你的需求,制定执行计划,并真正完成从调研到交付的全流程。

从技术实现角度来看,这背后是Kimi K2模型强大的Agentic能力在发挥作用,而我还注意到:单个Agent任务的Token消耗量可达常规对话模式的几十倍。这既反映了是AI从"说话"到"做事"的本质差异,因为说话只需要生成文字,做事却需要调用工具、执行步骤、处理反馈、迭代优化。此外,OK Computer又有和Genspark等其他通用Agent很不一样的地方,因为基础模型就是自家的K2,在处理速度上,一方产品明显也比其他通用智能体要快很多。

让我印象深刻的是"OK Computer"内置的工具集:待办事项、Python、终端、浏览网页、文字搜索、图片搜索、图片生成、音频生成、专业财经数据源、网站部署等。这不是随意的功能堆砌,而是经过深思熟虑的工具组合。每个工具都对应着现实工作中的具体需求,组合起来就能处理复杂的多步骤任务。

通用问答只是序章,真正的赛场在于"让大模型成为专业工作的标配"。这种定位转变非常关键。它意味着AI不再满足于做一个万能的问答机器,而是要深入到具体的工作场景中,成为真正的生产力工具。

从"回答问题"到"完成任务"的跨越

我仔细分析了"OK Computer"提供的几个核心应用场景,发现每一个都代表着从信息提供到任务完成的跨越。

第一个场景是网站开发。传统AI助手可能会告诉你如何编写HTML、CSS或JavaScript,给你一些代码片段让你自己组装。但"OK Computer"会像一个完整的产品团队那样工作:理解你的业务需求,规划网站结构,设计用户界面,编写代码,最后还能帮你部署上线。这是从"教你怎么做"到"帮你做完"的根本区别。


第二个场景是数据分析报告。以往你可能需要先学习如何使用Excel或Python处理数据,然后学习各种可视化工具,最后还要掌握报告撰写技巧。现在"OK Computer"可以直接接手这个完整流程:读取你的数据文件,进行深度分析,生成洞察,创建可视化图表,撰写分析报告。你只需要提出需求,它负责执行到底。

第三个场景是演示文稿制作。这个场景特别能体现AI agent的价值。制作一个专业PPT需要内容规划、资料搜集、图片选择、版面设计、视觉统一等多个环节。"OK Computer"可以处理这个完整链条,最终交付的还是可编辑的PPT文件而不是静态PDF,这说明它真正理解了用户的后续使用需求。

这种"端到端"的任务完成能力,让我想起了一个重要趋势:AI正在从"增强智能"向"自主智能"进化。增强智能是辅助人类做决策,提供信息和建议。自主智能则是在明确目标后,独立规划和执行整个任务流程。"OK Computer"显然更接近后者。

我认为这种转变的意义不只是技术上的进步,更是对AI应用价值的重新定义。过去我们评价一个AI助手好不好,主要看它回答问题的准确性和全面性。未来我们可能更关心它能否高效完成复杂任务,能否真正减轻我们的工作负担。

技术实现背后的深层逻辑

要理解"OK Computer"的技术创新,我们需要回到Kimi K2模型的底层能力。从我了解到的信息来看,K2在agent任务上的表现确实令人印象深刻。

我注意到X上来自Hugging Face联创的一条帖子:在最新的agent评测中,"Kimi-K2 from @Kimi_Moonshot is leading open weight"。它表明Kimi K2在开源模型中确实具备了全球领先的agent能力,这为"OK Computer"的推出提供了坚实的技术基础。


从技术架构来看,Kimi K2采用了Mixture-of-Experts(MoE)设计,总参数1万亿,激活参数32亿。具体来说,模型包含61层(含1个密集层),7168的注意力隐藏维度,384个专家,每个token选择8个专家,还有1个共享专家。这种设计的巧妙之处在于,虽然模型规模庞大,但推理时只需要激活其中一小部分,既保证了能力又控制了计算成本。更重要的是,它针对agentic任务进行了专门优化,在训练过程中就考虑了多工具协同、长链路任务执行、错误恢复等agent特有的需求。

我特别关注到Moonshot在模型训练中引入的创新技术。他们开发的MuonClip优化器解决了一个关键问题:大规模MoE模型训练中的attention logits爆炸。传统的logit soft-capping和query-key归一化方法都不够有效,MuonClip通过直接重新缩放query和key投影权重矩阵来控制attention logits的规模。这个看似简单的技术创新,让15.5万亿tokens的训练过程实现了零训练崩溃,这种稳定性对agent任务至关重要。

在agent能力的培养方面,Moonshot采用了两个重要策略。第一是大规模agent数据合成,他们开发了一个综合管道,可以模拟真实世界的工具使用场景。这个系统能够系统性地演化数百个包含数千种工具的领域,然后生成数百个具有不同工具集的agent。所有任务都基于评估标准,agent与模拟环境和用户agent交互,创建现实的多轮工具使用场景。LLM判断器根据任务标准评估模拟结果,筛选出高质量的训练数据。

第二个策略是通用强化学习。这里的挑战是如何将RL应用到既有可验证奖励又有不可验证奖励的任务上。对于可验证任务(如数学、编程竞赛),有明确的对错标准;对于不可验证任务(如写研究报告),就需要更复杂的评估机制。Moonshot的解决方案是使用自我判断机制,让模型作为自己的评判者,为不可验证任务提供可扩展的、基于标准的反馈。同时,他们用可验证奖励的在线策略推出来持续更新评判器,使评判器在最新策略上不断改进评估准确性。这实际上是用可验证奖励来改进对不可验证奖励的估计。

从工具调用的角度来看,"OK Computer"的设计体现了对agent工作模式的深度理解。它不是简单地把各种工具拼接在一起,而是让模型学会如何像人类团队那样协作:产品经理负责需求理解和任务分解,数据分析师负责数据处理,设计师负责视觉呈现,工程师负责技术实现。这种角色化的工作模式,让agent能够更有序地处理复杂任务。

我还注意到K2模型在工具调用格式正确性方面的优化。传统模型经常会生成格式错误的工具调用,导致任务执行失败。K2通过专门的训练和推理优化,大幅提高了工具调用的成功率。这种可靠性提升看似微不足道,实际上对agent的实用性有决定性影响。

商业模式的战略转向

"OK Computer"的推出,反映了Kimi在商业策略上的重要调整。我观察到,Moonshot正在从通用问答市场转向专业生产力市场,这种转向背后有着深刻的商业逻辑。


通用问答市场竞争激烈,产品同质化严重。豆包、元宝等产品都在这个领域投入巨大资源,但很难形成明显的差异化优势。更关键的是,通用问答的商业价值相对有限,用户付费意愿不强。相比之下,专业生产力市场的用户对效率提升有明确需求,付费意愿更强,商业价值更高。

我同时也注意到Sam Altman最近宣布,OpenAI将在未来几周推出系列算力密集型产品并收取额外费用。这与Kimi的"OK Computer"策略不谋而合。两家公司都意识到,真正有价值的AI应用需要更多算力投入,而用户也愿意为真正解决问题的服务买单。

"OK Computer"采用灰度测试的发布策略也很有意思。优先给曾经打赏过Kimi的用户提供体验席位,这不只是技术上的考虑,更是商业模式的探索。它在测试用户对高价值服务的付费接受度,为后续的订阅制或按使用计费模式做准备。

从成本结构来看,agent模式的Token消耗是常规对话的几十倍,这意味着更高的运营成本。但同时,它提供的价值也是几十倍的提升。一个完整的网站开发项目,传统上可能需要几个人协作几天完成,现在一个agent可能几小时就能交付原型。这种效率提升为更高的定价提供了合理性。

我认为Kimi的这种转向具有行业示范意义。它告诉我们,AI产品的未来不在于比拼谁的回答更准确更全面,而在于谁能真正解决用户的实际问题。这种从"信息提供者"到"任务完成者"的转变,可能会引领整个AI行业的发展方向。

AI Agent时代的开端

"OK Computer"的发布让我相信,我们可能正站在AI Agent时代的门槛上。这个时代的特征不是AI变得更聪明,而是AI开始真正参与到人类的工作流程中。

我观察到一个重要趋势:越来越多的AI公司开始从对话型产品转向agent型产品。OpenAI在准备推出算力密集型产品,Google在强化Assistant的任务执行能力,Anthropic的Claude也在向工具集成方向发展。这种集体转向说明,行业已经意识到纯粹的对话AI价值有限,真正的机会在于能够独立完成任务的AI agent。

但我也看到了一些挑战。Agent任务的复杂性意味着更高的失败风险,一个环节出错可能影响整个任务。这对模型的可靠性提出了更高要求。同时,agent的自主性也带来了控制问题:如何确保agent按照用户意图工作,如何处理意外情况,如何在效率和安全之间找到平衡。

从技术发展的角度看,AI agent需要的不只是更大的模型,更需要更好的工具集成、更强的任务规划能力、更可靠的错误处理机制。Kimi在这些方面的探索值得关注。他们不只是简单地把现有工具连接起来,而是让模型学会如何像人类专家那样使用这些工具。

从用户习惯培养的角度看,agent模式还需要时间被广泛接受。我们习惯了自己控制每个步骤,把重要任务委托给AI确实需要很大的信任。但我相信,当人们看到agent能够可靠地完成复杂任务时,这种信任会逐步建立。

Kimi的"OK Computer"可能不是最终形态,但它代表了一个重要的开始。它告诉我们,AI的价值不应该只是回答问题,而应该是解决问题。这种理念的转变,可能比任何技术突破都更重要。

对未来工作方式的思考

最后思考一个更深层的问题:当AI能够独立完成越来越多的工作任务时,人类的角色应该如何定义?

我的答案是,人类将从执行者转向创意者和决策者。在"OK Computer"模式下,人类不需要知道如何编写代码、如何制作PPT、如何分析数据,但需要知道要解决什么问题、达到什么目标、满足哪些标准。换句话说,人类的价值将更多体现在"想要什么"而不是"如何做到"。

这种转变对教育和培训也有深刻影响。传统教育强调技能掌握,教你如何使用Excel、如何编程、如何写文案。但在AI agent时代,这些技能的价值会大大降低。相反,问题识别能力、需求表达能力、结果评估能力会变得更加重要。

我也思考了这种转变可能带来的风险。当我们习惯于把复杂任务委托给AI时,是否会逐渐失去独立解决问题的能力?当AI能够完成大部分脑力工作时,人类如何保持思维的敏锐性?这些问题没有标准答案,但值得我们认真考虑。

从社会分工的角度看,AI agent可能会重新定义很多职业。一些以技能执行为主的工作可能会受到冲击,但同时也会创造新的机会。比如AI agent训练师、任务设计师、结果审核员等新职业可能会兴起。关键是我们要主动适应这种变化,而不是被动等待。

最终,我认为"OK Computer"这样的AI agent并不是要取代人类,而是要解放人类。它让我们从繁琐的执行工作中解脱出来,把时间和精力投入到更有创造性、更有意义的事情上。这种解放的前提是,我们要学会与AI协作,学会正确地使用这些强大的工具。


从聊天到干活,从回答问题到完成任务,AI的进化远未结束。"OK Computer"代表的可能只是这场变革的一个片段,但它足以让我们窥见未来的模样:一个人类与AI深度协作、各自发挥优势的世界正在到来。

结尾

也欢迎大家留言讨论,分享你的观点!

觉得内容不错的朋友能够帮忙右下角点个赞,分享一下。您的每次分享,都是在激励我不断产出更好的内容。

欢迎关注深思圈,一起探索更大的世界。

- END -

两个“特别坑”的AI产品创业方向,你知道吗


速度将成为AI时代唯一的护城河


a16z重磅预测:Vibe coding赢者通吃?错了,垂直专业化才是未来


特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
大量本田小电驴流入闲鱼,外观神似行李箱,价格直接翻倍

大量本田小电驴流入闲鱼,外观神似行李箱,价格直接翻倍

科技拌饭
2026-02-25 17:40:09
俄军事专家:如果伊朗继续以当前强度回应打击,美以局势或变危急

俄军事专家:如果伊朗继续以当前强度回应打击,美以局势或变危急

俄罗斯卫星通讯社
2026-03-03 15:08:19
35年前,美国科学家进行实验,4男4女共处一室2年,结果怎么样?

35年前,美国科学家进行实验,4男4女共处一室2年,结果怎么样?

小豫讲故事
2026-03-02 06:00:03
被好好爱过的孩子,从这6件小事就能看出来

被好好爱过的孩子,从这6件小事就能看出来

经济观察网
2025-12-11 09:14:03
热搜爆了!张杰回应被指出轨

热搜爆了!张杰回应被指出轨

青城之窗
2026-03-03 21:37:47
新娘全家都是演员!这场“完美婚礼”全是戏!

新娘全家都是演员!这场“完美婚礼”全是戏!

看看新闻Knews
2026-03-02 17:55:03
父亲寄来的腊肉我送给了上司,后来父亲说里面有2万,我心急如焚

父亲寄来的腊肉我送给了上司,后来父亲说里面有2万,我心急如焚

萧竹轻语
2026-03-03 16:40:58
母亲“去世后再婚”?当地通报:已成立联合调查组,律师:亲属或涉嫌诈骗

母亲“去世后再婚”?当地通报:已成立联合调查组,律师:亲属或涉嫌诈骗

新民周刊
2026-03-03 19:26:52
宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

宁愿在国外种地,也不愿意回国,培养出92个世界冠军的李永波图啥

阅微札记
2026-02-22 19:15:15
李雨桐再锤薛之谦!指控他滥杀无辜,恐怕要坐牢,张杰无辜受牵连

李雨桐再锤薛之谦!指控他滥杀无辜,恐怕要坐牢,张杰无辜受牵连

离离言几许
2026-03-03 11:09:30
“跳水”大降价,BBA终于扛不住了

“跳水”大降价,BBA终于扛不住了

蒋东文
2026-03-03 20:58:31
50岁男子阿联酋旅游失联11天又逢战乱,妻子急疯:他是穷游又不会外语!最后手机定位在阿布扎比;大使馆回应已接到求助

50岁男子阿联酋旅游失联11天又逢战乱,妻子急疯:他是穷游又不会外语!最后手机定位在阿布扎比;大使馆回应已接到求助

极目新闻
2026-03-03 11:20:37
97年我在广东打工,娶了离异的女同事,新婚当晚才知她真实身份

97年我在广东打工,娶了离异的女同事,新婚当晚才知她真实身份

兰姐说故事
2025-08-24 05:05:05
四十年前10部港台经典剧集,金古梁武侠占一半,你看过多少?

四十年前10部港台经典剧集,金古梁武侠占一半,你看过多少?

小李大侠
2026-03-03 18:06:56
绝情臭豆腐彻底反转!顾客冒雨排队力挺商家,舆论反扑真相太扎心

绝情臭豆腐彻底反转!顾客冒雨排队力挺商家,舆论反扑真相太扎心

奇思妙想草叶君
2026-03-03 23:25:51
所有发达国家都有一个共性:人工很贵,劳动很值钱。

所有发达国家都有一个共性:人工很贵,劳动很值钱。

流苏晚晴
2026-01-27 18:18:22
南京百家湖,房价从2015年12500涨到29800,如今价格回到真实价位

南京百家湖,房价从2015年12500涨到29800,如今价格回到真实价位

科学发掘
2026-03-03 19:05:54
李嘉诚资本腾挪显地缘政治远见

李嘉诚资本腾挪显地缘政治远见

烽火瞭望者
2026-03-03 06:37:31
一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

一人睡遍整个娱乐圈?司晓迪打响了2026年第一炮

阅毒君
2026-01-05 07:05:06
第14轮突袭!内塔尼亚胡行踪曝光,伊朗随时行动,五国紧急通话

第14轮突袭!内塔尼亚胡行踪曝光,伊朗随时行动,五国紧急通话

防卫狙击手
2026-03-04 01:15:59
2026-03-04 01:51:00
深思圈
深思圈
挖掘和深度分析海外最新AI产品,分享实用出海战略
181文章数 8关注度
往期回顾 全部

科技要闻

拥抱AI的"牛马":边提效边自嘲"自费"上班

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

头条要闻

美国突发史无前例撤离令引外界担忧:终极空袭或来临

体育要闻

35轮后积分-7,他们遭遇史上最早的降级

娱乐要闻

谢娜霸气护夫:喊话薛之谦给张杰道歉

财经要闻

特朗普“不惜一切”!全球股债齐崩

汽车要闻

第一梯队辅助驾驶加持 iCAR V27定档3月13日上市

态度原创

教育
健康
手机
家居
房产

教育要闻

最新数据:研究生扩招8.1万人!

转头就晕的耳石症,能开车上班吗?

手机要闻

荣耀Magic V6下周见,开启折叠屏7000mAh时代

家居要闻

万物互联 享科技福祉

房产要闻

狂销13亿!近百位三亚顶豪买家,都在All in超级地中海·憘悦?

无障碍浏览 进入关怀版