梁文锋不着急|微软|黄仁勋|大模型|上下文|知名企业|agent

梁文锋不着急

分享至

同行纷纷押注Agent，梁文锋仍保持深度求索AGI的定力。

文｜《中国企业家》记者闫俊文

编辑｜张晓迪

头图来源｜视觉中国

5月28日下午6时，DeepSeek在用户群发布公告，“DeepSeek-R1模型已完成小版本试升级，欢迎前往官方网页、APP、小程序进行测试，API接口和使用方式保持不变。”

《中国企业家》查询DeepSeek服务状态发现，5月28日晚间10点33分，DeepSeek网页及APP的API服务出现了5分钟的“不可用”状态，这是DeepSeekAPI服务在最近两个月里少有的卡壳现象。

紧接着，5月29日，DeepSeek就开源了R1最新0528版本，这是R1自1月20日正式推出，时隔128天后，首次迎来的一次更新。

DeepSeek称此次更新为“小版本升级”，至于外界更为期待的R2模型，官方并未给出时间表。一位创业者告诉《中国企业家》，R1是DeepSeek-V3模型能力的复现，R2模型可能要等到V4模型研发成功之后了。V3的上次升级是在今年的3月24日，V4目前尚未有推出时间表。

5月29日晚间，DeepSeek在官方公众号发表文章《DeepSeek-R1更新，思考更深，推理更强》，根据文章给出的测试结果，更新后的R1-0528，模型能力增强。不过，在工具调用等能力方面仍有进化空间。文章解释称，此次更新的DeepSeek-R1-0528仍然使用了2024年12月发布的DeepSeek-V3 Base模型作为基座，更新的重点是对模型进行了后训练，从而提升了模型的思维深度与推理能力。

与预训练对应，后训练是大模型训练的另一个阶段，这是当下大模型竞赛中的一个热度“赛点”。

一位投资人告诉《中国企业家》，国内几家“六小虎”已经放弃了基座大模型的训练，但并不是放弃了大模型，而是放弃预训练，转而去加强后训练与微调的投入，以便让模型落地应用。

“大模型领域你追我赶，领先周期可能只有3到6个月”，猎豹移动董事长兼CEO、猎户星空董事长傅盛感慨大模型领域的激烈竞争，“大模型做成了海鲜生意，一个好的模型出来，大概3个月就会过期，因为别人总会上来，此消彼长。”

当前，大模型本身难以商业化已成国内外投资机构、科技企业的共识，今年以来，无论是联想、腾讯、阿里亦或美国硅谷模型大佬OpenAI、Anthropic、谷歌，以及亚马逊、微软等，都纷纷斥资押注AI Agent。

当外界已把目光转移向应用时，梁文锋和他的团队仍旧保持对模型本身深度求索的定力。

此次R1更新后，腾讯部署动作迅速。5月29日晚间，腾讯发布消息，称腾讯元宝、ima、搜狗输入法、QQ浏览器等多款产品率先接入DeepSeek- R1-0528。

0528版本思考更深，推理更强

根据DeepSeek官网给出的测试结果，此次升级后的R1-0528模型能力猛增，成功超越目前国内最强模型阿里Qwen3，并且在数学、编程等能力上接近其他国际顶尖模型，如OpenAI最新的o3与谷歌最新的Gemini-2.5-Pro。

相较于旧版R1，新版模型在复杂推理任务中的思考更深、效果更强的原因是耗费的token数量增多，旧版模型平均每题使用12K tokens，而新版模型平均每题使用23K tokens。

来源：AI生成

这符合英伟达CEO黄仁勋的预估，今年3月，英伟达CEO黄仁勋在GTC大会上预测，AgenticAI的崛起，将推动算力需求暴增至少100倍。

此外，此次DeepSeek蒸馏了DeepSeek-R1-0528的思维链后训练Qwen3-8B Base，得到了DeepSeek-R1-0528-Qwen3-8B。该8B模型在数学测试AIME 2024中仅次于DeepSeek-R1-0528，超越Qwen3-8B，准确率增加10%，与Qwen3-235B相当。

规模少了30倍，但准确率增加了10%，关键要素是DeepSeek-R1-0528的思维链，官方称，该思维链对于学术界推理模型的研究和工业界针对小模型的开发将具有重要意义。

强化后训练后，模型的幻觉率也降低了。据DeepSeek官方称，DeepSeek-R1-0528与旧版相比，在改写润色、总结摘要、阅读理解等场景中，幻觉率降低45%～50%左右。

在此之前，R1模型让业内诟病最多的就是其幻觉率。国外有一家名为Vectara的机构曾发布了一个大模型幻觉排行榜，该榜将模型幻觉数值从低到高排序，谷歌的Gemini和OpenAI的o3模型幻觉率最低，而Deepseek-R1排在第90名，幻觉率高达14.3%。

上下文（context）方面，此次R1-0528的上下文长度与旧版本保持一致，仍为64K，尚落后于OpenAI、谷歌，以及月之暗面等国内公司最新模型的128k长度。

2023年11月，月之暗面创始人杨植麟曾说过，模型参数数量决定计算复杂度，而上下文长度决定模型内存大小。

更大的上下文规模，意味着模型记忆能力的提升，是工具产品化的重要标准，这对于模型落地Agent，释放能力具有重要意义。

喧闹中的定力

梁文锋小步快跑的同时，美国科技公司对DeepSeek的看法也正在走向分化。2月初，DeepSeek发布R1模型带来的那场冲击潮，正在逐渐退散，硅谷创业者和大公司的CEO们也已逐渐找回自信。

和DeepSeek测试更新版本前后脚，美国当地时间5月28日，英伟达公布最新季度财报，在财报会上，英伟达CEO黄仁勋称赞“DeepSeek-R1如ChatGPT般越思考越聪明。”

财报显示，一季度英伟达实现营收441亿美元，同比增69%，归母净利188亿美元，同比增26%。到5月29日开盘，英伟达股价一度盘中上涨11%，最终收盘139美元，微涨3%。

来源：AI生成

这次更新已和R1模型发布时对英伟达股价造成的重挫不一样了。目前，英伟达市值约为3.3万亿美元，已收复了在2月失去的万亿美元市值。AgenticAI时代的到来，又让英伟达看到了广阔的市场前景。

除了算力领域，OpenAI、Anthropic也在模型层面奋力赶上。

5月20日，OpenAICEO山姆·阿尔特曼自信地说：“我不认为DeepSeek找到了比OpenAI更高效驱动AI的方法，OpenAI每年在效率方面取得不可思议的进步。”

Anthropic的一位员工在5月23日接受媒体采访时说，“DeepSeek发布模型的时间比Claude 3 Sonnet晚9个月，如果我们现在重新训练相同的模型，或者与DeepSeek同期训练，我们也可以用500万美元或者其他人宣传的金额，来完成训练，DeepSeek达到了行业顶尖水平，但并未超越，它只是利用了效率提升的红利。”

在5月29日的官方发文中，DeepSeek承认，在某些方面，R1-0528仍与OpenAI和Anthropic的最新模型有差距，比如工具调用方面，官方介绍，“当前模型Tau-Bench测评成绩为airline 53.5%/retail 63.9%，与OpenAI o1-high相当，但与o3-High以及Claude 4 Sonnet仍有差距。”

一位投资人预估，DeepSeek与国外公开的先进模型之间的差距可能在2个月到3个月，但实际差距可能还要多一些，但没有代差的差距。

整个AI领域的竞争仍在持续，但相比此前围绕底座模型的竞争，已有所不同。

整个5月，美国科技界颇为热闹，先是微软举办了Build 2025大会，紧接着谷歌举办了I/O大会，Anthropic发布Claude 4系列模型。他们发布会的重点都与Agent有关。

谷歌提出Agent的三个特点——个性化、主动性以及强大功能。微软提出Agentic Web，并称，这是一个和移动、云等平台转变期类似的巨大变革。Anthropic提出了Agent的四个协议：一是通过API连接模型上下文协议（MCP）；二是Claude的网页搜索功能；三是开放文件API接口；四是提示词缓存。

“现在大模型的进展已经吸引不了一级市场投资人的钱了，必须讲述C端应用的故事，比如Agent。”上述投资人说。

Agent是强化学习的产品体现。近期，一位OpenAI的科学家在AI Ascent 2025中表示：“我们所做的模型训练类型是RL（强化学习），我们未来可能会被强化学习计算资源完全支配。”

尽管海外科技巨头和国内的投资机构都把目光移到了Agent身上，但DeepSeek仍专注模型本身，目前仍在AGI征程上“深度求索”。

2024年7月，发布DeepSeek-V2后，梁文锋在接受《暗涌》采访时曾说：“我们认为当下最重要的，是参与全球科技创新。长期以来，中国企业习惯于利用海外的技术创新，并通过应用层面进行商业化，但这种模式是不可持续的。这一次，我们的目标不是快速盈利，而是推动技术前沿的发展，从根本上促进整个生态的成长。”

彼时关于应用的话题，梁文锋说：“从长远来看，我们希望建立一个生态系统，让行业直接使用我们的技术和成果，其他公司基于我们的模型开发B2B/B2C服务，而我们专注于基础研究。如果产业链完整，我们无需亲自做应用。当然，如果有必要，我们完全有能力去做，但研究和创新始终是我们的核心优先级。”

一位接近DeepSeek团队的投资人告诉《中国企业家》，DeepSeek团队约130人，大多是2002年、2003年后出生的国内高校毕业生，2000年以前出生的在团队内都算是“老人”。团队组织架构分两层，决策中心是梁文锋本人，30多个核心成员直接向其汇报，100多个数据工程师负责具体执行。他们的特点是年轻、有激情、热爱技术。

2025年前，大模型创业潮起的最初几年，初创公司融资后，纷纷到美国谷歌高价挖人才，从目前行业呈现的效果来看，这种做法并未达到预期。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.