该图片可能由AI生成![]()
我们正在见证一个重要的分水岭。
过去的大语言模型本质上是知识的搬运工。它们以人类判断为训练标准,能回答的问题不会超出人类专家的认知边界。它们的价值在于降低知识传播的成本,让你用一次对话就能获得专家级的建议。
这类模型有几个显著特征:职场新人用得最多,因为他们面对的问题对自己是新的,对人类整体却是旧的;人们更常用它来解决专业领域之外的问题,律师拿它查医学知识,医生拿它查法律条文;它在文档丰富的领域表现更好,主流编程语言远胜于私有语言。
但最近18个月,情况变了。
新一代模型开始直接对接真实世界的验证信号进行训练,比如针对可验证奖励的强化学习。AlphaEvolve能自主改进算法代码,已经为谷歌数据中心发现了更高效的调度算法,甚至加速了训练自身的大模型。这不再是搬运知识,而是创造知识。
两类模型的经济学逻辑截然不同。
知识共享型模型的边际收益递减很快。一次查询就能告诉你专家怎么想,再问十次也不会有质的飞跃。但知识创造型模型恰恰相反,在单个问题上投入数十亿token可能是值得的,只要解决方案具有普适性。
更关键的区别在于:旧知识的需求弹性高,新知识的需求弹性低。独占新知识的回报远高于共享它。这意味着AI实验室很可能不会把知识创造能力开放给公众,而是自己使用,或者通过授权协议卖给合作伙伴。OpenAI的首席财务官已经明确表示,未来会出现基于知识产权和成果分成的新商业模式。
这里有一个反直觉的洞见:世界上真正的深层问题可能只有十几个。
表面上看,我们面对无数问题。但如果仔细观察,大量问题可以归约为少数几类典型问题。约束满足问题、事实推理问题、统计推断问题,每一类都有已知的最佳实践。一个足够聪明的模型只需要学会两件事:把新问题映射到典型问题,然后应用教科书上的标准解法。
这对AI基准测试是个麻烦。如果模型只是在套用已知方法,我们很难测出它真正的智能水平。真正有价值的测试,要么是设计出足够怪异、难以归类的问题,要么是让模型在那十几个深层问题上推进人类认知的边界。
如果这个视角成立,AI实验室的资源配置会呈现一种极端的两极分化:在少数深层问题上投入海量算力,同时以极低成本提供解决日常问题的服务。
还有一个值得警惕的场景:知识产权的圈地运动。如果现行专利法不变,企业会争先恐后地抢占AI发现的新技术。但这种独占可能是低效的,因为这些技术本来就会被发现,专利激励并非必要条件。
有人会问,知识创造会不会被数据采集卡住脖子?自动化的生物学家仍然需要实验室,自动化的AI研究员仍然需要GPU跑实验。这取决于优化问题的内在结构。如果世界本质上是高维的,数据采集无可替代。但如果存在低维结构,单纯的深度思考就能带来高回报。历史上,很多看似高维的领域最终被证明具有低维本质。
我们正站在一个转折点上。当AI从知识的传播者变成知识的创造者,它与人类社会的关系将被重新定义。
tecunningham.github.io/posts/2026-01-29-knowledge-creating-llms.html
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.