1月27日,OpenAI首席执行官萨姆·奥特曼在一场公开直播中罕见承认:公司在开发ChatGPT-5时“确实搞砸了”,出现了路线偏差。他坦言,团队过度聚焦于提升模型的智力、推理和编程能力,导致模型在写作等通用能力上“偏科”,某些表现甚至不如前代。奥特曼承诺将重新校准方向,回归打造“真正高质量的通用型模型”的初心。
![]()
这一罕见的公开“认错”,迅速在科技界引发震动。
反思背后,是GPT-5发布后积累的用户反馈与内部审视。从GPT-3到GPT-5,行业曾深信“规模决定一切”,GPT-4的巨大成功更强化了这一路径。然而,激烈的市场竞争——尤其是与谷歌、Anthropic等在编程、推理等硬核能力上的竞赛——驱使资源向能直观体现“智能”飞跃的领域倾斜。同时,主流学术基准测试侧重于数学、代码等可量化领域,无形中成了研发的“指挥棒”。即便GPT-5引入了“自动切换器”机制以优化算力,其根本目标仍是更高效地服务深度推理任务。
副作用在用户端逐渐显现。2025年GPT-5发布后,大量用户反馈其写作能力“退化”:文章逻辑清晰却用词模式化,缺乏文采与自然感,“AI味”浓重。一些基础性问题,如简单拼写和计数,反而会出错。尽管奥特曼曾将部分问题归咎于技术故障,但持续的批评促使了更深层检讨。
一个在创意写作、细腻表达上不稳的模型,与大众对“像人一样交流”的AI助手的期待产生了落差。这对OpenAI打造普及化超级应用的品牌形象构成了挑战。更深层看,在竞争对手持续发力、全球监管日益关注的背景下,此次“纠偏”也是一次战略校准。通过公开承认“偏科”,OpenAI意在重新夺回对“通用人工智能”定义的话语权,强调其愿景是打造一个能力均衡、能与人类自然协作的智能体。
奥特曼的声明,涟漪将波及多个层面。
对OpenAI自身,这意味着研发重点和产品路线图必须调整。如何在已建立的推理优势上有效“补短板”,提升创造性写作、情感理解等能力,是艰巨的技术挑战。这需要在模型架构、训练数据配比和优化目标上进行系统性重构。平衡“专精”与“通用”,将成为未来几年的核心课题。
对AI行业,OpenAI的反思可能具有风向标意义。它促使同行重新评估单一追求某项能力极限的模式是否可持续,或会减缓特定赛道的“军备竞赛”,激励更多公司探索更宽广的能力边界。如何评估模型在开放性创作、复杂社会情境理解中的综合表现,可能成为新焦点。这也给在“通用性”或“人性化交互”上有特色的竞争对手更多市场叙事空间。
对公众与学界的AGI讨论,此次事件提供了鲜活案例。它尖锐地提问:何为真正的AGI?是能在特定测试中拿高分,还是具备可灵活迁移的综合智能?奥特曼在直播中描绘了他心目中的AGI里程碑:当模型第一次面对完全陌生的新环境或工具时,只需解释一次甚至无需解释,就能自己探索并稳定可靠地使用。这一定义超越了在已知数据集上刷分,更强调自主学习和适应未知的泛化能力。
技术层面,在现有千亿甚至万亿参数规模的模型上“补短板”,其复杂度和成本可能不亚于从头训练一个新特长。它要求对训练数据的多样性和质量进行更精细的设计,并可能需要发展新的训练算法,使模型在不损害已有强项的前提下,高效学习新能力。
其次,评估体系亟待变革。现有主流基准测试已不足以衡量模型的“通用性”。行业可能需要发展新型的、更全面的评估标准,例如动态交互测试、开放式创意任务评估等,以更真实地反映模型在接近真实世界场景中的综合表现。中国学者提出的“Tong Test”框架,强调通过动态的物理和社会交互来评估AGI,正是这一方向上的探索。
OpenAI的“纠偏”,像是技术发展“钟摆效应”的体现。在专注与泛化、性能与安全之间,行业轨迹往往不是直线前进,而是在探索极端后回调寻找新的平衡。
来源:布谷财经
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.