该图片可能由AI生成![]()
一个由GPT-5.2 Pro驱动的研究智能体,在首次部署中就刷新了球面堆积问题的最优解——这个结果已经通过MIT教授Henry Cohn维护的基准库验证。
具体来说,智能体在n=11、N=432的球面码问题上,将最佳余弦值从0.49422775优化到了0.49422771。
数字上看,改进幅度仅有0.00000004,似乎微不足道。但真正令人震撼的是:这个配置此前已经陷入数值“卡死”状态,抵抗了所有先前的优化尝试。而智能体仅用约一小时的自主探索,就找到了突破口。
要知道,之前达到这个水平可能需要大量人力投入和大规模计算。
这背后的意义值得深思。
球面堆积属于搜索空间极其庞大的优化问题,在材料科学、通信编码等众多领域都有广泛应用。智能体能在这类问题的“最后一公里”取得突破,说明它找到了人类未曾尝试的下降方向。正如那句老话:“最后1%往往是最难的。”
不过,讨论中也有人泼了冷水:同一个模型在生成HTML文件时还会犯低级错误,把CSS代码直接打印到屏幕上。
这恰恰揭示了当前AI的核心局限——它在“盲飞”。
人类写代码时能用眼睛实时验证效果,而AI缺乏这种感知能力。没有外部验证机制,它本质上一直在“猜测”。这也是为什么在数学问题上,有独立的基准库来验证结果如此重要。
有趣的是,开发者提到,在另一个项目中,GPT-5.2 Pro主动对生成的每一页进行截图检查格式问题。这种“自我验证”的意识,或许正是通向更强AI的关键路径。
当AI真正具备自我验证和自主学习能力时,游戏规则将彻底改变。现在的编程智能体已经能通过运行测试和代码检查来部分实现这一点。
至于这条路最终通向何方,是协作共生还是科幻电影里的场景,恐怕没人能给出确切答案。
reddit.com/r/OpenAI/comments/1qbhvjb/gpt_52_pro_agent_achieves_new_record_on_mit
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.