“草莓”来了！OpenAI o1模型达到“博士级”推理水平？复旦教授：并没有|算法|数学|人工智能|openai

“草莓”来了！OpenAI o1模型达到“博士级”推理水平？复旦教授：并没有

2024-09-13 18:34:12　来源: 搜狐科技

北京举报

分享至

出品 | 搜狐科技

作者 | 梁昌均

运营编辑 | 孟莎莎

在进行高达1500亿美元的估值融资之际，OpenAI放出了一个大招，预热了许久的“草莓”（Strawberry）模型终于来了。

“需要耐心等待的时刻结束了。”该公司CEO山姆·奥特曼（Sam Altman）说。这就是名为 o1的新模型，这次发布包括预览版o1-preview和小尺寸版o1-mini。

OpenAI官方发文称，新模型旨在解决复杂推理问题，训练模型在响应之前花更多时间思考，类似于人类的思考方式。

“新模型在推理能力上代表了AI能力的新水平。”OpenAI称，该模型可以解决科学、编程和数学等更为复杂的任务，且比此前的GPT-4o有显著提升。

奥特曼发帖表示，“这是我们迄今为止功能最强大、最一致的模型，也是迄今为止我们最好的推理模型，这是新范式的开始。”

数学编程能力“爆表”

新模型到底有多强？它在需要深入思考和逻辑推理的专业任务上不仅吊打GPT-4o，还超过了拥有博士学位的人类专家。

OpenAI表示，新模型在物理、化学和生物等学科的挑战性基准测试中，表现超过人类专家。在国际数学奥林匹克（IMO）资格考试中，新模型得分超83%，远高于GPT-4o的13%。在Codeforces编程竞赛中，o1模型的成绩达到了前89%，而GPT-4o仅达到11%。

OpenAI表示， o1模型在推理能力上相比GPT-4o显著进步。综合评测显示，在绝大多数需要深入思考和复杂推理的任务中，新模型都展现出了明显优于GPT-4o的表现，并在多个细分测试上超过90%。

在启用视觉感知能力的情况下，o1模型在MMMU（多模态理解）测试中获得了78.2%的高分，成为首个能与人类专家展开竞争的AI模型。

在 MMLU（大规模多任务语言理解）测试中，在总计57个子类别中，o1在54个类别上都超越了GPT-4o 的表现。

上述评测还显示，o1模型在MMLU Categories中的高数测试正确率高达98%，且在ML Benchmarks中的数学测试相较GPT-4o获得了超过34%的最大绝对性优势，足以显示o1模型是个数学超级“学霸”。

OpenAI还选择了专为美国最优秀的高中数学生而设计的高难度考试——美国数学邀请赛（AIME）作为基准，来测试模型的极限能力。

结果显示，在2024年AIME考试中（15题），GPT-4o平均只解决了12%（答对 1.8 ）的问题，o1模型测试单次正确率高达74%，64次采样的正确率提升至 83%，1000次采样后使用学习型评分函数重新排序后的正确率高达93%，即能答对13.9 题，跻身美国前500名学生之列，也超出美国数学奥林匹克竞赛的分数线。

OpenAI进一步将o1模型应用于GPQA diamond 测试，其专门用于评估模型在化学、物理和生物学等领域的专业知识水平，并邀请了拥有相关领域博士学位的专家参与测试。

测试结果显示，o1不仅成功完成了测试，更是超越了博士表现，成为首个在GPQA diamond 基准上击败人类专家的AI模型。

“这些结果并不意味着它在所有方面都比拥有博士学位的专家更强，只是说o1更擅长解决一些博士能够解决的特定问题。”OpenAI称。

在编程方面，OpenAI基于o1模型深度优化和专项训练出一个新的AI模型，其在2024年国际信息学奥林匹克竞赛（IOI）获得了213分的高分，跻身参赛者的前50%。

在Codeforces平台的模拟竞争性编程比赛中，该新模型超越了93%的人类竞争者。相比之下，GPT-4o仅超过11%的人类竞争者。

这些评测显示出，新模型不仅在数学、编程等需要高推理能力的专业领域可比肩人类专家，同时在更为广泛的多模态和语言理解方面也有更好表现。

OpenAI发布的一项匿名人类偏好评估显示，o1-preview在数据分析、编码和数学等推理密集型类别中，比GPT-4o更受欢迎，但在某些自然语言任务中，o1-preview并不是首选。这表明它并不适合所有用例，GPT-4o在文本生成方面仍保持优势。

OpenAI负责新模型研发的员工也提到，o1模型并不总是比GPT-4o更好，许多任务并不需要推理能力，有时等待o1的回应相比快速获得GPT-4o的回应并不值得。

“作为早期模型，o1-preview还不具备ChatGPT的许多实用功能，如浏览网页、上传文件和图片。对于许多常见情况，GPT-4o短期内变得更加强大。但对于复杂的推理任务来说，这是一个重大进步，代表了人工智能能力的新水平。”OpenAI表示。

幻觉依然无法彻底解决

o1模型更强的推理能力得益于OpenAI开发了一种创新的大规模强化学习算法。这种算法不仅能高效利用数据，还能有效训练模型运用思维链进行推理思考。

这种训练的核心在于教会模型“如何思考”。因此，与传统模型追求的快速响应不同，新模型开始学会慢思考——在回答之前，内部进行长链条的思考和推理，确保生成内容的质量。在OpenAI的一项单词推理测试中，o1-preview响应时间达32秒，而GPT-4o仅需3秒。

“我们训练这些模型花更多的时间去思考问题，然后再做出反应，就像人类一样。”OpenAI称，借助强化学习和思维链，新模型能完善自己的思维过程，具备自我检查的能力，识别纠正出现的错误，可以将复杂问题进行分解，并能在发现当前方法无效时尝试不同的策略。

OpenAI还发现，随着强化学习计算量的增加，以及模型思考时间的延长，o1的性能会不断提高。这显示新模型更多依赖计算资源和算法优化，而传统大语言模型预训练则依赖于海量数据的收集处理。

“这有很大不同，我们正深入研究这种新方法的扩展限制。”OpenAI表示，模型思考的时间越长，在推理任务上的表现就越好。“这开辟了一个新的扩展维度，不再受预训练的瓶颈限制，现在也可以扩展推理计算能力。”

得益于这些技术创新所带来的能力，OpenAI将新模型计数器重置为 1，并命名为o1。

某种程度来说，这意味着大模型的“摩尔定律”Scaling Law有效，但重点已从堆数据，转移到堆算力和算法优化方面，提高模型思考时间，可以说是一条提升大模型能力的新路径。

英伟达的科学家Jim Fan对此也点评称，模型不仅仅拥有训练时的Scaling law，还拥有推理层面的Scaling law，双曲线的共同增长，将突破大模型能力的提升瓶颈。

同时，OpenAI表示，思维链推理为AI对齐和安全提供了新的机会。“这是教授模型人类价值观和原则的有效方法，推理能力的提升有利于模型稳健性，并使我们能够以清晰的方式观察模型思维的过程。”

不过，这仍然无法彻底解决幻觉问题，但思维链为AI的三大缺陷（不可信、不可控、不透明）提供了思路。它可以“读取模型的思想”并理解其思维过程，检测AI是否试图操纵用户，以及为 AI决策提供解释性，增加透明度和可信度。

OpenAI总裁Greg Brockman也提到，这提供了新的安全机会，公司正在积极探索，包括可靠性、幻觉和对抗攻击者的鲁棒性。

“在权衡了用户体验、竞争优势、思维链监控和安全等在内的多种因素后，我们决定不向用户展示原始思维链。”OpenAI表示，o1模型会提供由模型生成的思维链摘要。

9.11和9.8谁大仍翻车

“发布o1-preview的一个动机是为了观察哪些使用场景会变得流行，以及这些模型在哪些方面还需要改进。”OpenAI员工称。

该公司表示，新模型将为多个领域的专业人士带来显著助益，尤其是那些在科学研究、软件开发、数学计算等领域面临复杂挑战的领域，将是一个辅助工具。

ChatGPT Plus和Team用户从今天开始可以在ChatGPT 中访问 o1 模型。ChatGPT Enterprise 和Edu用户将从下周开始获得访问权限。

部分开发者今日起也可使用o1-preview和o1-mini，速率限制为20 RPM。OpenAI计划在未来向所有ChatGPT的免费用户开放o1-mini的使用权。

对开发者来说，使用o1模型要付出更高的价格。目前，o1-preview输入定价15美元/百万token，是GPT-4o（5美元/百万token）的3倍；输出定价60美元/百万token，是GPT-4o（15美元/百万token）的4倍。

不过，开发者可以选择小版本的o1-mini。相较o1-preview，它速度更快、成本更低，适用于需要推理但没有广泛知识的应用程序，尤其擅长数据和编码，成本比o1-preview低80%，即和GPT-4o价格相当。

对于OpenAI此次发布的新模型，复旦大学计算机科学技术学院教授、MOSS大模型核心人员张奇对搜狐科技表示，它依然不具备真正的推理能力。

“统计机器学习进行可以拟合数据集，但是无法进行类人的演绎和归纳推理，它学习到的仍然是概率相关性。”张奇表示。

他提到，换一些简单题目，与训练语料不同的数据，o1-preview的结果就会变的很差。比如虽然它数学能力突出，但对9.11和9.8哪个大这种问题，第一次回答时仍然翻车，而在进行第二次反馈后，它才从不同角度解读，最后给出了正确答案。

这意味着，评测代表的是评测数据集的能力，但用到具体的实际场景，OpenAI新模型的首次输出准确性仍有很大的改进空间。实际上，Open发布的前述评测中，部分表现突出的结果都是多次测试综合得出。

OpenAI称，o1模型还处于早期，未来将进行定期更新和改进，后续会加入更多功能，如网页浏览、文件和图像上传等。同时，会继续开发GPT系列模型，与o1系列模型并行发展。

这意味着，我们还是有机会见到GPT-5，你还期待吗？

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.