网易首页 > 网易号 > 正文 申请入驻

o1不是聊天模型?24小时热度暴涨,奥特曼、Brockman在线围观

0
分享至

机器之心报道

机器之心编辑部

不要再将 o1 当做聊天模型了。

如何定位 o1 模型?你是否常常将其当做一个聊天模型来使用。

在刚刚过去的一天,一篇名为《o1 isn’t a chat model(and that’s the point)》的文章引发了包括 OpenAI CEO Sam Altman、总裁 Greg Brockman 的关注。

这篇文章表示 o1 不是一个聊天模型,我们可以将它想象成一个报告生成器。

原文链接:https://www.latent.space/p/o1-skill-issue

2024 年,OpenAI 接连放出了 o1、o1 pro、o3 模型,随着模型推理能力的提升,随着而来的是高昂的订阅费。但很多人在订阅使用后发现 o1 的表现并不如宣传的那样好,当然也包括本文的作者——曾任SpaceX软件工程师、苹果VisionOS人机交互设计师的Ben Hylak。

Hylak 表示每次他问 o1 一个问题时,都要等上 5 分钟的时间,结果看到的只是一大堆自相矛盾的胡言乱语,还有未经请求的架构图 + 优缺点列表。这让 Hylak 很是恼火,因此直言 o1 就是垃圾。

o1 回答问题,多次自相矛盾。

为了表达心中的愤怒,Hylak 还在社交媒体上分享了这种观点,「我今天一整天都在使用 o1 pro—— 我再怎么强调也不为过 —— 它真的很糟糕。」

「输出内容几乎接近胡言乱语,在同一个答案中多次自相矛盾。例如:我向它征求关于重构的建议。它建议合并文件,但输出的代码块中文件并未合并,然后又出现了完全不相关的结论。」

图源:https://x.com/benhylak/status/1864835651725910023

对于 Hylak 的观点,有人表示赞同,但也有人强烈反对,他们认为 o1 表现非常好。

随着 Hylak 与那些持反对意见的人交流越来越多,他逐渐意识到自己完全错了:他把 o1 当作聊天模型来使用,但实际上 o1 并不是聊天模型。

对于作者态度的转变,奥特曼很是欣慰,表示道:「随着人们学会如何使用 o1(包括 pro 版),观察人们对它态度的转变真是很有趣。」

奥特曼关于这条博客的推文浏览量达到 1.5M 。

Greg Brockman 表示:「o1 是一个不同类型的模型。要获得出色的性能,需要以一种与标准聊天模型不同的新方式来使用它。」

如果 o1 不是聊天模型,那它是什么?

我们可以把它想象成一个报告生成器(report generator)。如果你给定足够的上下文,然后告诉它你想要的输出,o1 通常会一下子确定解决方案。

接下来的问题是,如何使用 o1。

不要写提示,要写 Brief

给它大量的上下文,上下文的数量作者用 ton 来形容,我们可以把它想象成提示的 10 倍。

这张图解释了如何构建一个针对 o1 模型的提示(prompt),并将其分为几个部分。

通常情况下,当你使用像 Claude 3.5 Sonnet 或 4o 这样的聊天模型时,会先提出一个简单的问题并附带一些上下文。如果模型需要更多的上下文,它通常会向你询问。

你会与模型来回迭代,纠正它并扩展需求,直到达到期望的输出。聊天模型本质上是通过这种来回交互的方式从你这里获取上下文。在与模型交互过程中,我们可能会变得越来越懒,只要还能得到好的输出,输入的提示越来越敷衍。

但是,o1 会直接接受那些敷衍的问题,并不会试图从我们这里获取上下文。相反,你需要尽可能多地向 o1 提供上下文。

即使你只是询问一个简单的工程问题,你也需要:

  • 详细说明所有你尝试过但没有奏效的方法;
  • 添加所有数据库架构的完整 dump;
  • 解释你公司的业务、规模(并定义公司特有的术语)。

简而言之,我们要把 o1 当作一个新入职的员工来对待。

把更多的时间用在开头提示上。图源:https://x.com/swyx/status/1839213190816870425

专注于目标:准确地描述你想要什么

一旦你向模型提供了尽可能多的上下文,就需要专注于解释你希望输出是什么。

在大多数模型中,我们会告诉模型我们希望它如何回答我们。例如:你是一位专家级软件工程师。你需要模型进行慢思考且思考的很仔细。

这与使用 o1 取得成功的方法完全相反。不要告诉它如何做 —— 只告诉它做什么。然后让 o1 接管,自行规划和解决问题的步骤。这就是自主推理的作用所在,实际上这比你作为人工环节手动审查和聊天要快得多。

知道 o1 擅长什么、不擅长什么

o1 擅长什么:

  • 完美地一次性处理整个 / 多个文件:到目前为止,这是 o1 最令人印象深刻的能力。例如,复制 / 粘贴大量代码,大量关于正在构建内容的上下文,o1 会完全一次性地完成整个文件(或多个文件),通常没有错误,遵循现有模式代码库。
  • 减少幻觉:例如,o1 确实擅长定制查询语言(如 ClickHouse 和 New Relic),而 Claude 经常混淆 Postgres 的语法。
  • 医疗诊断:Hylak 的女朋友是一名皮肤科医生,当朋友或家人有皮肤问题时,他们通常会给 Hylak 的女朋友发一张照片。当 Hylak 拿照片询问 o1 时,o1 的回答通常与正确答案惊人地接近(约 60%)。对于医疗专业人员来说更有用 ——o1 几乎总能提供极其准确的鉴别诊断。
  • 解释概念:Hylak 发现 o1 非常擅长通过示例解释非常困难的工程概念。
  • 在制定困难的架构决策时,Hylak 经常会让 o1 生成多个计划,甚至比较这些计划,每个计划都有优缺点。
  • 评估:Hylak 一直对使用 LLM 作为评估的判别器持非常怀疑的态度,但 o1 表现出巨大的希望 —— 它通常能够在很少的上下文下确定生成结果是否正确。

o1 做得还不够好的地方:

  • 用特定的声音 / 风格写作:Hylak 发现 o1 不擅长写任何东西,尤其是在特定的声音或风格中。它遵循一种非常学术 / 企业的报告风格。

Hylak 尝试让 o1 写这篇博客的一个例子 — — 经过多次反复,它只会写一份平淡的报告。

  • 构建整个应用程序:o1 非常擅长一次性构建整个文件,但 o1 不会构建整个 SaaS,至少不会进行大量迭代。不过,它几乎可以一次性完成整个功能,特别是前端功能或简单的后端功能。

延迟从根本上改变了我们对产品的体验。考虑一下电子邮件和短信之间的区别 —— 主要是延迟,语音消息与电话通话 —— 延迟,等等。

Hylak 将 o1 称为「报告生成器」,因为 o1 显然不是聊天模型 —— 它感觉更像电子邮件。

Hylak 认为 o1 将首次使某些产品成为可能 —— 例如,可以从高延迟、长时间运行的后台智能中受益的产品。

用户愿意等待 5 分钟来完成什么样的任务?一个小时?一天?3-5 个工作日?如果设计正确的话,有很多。

需要注意的是,o1-preview 和 o1-mini 支持流式传输,但不支持结构化生成或系统提示。o1 支持结构化生成和系统提示,但尚不支持流式传输。

当开发人员在 2025 年设计产品时,实际使用该模型做什么将会非常重要。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
世界杯4球1助!维尼修斯狂舞:3连斩本届第1人 内马尔鼓掌

世界杯4球1助!维尼修斯狂舞:3连斩本届第1人 内马尔鼓掌

叶青足球世界
2026-06-25 07:07:20
“日本驻华大使多次请求与中方会面,均未成功”

“日本驻华大使多次请求与中方会面,均未成功”

观察者网
2026-06-24 14:56:07
德媒:英国重返欧盟或将改变世界

德媒:英国重返欧盟或将改变世界

参考消息
2026-06-24 12:22:09
谁能想到,专门收割中国人的东南亚电诈头目,竟是侨商同胞!

谁能想到,专门收割中国人的东南亚电诈头目,竟是侨商同胞!

君笙的拂兮
2026-06-23 23:16:15
东南大学、西安交通大学、复旦大学、南京大学、兰州大学、华南理工大学、同济大学、南开大学、山东大学等,宣布扩招

东南大学、西安交通大学、复旦大学、南京大学、兰州大学、华南理工大学、同济大学、南开大学、山东大学等,宣布扩招

政知新媒体
2026-06-23 11:14:07
"骗"了我们30年,韩红父亲竟是家喻户晓的他,难怪都不敢得罪她

"骗"了我们30年,韩红父亲竟是家喻户晓的他,难怪都不敢得罪她

探源历史
2026-06-04 09:50:59
杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

杀人诛心:乌军网上公开俄军武器全部弱点,32国实验室连夜抄作业

咣当地球
2026-06-23 15:59:08
昆明街头印度人索要免费餐,直接举着手机问“能请我们吃饭吗”?

昆明街头印度人索要免费餐,直接举着手机问“能请我们吃饭吗”?

原广工业
2026-06-25 01:31:10
94岁原中央保健局局长王敏清:50年没感冒,无三高,靠的就是这几招

94岁原中央保健局局长王敏清:50年没感冒,无三高,靠的就是这几招

新浪财经
2026-06-24 02:28:33
15岁警卫员护卫毛主席走完长征,当了官,再见面主席说:官不小嘛

15岁警卫员护卫毛主席走完长征,当了官,再见面主席说:官不小嘛

芊芊子吟
2026-06-25 06:15:06
哥伦比亚1-0刚果金,反超葡萄牙出线!世界杯32强定7席,5队出局

哥伦比亚1-0刚果金,反超葡萄牙出线!世界杯32强定7席,5队出局

小火箭爱体育
2026-06-24 12:01:43
郑丽文6月23日说出一番让大陆网友目瞪口呆的话

郑丽文6月23日说出一番让大陆网友目瞪口呆的话

小马姨
2026-06-24 08:30:10
里夫斯4年1.85亿续约湖人:落选秀最大合同+队史第二 含球员选项

里夫斯4年1.85亿续约湖人:落选秀最大合同+队史第二 含球员选项

醉卧浮生
2026-06-25 00:00:29
立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

立陶宛新任总理现身,上来就对台当局喊话,又一个狠角色登上台面

暮色史观
2026-06-25 05:50:29
冯小刚说没有导演想给观众添堵,截止今日电影累计票房7211万元

冯小刚说没有导演想给观众添堵,截止今日电影累计票房7211万元

韩小娱
2026-06-24 17:17:54
曼联签楚阿梅尼重现曙光?曝皇马可能考虑报价,但7500万绝对不够

曼联签楚阿梅尼重现曙光?曝皇马可能考虑报价,但7500万绝对不够

罗米的曼联博客
2026-06-25 07:09:03
详解尼克斯休赛季阵容名单 唐斯的大合同成为管理层最大问题

详解尼克斯休赛季阵容名单 唐斯的大合同成为管理层最大问题

篮球小烟花
2026-06-25 08:10:03
6分不一定能出线?世界杯K组-L组末轮形势分析

6分不一定能出线?世界杯K组-L组末轮形势分析

世界BALL
2026-06-24 14:18:08
初中孩子掉队的顺序,没想到挺准的!

初中孩子掉队的顺序,没想到挺准的!

好爸育儿
2026-05-10 17:15:47
卢卡申科突然宣布长期离境!把大权交给总理,白俄罗斯要变天了?

卢卡申科突然宣布长期离境!把大权交给总理,白俄罗斯要变天了?

霁寒飘雪
2026-06-24 19:37:33
2026-06-25 08:52:49
机器之心Pro incentive-icons
机器之心Pro
专业的人工智能媒体
13350文章数 142681关注度
往期回顾 全部

科技要闻

盘后大涨16%!AI存储需求带飞美光业绩

头条要闻

知情人:日本驻华大使多次请求与中方会面 均未成功

头条要闻

知情人:日本驻华大使多次请求与中方会面 均未成功

体育要闻

字母哥,会把凯尔特人拆了吗?

娱乐要闻

向佐向佑兄弟合体直播!母子终于和解

财经要闻

美光,业绩、指引炸裂

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

数码
健康
教育
亲子
家居

数码要闻

徕芬618登顶 国产剃须刀第一次拿到中高端定价权

神经内科专家破解中风十大谣言

教育要闻

2026河南高考成绩查询渠道和重要时间节点一定要牢记!

亲子要闻

小孩姐坐车倒头就睡,手滑摔倒后不动声色,爬起来又接着睡!

家居要闻

绿意盎然 自然之境

无障碍浏览 进入关怀版