网易首页 > 网易号 > 正文 申请入驻

OpenAI o1新上线,给大模型“打榜热”上一课

0
分享至

摘要:大模型跑分没有意义,具体应用场景是否满足用户需求以及产生价值增益,才是衡量大模型能力的标准。

铺垫很长,但发布很突然。今日(13日)凌晨,OpenAI发布o1系列两款模型,这是传闻中内部代号为“草莓”的项目,也是OpenAI首款具备推理能力的大模型。

o1大模型的取名方式一改原有的数字版本模式(如GPT-3.5、GPT-4o),OpenAI为此解释“它代表了人工智能能力的新水平,我们将计数器重置为1”。

那么,o1的“新水平”到底有多新?测试结果显示,与GPT-4o相比,o1又贵又慢,单位词元成本提高了2—3倍,输出内容不再是“秒回”,而是需要“思考”十几秒。不过测试结果显示,o1解决数学和编码等复杂问题显著优于GPT-4o。

根据官方解释,o1采取与众不同的“思维链”(Chain of Thought)模式进行训练,以此提升大模型的逻辑推理能力。o1“思考”越久,思维链越长,面对复杂问题的表现就越好。

国内大模型创业者告诉记者,o1的上线,意味着新的Scaling Law(拓展规模法则)诞生,也将影响原有的大模型评价体系和框架。

与以往NLP(自然语言处理)相比,大模型评价体系更为复杂,由于输出内容的不可确定性,评价体系不局限于明确的任务指标,而是综合对场景能力进行评估。这也给大模型的“尺度”带来了操作空间。

事实上,国内外大模型的测试集和榜单多达上百种,每个榜单的排名几乎各不相同。比如中文大模型测评基准SuperCLUE最新报告中,腾讯混元大模型总得分居国内大模型第一名;大模型社区HuggingFace排行榜显示,阿里云通义千问登顶开源模型榜首;斯坦福大学基础模型研究中心排行榜中,零一万物大模型力压百度、字节进入全球十强……

记者从业内人士获悉,国内外大模型的测评项目参差不齐,但很多都是“开卷考”,新模型可以针对现有题库“刷题”来训练,刷出高分来验证能力。大模型厂商不仅会猜题,还会用“模拟考”来训练答题技巧,“打榜成绩”好坏无法客观反映出大模型的真实能力。因此,榜单中很多新模型的“异军突起”,实际效果仍要打个问号。

“很多国产新模型发布时,喜欢跟OpenAI最新模型比较,用测试集来跑分,有些单项得分超过GPT-4o,但这并不能代表,这些新模型与GPT-4o的能力相差不大。”记者从百度内部获悉,李彦宏在员工讲话中批评了当前的大模型“打榜热”,他认为大模型的差距是多维度的,能力维度只是其中一方面,理解、生成、逻辑推理、记忆联想等能力,可以通过特定项目训练实现目标,但是成本维度、时间维度等却几乎不予披露,而这些维度与大模型的实际能力密切相关。

“部分自媒体的炒作,加上新模型发布的宣传,让大家有一种印象,认为模型之间的能力差别已经比较小了,其实真不是这样。”李彦宏认为,大模型跑分没有意义,具体应用场景是否满足用户需求以及产生价值增益,才是衡量大模型能力的标准。

上周,开源模型Reflection 70B横扫各大模型榜单,每项基准测试表现均超过GPT-4o,由两位开发者仅耗时3周完成,如今却被曝出面临无法复现、套壳等指控。凭借跑分一炮而红,从而吸引投资,这一情况在“百模大战”中早已屡见不鲜。

回过头来看o1,几乎没有参与主流榜单测评,甚至连在很多重要评价类目中不如GPT-4o,比如无法处理文件和图像、对常识理解表现欠佳等,但o1的实力却是有目共睹的。OpenAI让o1“参加”国际数学奥林匹克资格考试,GPT-4o正确率为13%,但o1正确率高达83%。

俗话说,是骡子是马,拉出去遛遛。大模型的能力难以被量化,不代表用户没有感知度。大模型的终极检验,应该在市场,而不是在榜单。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
消息称尊界S800成功后,华为在帮助国产供应商发展高端子品牌

消息称尊界S800成功后,华为在帮助国产供应商发展高端子品牌

IT之家
2026-05-31 12:33:24
菲律宾总统大选最新民调出炉,前总统杜特尔特之女、现副总统莎拉仍领先,但她正面临弹劾审判

菲律宾总统大选最新民调出炉,前总统杜特尔特之女、现副总统莎拉仍领先,但她正面临弹劾审判

新浪财经
2026-05-31 15:55:18
最强一战!张镇麟23+9+6导大胜夺赛点 距生涯第4冠仅差1胜

最强一战!张镇麟23+9+6导大胜夺赛点 距生涯第4冠仅差1胜

醉卧浮生
2026-05-31 21:13:54
男子把软卧让给一老人,过道坐一晚,谁料,第二天发现口袋多了180块和一张纸条:有需要,找我儿子

男子把软卧让给一老人,过道坐一晚,谁料,第二天发现口袋多了180块和一张纸条:有需要,找我儿子

背包旅行
2026-05-31 15:26:58
总决赛15连胜!卢伟狂赞张镇麟:今年引进他是一个非常正确的决定

总决赛15连胜!卢伟狂赞张镇麟:今年引进他是一个非常正确的决定

狼叔评论
2026-05-31 22:50:17
性压抑已经变态至此了吗!

性压抑已经变态至此了吗!

灯锦年
2026-05-31 11:39:51
给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

给钱我都不坐!多名特斯拉前员工坦言:马斯克吹的FSD根本不安全

快科技
2026-05-31 14:09:06
男团成员裤腰低到离谱?网友怒批:这是公共猥亵

男团成员裤腰低到离谱?网友怒批:这是公共猥亵

时光慢旅人
2026-05-30 01:29:08
襄阳“割四赔五”后续:23家派出所出手,网红出面也无力扭转局面

襄阳“割四赔五”后续:23家派出所出手,网红出面也无力扭转局面

观察鉴娱
2026-05-31 19:01:32
在国安局退休后,发现邻居每天准时晒被子,被子颜色是在传递机密

在国安局退休后,发现邻居每天准时晒被子,被子颜色是在传递机密

千秋文化
2026-05-28 19:38:07
毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

毒性堪比砒霜!正大量上市,一旦发苦赶紧吐掉!医生:煮熟也有毒

路医生健康科普
2026-05-30 20:15:03
撤销外语学院不是终点,真正该“撤”的是那套失败的体系

撤销外语学院不是终点,真正该“撤”的是那套失败的体系

迷世书童
2026-05-31 13:35:42
最近俩月,形势大变

最近俩月,形势大变

明人明察
2026-05-31 19:46:13
普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

普京首次宣称俄乌战争接近结束!承认乌克兰更容易打击俄本土

项鹏飞
2026-05-30 16:12:33
江苏太仓一飞行营地坠机致死案续:获赔256.8万元,家属称将上诉

江苏太仓一飞行营地坠机致死案续:获赔256.8万元,家属称将上诉

澎湃新闻
2026-05-31 13:40:27
下馆子千万别点这10道菜!全是预制菜“重灾区”,很多人天天在吃

下馆子千万别点这10道菜!全是预制菜“重灾区”,很多人天天在吃

房产衫哥
2026-05-31 14:01:04
现在的商K,质量都越来越高了…

现在的商K,质量都越来越高了…

微微热评
2026-05-31 21:43:30
俄乌战争一旦结束,最先“倒下”的可能是这五个国家

俄乌战争一旦结束,最先“倒下”的可能是这五个国家

民间胡扯老哥
2026-05-31 09:40:36
老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

老婆出轨后,我去找对方老婆,谁料他老婆:给你套房,但有个条件

千秋文化
2026-05-29 19:56:40
成就三冠王!樊振东独得两分,萨尔布吕肯赢得乒乓球德甲冠军

成就三冠王!樊振东独得两分,萨尔布吕肯赢得乒乓球德甲冠军

澎湃新闻
2026-05-31 22:10:26
2026-06-01 04:39:00
上观新闻 incentive-icons
上观新闻
站上海,观天下
492273文章数 761849关注度
往期回顾 全部

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

头条要闻

特朗普生日白宫办格斗赛 近距离观赛花超100万美元

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

健康
教育
数码
时尚
本地

尝试干细胞疗法如何避免踩坑?

教育要闻

(序号A49205)校园安全教育责任与担当主题班会PPT..

数码要闻

苹果眼镜最新爆料:多款式设计,内部代号N50,延期2027年底发布

梓渝:慢下来,也很好

本地新闻

用剪纸的方式,打开江苏扬州

无障碍浏览 进入关怀版