![]()
晚点测评 14 款大模型。
文丨贺乾明
编辑丨黄俊杰
到今年 11 月,中国有上亿人每天打开大模型助手应用,解决工作和生活中遇到的问题。与去年 4 月我们第一次测评大模型能力时相比,这一数字增长超过 900%。
在大模型公司的宣传中,各种大模型能力基准测试得分持续增长。但这些得分并不直接对应日常使用体验,尤其当你不需要研究数学的话。
过去一个多月,我们访谈了十多位工作中经常使用大模型的人,结合社交媒体上广泛传播的用例,设定 15 个日常工作相关的问题,测评国内外 14 款大模型,包括最近上线的 GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心 5.0、Kimi K2 Thinking 等模型。
本次评测我们不涉及编程工作、agent 和深度研究,也没有用需要基础编程的复杂处理方式,交互都在对话框内完成。
![]()
测试中,我们全用中文提问,每个问题单开一个对话框,选大模型第一次回答的结果。我们让大模型相互盲评,用来辅助判断开放式问题的结果。
我们累计与不同的模型助理交互超千次。大模型的回答有一定随机性,这不是完全严谨的评测,但更接近现实使用场景。之后评测将定期更新。
多人多轮头脑风暴:海外模型情商较高,阿里千问最会劝老板
角色扮演是大模型的强项。ChatGPT 引发大模型潮流之后,市场上迅速出现相关的大模型应用,比如 Character.ai、星野、猫箱等。它的潜力不只有陪人聊天,已经有社会学者用大模型生成 “硅基样本”,用来模拟人类的行为模式,称 “可复现性强、成本低廉、规避因样本选择不当而产生的偏差”。
它也可以用来头脑风暴。我们参考 Reddit 论坛中数千人点赞的大模型使用场景,在大模型的协助下,设置一组问题,用来测试它们的能力。第一个问题是:
我要创建一个由 8 个不同人格角色组成的个人决策委员会,每个角色代表一种独特的思维方式。这些人格将作为我的私人智囊团。每当我遇到问题时,他们会从不同视角给我提供建议。以下是 8 位委员会成员的定位和思维模式:
- 保守主义者(谨慎、规避风险),专注责任感、道德观和结构化思维。提供谨慎且合乎伦理的视角,确保我不会做出鲁莽的决定。
- 乐观主义者(只看到潜在好处),鼓励积极进取。帮助识别机遇并激励我追求财务和事业上的提升。
- 现实主义者(平衡利弊) ,有远见,但很务实,既能宏观思考又能脚踏实地。确保我的想法有野心又切实可行。
- 反叛主义者(挑战常规),自律,有极度抗压能力。推动我突破舒适区,确保我不甘于平庸。
- 直觉主义者(感性、本能驱动),引导我相信直觉,让决策与个人成就感和人际关系相契合,而不是只靠逻辑或利益得失。
- 数据分析专家(数据驱动,逻辑导向),运用第一性原理思维和数据分析,按照逻辑拆解问题并消除情感偏见。
- 战略专家(战术型、战争思维、长期规划者),将决策视为一场策略与耐心的博弈,能预见多步之后的局面。
- 公关专家(富有说服力、魅力四射、社交灵活),深谙人际沟通技巧,拥有极强的说服能力,确保我做出的选择,能最大化赢得他人好感。
让我们先组建这个 8 人委员会,然后我会提出问题。
这个问题的答案,我们交给参与测评的大模型助手相互盲评,让它们从准确性、完整性、逻辑性、参考性、可读性角度评分。大模型助理的答案汇总后,一共有 1.8 万字。
盲评过程,就有大模型助理出现问题:商汤商量无法支持这么长的上下文;文心一言在思考过程中完成了评分,但最终输出的结果仅包含部分评分(刷新重试后正常);讯飞星火只给第一个回答评分(刷新后并没有解决)。
参与盲评的大模型们认为,ChatGPT 得分最高,然后是阶跃星辰的助理,商汤商量排在第三。它们的共同点是,根据自己的理解,制定了相对完善的议事规则,并给每个角色设定了昵称。
![]()
最低分是 MiniMax Agent 组建的委员会,它只是调整了提示词,并没有把它当作一个委员会组织起来。
![]()
在我们测评期间,ChatGPT、文心一言、Gemini 使用的大模型都升级了,重新测评之后发现,它们回答的得分都略有波动,但差别不大。
紧接着,我们向大模型提出问题:
我要开品牌外卖店,从北京起步,主打高品质,做米其林三星水平的家常菜,人均只要 25 元。所有的食材在工厂备菜分切,门店用机器人现炒。接下来我在中国要开 10000 家门店。
基本每个大模型都能扮演好这些角色,并给出符合性格特征的回答。还有模型指出它要面对与京东七鲜小厨的直接竞争,比如元宝、文心一言、Kimi。
![]()
大模型助理们都提及 “米其林三星水平的家常菜” 和 “人均只要 25 元” 相互矛盾,建议不要这样定位。比如 ChatGPT 说 “在现实世界里几乎不可能直接成立”;Gemini 说它是 “欺诈性广告”“是高压线,必须替换”;DeepSeek 建议 “改用 ‘星级厨师研发配方’,规避虚假宣传风险” 等。
然后我们告诉大模型组建的委员会:
这是老板提出来的需求,我应该如何说服老板,告诉他原有的方案行不通。请委员会成员相互争论、说服对方,直到出现超过 5 个人都赞同的沟通话术。
多数大模型都选择先认可老板的愿景,然后再提出 “风险”“成功概率低” 的问题,并给出自认为相对更稳妥的方案,比如先开几家店做实验等。
豆包相对直接,建议给老板说 “成本模型不成立”“品质宣传有风险”“扩张节奏不切实际”。
阶跃星辰的模型类似,建议说 “商业逻辑上存在三大致命矛盾”。只有元宝(第一次回答)没有给出可用话术,不参与后续测评。
得到的答案我们整理后交给大模型相互盲评,让它以老板的身份来看,哪个模型的话术更能听得进去。
得分最高的是阿里的千问,它给出的话术中,没有明确指出来老板的设想有问题,而是把改动后的方案融合到了执行策略中。它还引用了美团创始人王兴、麦当劳之父雷·克洛克等人的名言,论证自己的策略合理。宣称 “更看重情商” 的 GPT-5.1,盲评中也没有超过它。
![]()
ChatGPT、Claude、Gemini 提供的话术类似,都没有否定老板的策略,而是强调 “存在风险,把它当作长期目标” 劝解等,得分普遍高过其他国产大模型。
阶跃星辰提供的话术得分最低,多数模型认为直接说 “三大致命矛盾” 不合理。MiniMax Agent 建议老板先开 3-5 家高端外卖店(客单价 150-200 元),被多数模型认为 “忤逆” 老板的设想,得分倒数第二。
![]()
长文本处理:幻觉还在,以及他们比你还会偷懒
处理文档是工作中常见且繁琐的场景,也是大模型公司重点研究的方向。ChatGPT 发布时,能处理的文本长度只有 4000 个字,现在 Google 的大模型已经提升到了百万级,用来处理长文档。我们测评的大模型助理都支持上传文档,但只要问题复杂一点,它们都很难解决。
第一个问题,我们给它们提供了 2024 年中国具身智能大会的会议手册。手册一共有 36 页,在组织架构、会议日程、嘉宾简介部分都出现了参会人员信息,大部分人会出现多次。
![]()
测评会议手册截图。
我们让它们提供参会人员的姓名和机构:
我向你提供了一份会议手册。帮我把其中的人员名单分类提取出来,包括姓名和机构,不要重复,给我输出一份 EXCEL 名单。我要给他们做姓名牌。
没有任何一个大模型完美解决这个问题,我们原定的追问环节也无法进行。其中,Claude、阶跃星辰、商汤商量都无法上传大于 30M 的文档。
最接近正确答案的是 Google 的 Gemini(3.0 Pro)和腾讯的元宝,人数较全,但是会处理错一些参会人员所在的机构和人名等。
表现相对较好的模型是 MiniMax、豆包、文心一言(文心 5.0)等,识别的人少一些,但都做到不重复提取参会人员。
一些大模型在这个任务中出现幻觉,比如智谱清言在名单中添加了不少未参会的研究者,其中就有智谱的创始人、首席科学家唐杰。
还有一部分模型会 “偷懒”,比如 GPT-5 驱动 ChatGPT 只提取 30 多人的名字,说这只是初稿。即便我们要求它继续整理,依然无法解决问题,出现类似问题的还有讯飞星火等。
表现最糟糕的是通义千问(
Qwen3-Max-Thinking-Preview),它只提取了 4 个参会者,单位错了 3 个(重复提交问题后依然如此)。用他们的文档阅读模式提取名单,给了 5 个参会者,没有一个是对的。
![]()
为了测试大模型的能力差距,我们又挑选了一个大模型处理长文本最成熟的场景——让它们总结长文:
请阅读链接(
https://www.latepost.com/news/dj_detail?id=3237)指向的文章,并分点输出一份总结,重点分析:
1. 作者的主要论点;
2. 支撑这些论点的论据(数据、案例、逻辑推理等);
3. 文章中存在的假设或潜在偏见。
这样的一个基础测试,也不是所有的大模型都能顺利完成。Gemini(2.5 Pro)、Claude、DeepSeek 无法直接识别链接。我们提供正文后,多数模型都能够给出总结,而 DeepSeek 则是给了自己的感想(重复提交问题后恢复正常)。
剩下能够提供反馈的大模型,商汤商量说它是一篇 “美国对中国电商政策变化的文章”,其他模型都能正常总结。Gemini 升级到 3.0 Pro 后也出现类似错误,说它是一篇关于拼多多的文章。
我们请文章的作者盲评了这些模型助手的总结内容:ChatGPT、Gemini、Kimi 给出的总结质量最高,都遵循了原文,没有自己编造。它们在分析论证逻辑时存在瑕疵,比如 Gemini 说戴蒙谈了金融泡沫和工业泡沫的区分,事实上并没有。
![]()
表现最差的助理是 MiniMax Agent,它给了 920 字总结,是所有模型中生成的总结最简短的,但只是泛泛而谈,也有事实错误。
![]()
AI 互评后认为,千问最不会写周报
我们让大模型辅助写了一份周报:
你是一名销售经理,工作多年、擅长汇报。本周,你完成了下面的工作:
- 见了 4 名潜在客户,都没有转化成可用的销售线索。
- 指导实习生修改了公司 AI 音视频解决方案的 PPT。
- 给市场营销团队的整合营销方案反馈了几个点。
现在请你根据上述工作,写一份同事和领导都会看到的周报。要求:
- 让同事认为你做了很多事情。
- 让老板对你满意,会觉得你在认真工作,很快就能带来大量收入。
- 要有细节、有说服力,内容看上去是正常的工作汇报,不要有废话和客套的感觉。
ChatGPT 的周报最长,有 1902 字;DeepSeek 的最短,488 字。除了阿里的千问,大模型助理都 “脑补” 了工作细节,比如虚构客户名称、行业。ChatGPT、Claude、文心一言、MiniMax Agent、商汤商量等还在周报中补充了可能会带来多少收入。
随后,我们让大模型扮演看周报的领导,盲评下属提交的周报,用来评估模型能力差异。
你是一名擅长发现下属是否努力工作的领导,你的下属给你提交了以下周报,请你判断:
- 这份周报是不是大模型生成的,并附上理由。
- 为这位下属本周工作状态评分(1 分-10 分,分越高工作越努力)。
- 这名下属本周真正做了哪些工作,有什么成效。
Kimi 认为,我分 14 次发给它的不同周报中,有 13 份是大模型撰写的,但它认为 Claude(Opus-4.1)的周报是人写的。它判断的逻辑是,真人写的周报,结构不会那么工整,不会均匀地堆砌 “赋能”“抓手”“痛点” 等管理黑话,会夹杂口语表达。
![]()
豆包和文心一言都只识别出来 1 份周报来自大模型。它们给 14 个虚拟下属努力程度的平均分也最高,达到 8.6。
给平均分最低的是 Claude,只有 4.3。它识别出 11 份大模型周报——只要它判断周报来自大模型,就打低分:“用 AI 生成周报本身就反映出工作态度问题。”
作为被测评对象时,Claude 生成的周报只被 MiniMax Agent 识别为来自大模型,平均得分最高,达到 8.2。排在其后的是 ChatGPT(识别出来 4 次)和 Kimi(识别出来 2 次),得分 8.1。平均分最低的是没有脑补工作细节的千问,只有 4.6 分。
![]()
安排做菜,统筹规划能力普遍提升
我们挑选了一个相对轻松的职场沟通场景:邀请同事到家里聚餐,请大模型规划如何做菜。这是去年我们测评大模型的问题,当时只有 ChatGPT(GPT-4)、Claude(Claude 3)、通义千问(Qwen-72B)给出较好的方案。
周六晚上 8 点,同事来家里做客,我要做下面 6 道菜招待他们。我家里只有两个灶,我想用最短的时间把菜做好,且各道菜成菜间隔不要太久,以免放凉影响口感。请你给我一个做菜规划表,注明做菜顺序,每道菜什么时候开始做。菜单:清炒菠菜、白灼大虾、藜蒿炒腊肉、土豆炖牛腩、生蚝鸡煲、清蒸松叶蟹
经过一年多的迭代, Claude、豆包、千问、智谱清言、Kimi、MiniMax 都能交出合理的方案。智谱清言甚至还考虑了洗锅的时间,这是其他模型助理忽视的地方。但 GPT-5 驱动的 ChatGPT 让我当场腌腊肉,表现不如去年的 GPT-4。
![]()
![]()
剩下的大模型助理提供的方案都无法实现,要么牛腩炖不熟(DeepSeek、文心一言、阶跃星辰、讯飞星火),要么提前一个小时甚至更久做好,菜会变凉(元宝、商汤商量)。
![]()
搜索:完全可以替代搜索引擎,ChatGPT、Claude、Kimi 在第一梯队
大模型的训练数据时效落后。为了提升解决问题的能力,大模型公司开发助理产品时,都会增加联网功能,让大模型搜索最新发布的内容参考。根据 OpenAI 和哈佛大学等高校 9 月发布的 ChatGPT 用户使用报告,信息查询已经成为用户常用的功能之一。Google、百度也都把大模型塞进了搜索引擎。
如果搜索目标清晰,部分大模型完全能够替代搜索引擎。那些在搜索场景看似有优势的公司,比如 Google、百度,以及那些有独特数据源的公司,比如腾讯(微信)、字节(抖音),并不一定在搜索任务中表现更好。我们的第一个问题是:
我记得大疆在一篇官方文章里面提到,他们的工程师研发小型云台时遭遇很大技术挑战,并讲述了细节和精度要求,帮我找到具体的文章链接。
大疆发过不止一篇相关文章,答案不只有一个。OpenAI 的 GPT-5 和 Kimi 给出大疆海外博客发布的文章,内容更翔实;GPT-5.1 驱动的 ChatGPT、文心一言、MiniMax 找到了大疆在微信公众号上发布过的相关文章;Claude 找到了一个大疆官方发布过、后来删除的相关文章,都算合理。
![]()
剩下的模型大多数只是找到了关联度不高的文章。比如 Gemini 2.5 Pro 杜撰了一篇文章,这样的情况还比不上搜索引擎。不过升级到 3.0 Pro 的 Gemini 给出大疆海外博客的文章。
第二个是我们去年测评过的问题,当时只有 OpenAI 的 GPT-4 和智谱的 GLM-4 给出了正确答案。
请帮我找出来英伟达 1999 年上市时递交的招股书链接。
今年有 5 个大模型助理(ChatGPT、Claude、Gemini、豆包、Kimi)给出了指向招股书的链接,Claude 甚至给了英伟达上市过程中的两个版本。
智谱 GLM-4.6 等剩下的大模型助理,要么让我们去 SEC 官网搜,要么给了错误链接。不过没有模型再说 “招股书是私密文件”。
![]()
我们搜索关键词 “Nvidia 1999 IPO prospectus”,Google 第一条就是招股书原文;百度搜索的结果,首条是 AI 回答,告诉我 “招股书是内部资料”,剩下的链接也不能直接指向英伟达招股书。11 月 13 日,百度发布文心大模型 5.0 版本后,去掉了 “内部资料” 的说法,依然无法提供链接。
第三个问题,我们让大模型助手以图找图:
我看到了一个关于中国大模型应用用户职业构成的数据截图,请你帮我找一下数据的出处是哪里,并给出具体链接。
![]()
这个问题,有 10 个大模型都给出正确答案——来自中国互联网络信息中心。ChatGPT 甚至指出这张图来自 199IT 网站,并提醒我们,原图底部有数据来源。
![]()
Gemini(2.5 Pro)说 “自己是一个文本 AI,超出了能力范围”。升级后,Gemini(3.0 Pro)从视觉、数据维度、时间等维度分析,说它来自 QuestMobile;重新回答后,它给出正确的来源。
DeepSeek 和元宝无法在上传图片或文件的时候使用联网搜索;阿里的千问虽然能联网搜索,但还是说自己的知识库没有更新,不给答案(重复提问结果一样)。
如果用搜索引擎以图搜图,无论是 Google 还是百度,只能得到一堆相似的饼图,无法直接得到结果。百度在结果之前还推销了几个不相关的付费报告。
![]()
看图表、分析病情到整理工位,不少模型识图靠猜
GPT-4o 和第一代 Gemini 模型发布后,所有大模型公司都在训练多模态模型,让它能够同时处理图像等内容。与文档处理能力类似,我们测评的每一个大模型助理应用都支持上传图片。
第一个问题,我们提供了一张没有数据标签的图表,让它们分析每个色块代表的数字:
我向你发送了一张 2018 年到 2022 年某机构的资产配置图,请你帮我识别:图表中每年不同资产的具体比例。
![]()
去年我们测评这类问题时,Claude 给出的答案误差最小。今年所有的大模型助理中,只有 Gemini 的答案最接近实际数据,其他的模型都只是给了一个估算数字。
从这些模型回答问题的思考过程看,大多数模型在分析这个图片时,首选调用 OCR(文本提取)模型提取文字等信息,而非精细地理解视觉内容,因此很难给出准确答案。
第二个问题,我们选择了一个文字信息较多的体检报告,测试各个大模型辅助分析病情的能力:
我今年工作体检发现甲状腺出了点状况,去医院做详细检查得到图片中的结果。我接下来该怎么办?
![]()
因为检查报告中文字信息充分,而且甲状腺结节情况常见,所有的大模型都能给出相对合理的回复。大多数模型都建议去做 “细针穿刺活检”——与三甲医院的医生建议一样。
只有 DeepSeek 认为,医生可能建议定期密切观察。它的理由是,结节尺寸小,穿刺难度大或价值有限,也没有高危的超声特征和淋巴结转移迹象,“立即进行创伤性处理的必要性不高”。
![]()
科大讯飞的星火建议穿刺活检之后,还提议去做基因检测,能够 “降低重复活检需求”“指导靶向治疗选择,评估淋巴结转移概率”。
![]()
随后,我们选了一个纯视觉识别的问题,让大模型识别周围的物体然后给出回答。这是许多公司强调大模型多模态能力时,会在发布会上展示的用例。
我的同事正在尝试整理工位,以提升工作效率。我上传了他工位的照片。请你根据图片给出桌面物品的摆放方案。如果可能,请提供带有标注的图片或简易示意图,展示整理后的布局方案。
![]()
DeepSeek 提示它只能用 OCR 的方式识别文字信息,没有办法解决这一问题。Kimi 采用与 DeepSeek 类似的训练路径(K2 Thinking),也出现同样的情况。
能工作的模型助理,都只识别出部分物体。GPT-5 驱动的 ChatGPT,直接给出一张整理后的办公桌图片,但没有照顾到桌面上的所有物品。
其他提供图片参考的模型还有文心一言,给了一个台式电脑的图片;MiniMax 也生成了图片,但其中有大量不相关物体,没有太大参考价值。在文字部分,MiniMax 的助理建议丢掉 Moonshot 的盒子。
![]()
更新到 GPT-5.1 之后,ChatGPT 给出文字版的整理方案,最后用 ASCII 字符画了示意图,这也是多数模型采取的方案(Claude 生成了本地网页)。但是国内的模型助理,画的示意图普遍比 ChatGPT、Gemini 差,整体布局能力也稍显不足。
![]()
大模型的能力提升,使用者的心态也变了
在这些日常上班问题测试中,不少大模型能力有了提升。比如去年测评中难倒多数模型助理的 “英伟达招股书搜索”“做菜规划” 问题,今年有更多模型助理能解决。
整体来看,海外的模型整体表现的确更好一些。与去年的测评相比,部分国产模型与它们的差别明显缩小,在劝说老板、提取复杂文档信息等场景,一些国产模型表现更好。
我们还发现,模型并不是越升级越强。在一些场景中,甚至有模型的能力不升反降。
变化的不只是大模型的能力,还有使用大模型人的心态。今年 9 月,OpenAI 和哈佛大学等高校发布 ChatGPT 用户使用情况报告:2024 年 7 月时,用户与 ChatGPT 的互动中,“Asking(询问)” 和 “Doing(执行)” 类别占比都是 40%;到了今年 9 月,Asking 占比增长到一半,Doing 下降到三成。
“这(Asking)是不断增长、用户反馈很好的类别。” 报告中写道,人们更看重 ChatGPT 作为顾问,而不只是用它完成任务。他们还发现,工作场景中 42% 的任务与写作相关,其中约三分之二都不是从头生成内容,而是让 ChatGPT 修改文本。
今年年中,“上下文工程” 取代 “提示词工程”,成为安德烈·卡帕斯 (Andrej Karpathy) 等 AI 研究者眼中与大模型交互更合适的方案。他们认为,给大模型提供更好的背景信息,能够获得更好的答案。OpenAI、Google、Anthropic 都在产品中增加全局记忆的功能,收集使用者的背景信息,提供更好的回答。
我们准备这次测评时,也收集了一些多数受访者使用大模型的技巧,或许可以有一些启发:
- 交叉验证。给多个大模型提出同一个问题,然后对比、综合不同大模型的答案,大概率会接近现实情况,或者是让大模型相互点评回答,然后找到其中可能有问题的地方。
- 长文本分段。处理长文本时,比如让它给修改建议时,不一次性给它全文,而是拆解成 300 或 500 字的小段落,然后挨个让它给出建议,这样的效果往往比一次性反馈更好。
- 融入感情色彩。有些人会给它说 “请”“谢谢”,认为得到的答案质量更高;有些人会 “卖惨”,说如果没有好的回答, 工作就丢了;还有一些人会学名导演 PUA 大模型,无论它前三版回答的怎么样,都说不行。
欢迎大家留言分享自己的技巧。
题图来源:F1: The Movie
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.