查资料、劝老板、写周报，给上班人准备的大模型评测|样本

分享至

晚点测评 14 款大模型。

文丨贺乾明

编辑丨黄俊杰

到今年 11 月，中国有上亿人每天打开大模型助手应用，解决工作和生活中遇到的问题。与去年 4 月我们第一次测评大模型能力时相比，这一数字增长超过 900%。

在大模型公司的宣传中，各种大模型能力基准测试得分持续增长。但这些得分并不直接对应日常使用体验，尤其当你不需要研究数学的话。

过去一个多月，我们访谈了十多位工作中经常使用大模型的人，结合社交媒体上广泛传播的用例，设定 15 个日常工作相关的问题，测评国内外 14 款大模型，包括最近上线的 GPT-5.1、Claude Opus 4.5、Gemini 3 Pro、文心 5.0、Kimi K2 Thinking 等模型。

本次评测我们不涉及编程工作、agent 和深度研究，也没有用需要基础编程的复杂处理方式，交互都在对话框内完成。

测试中，我们全用中文提问，每个问题单开一个对话框，选大模型第一次回答的结果。我们让大模型相互盲评，用来辅助判断开放式问题的结果。

我们累计与不同的模型助理交互超千次。大模型的回答有一定随机性，这不是完全严谨的评测，但更接近现实使用场景。之后评测将定期更新。

多人多轮头脑风暴：海外模型情商较高，阿里千问最会劝老板

角色扮演是大模型的强项。ChatGPT 引发大模型潮流之后，市场上迅速出现相关的大模型应用，比如 Character.ai、星野、猫箱等。它的潜力不只有陪人聊天，已经有社会学者用大模型生成 “硅基样本”，用来模拟人类的行为模式，称 “可复现性强、成本低廉、规避因样本选择不当而产生的偏差”。

它也可以用来头脑风暴。我们参考 Reddit 论坛中数千人点赞的大模型使用场景，在大模型的协助下，设置一组问题，用来测试它们的能力。第一个问题是：

我要创建一个由 8 个不同人格角色组成的个人决策委员会，每个角色代表一种独特的思维方式。这些人格将作为我的私人智囊团。每当我遇到问题时，他们会从不同视角给我提供建议。以下是 8 位委员会成员的定位和思维模式：

- 保守主义者（谨慎、规避风险），专注责任感、道德观和结构化思维。提供谨慎且合乎伦理的视角，确保我不会做出鲁莽的决定。
- 乐观主义者（只看到潜在好处），鼓励积极进取。帮助识别机遇并激励我追求财务和事业上的提升。
- 现实主义者（平衡利弊），有远见，但很务实，既能宏观思考又能脚踏实地。确保我的想法有野心又切实可行。
- 反叛主义者（挑战常规），自律，有极度抗压能力。推动我突破舒适区，确保我不甘于平庸。
- 直觉主义者（感性、本能驱动），引导我相信直觉，让决策与个人成就感和人际关系相契合，而不是只靠逻辑或利益得失。
- 数据分析专家（数据驱动，逻辑导向），运用第一性原理思维和数据分析，按照逻辑拆解问题并消除情感偏见。
- 战略专家（战术型、战争思维、长期规划者），将决策视为一场策略与耐心的博弈，能预见多步之后的局面。
- 公关专家（富有说服力、魅力四射、社交灵活），深谙人际沟通技巧，拥有极强的说服能力，确保我做出的选择，能最大化赢得他人好感。

让我们先组建这个 8 人委员会，然后我会提出问题。

这个问题的答案，我们交给参与测评的大模型助手相互盲评，让它们从准确性、完整性、逻辑性、参考性、可读性角度评分。大模型助理的答案汇总后，一共有 1.8 万字。

盲评过程，就有大模型助理出现问题：商汤商量无法支持这么长的上下文；文心一言在思考过程中完成了评分，但最终输出的结果仅包含部分评分（刷新重试后正常）；讯飞星火只给第一个回答评分（刷新后并没有解决）。

参与盲评的大模型们认为，ChatGPT 得分最高，然后是阶跃星辰的助理，商汤商量排在第三。它们的共同点是，根据自己的理解，制定了相对完善的议事规则，并给每个角色设定了昵称。

最低分是 MiniMax Agent 组建的委员会，它只是调整了提示词，并没有把它当作一个委员会组织起来。

在我们测评期间，ChatGPT、文心一言、Gemini 使用的大模型都升级了，重新测评之后发现，它们回答的得分都略有波动，但差别不大。

紧接着，我们向大模型提出问题：

我要开品牌外卖店，从北京起步，主打高品质，做米其林三星水平的家常菜，人均只要 25 元。所有的食材在工厂备菜分切，门店用机器人现炒。接下来我在中国要开 10000 家门店。

基本每个大模型都能扮演好这些角色，并给出符合性格特征的回答。还有模型指出它要面对与京东七鲜小厨的直接竞争，比如元宝、文心一言、Kimi。

大模型助理们都提及 “米其林三星水平的家常菜” 和 “人均只要 25 元” 相互矛盾，建议不要这样定位。比如 ChatGPT 说 “在现实世界里几乎不可能直接成立”；Gemini 说它是 “欺诈性广告”“是高压线，必须替换”；DeepSeek 建议 “改用 ‘星级厨师研发配方’，规避虚假宣传风险” 等。

然后我们告诉大模型组建的委员会：

这是老板提出来的需求，我应该如何说服老板，告诉他原有的方案行不通。请委员会成员相互争论、说服对方，直到出现超过 5 个人都赞同的沟通话术。

多数大模型都选择先认可老板的愿景，然后再提出 “风险”“成功概率低” 的问题，并给出自认为相对更稳妥的方案，比如先开几家店做实验等。

豆包相对直接，建议给老板说 “成本模型不成立”“品质宣传有风险”“扩张节奏不切实际”。

阶跃星辰的模型类似，建议说 “商业逻辑上存在三大致命矛盾”。只有元宝（第一次回答）没有给出可用话术，不参与后续测评。

得到的答案我们整理后交给大模型相互盲评，让它以老板的身份来看，哪个模型的话术更能听得进去。

得分最高的是阿里的千问，它给出的话术中，没有明确指出来老板的设想有问题，而是把改动后的方案融合到了执行策略中。它还引用了美团创始人王兴、麦当劳之父雷·克洛克等人的名言，论证自己的策略合理。宣称 “更看重情商” 的 GPT-5.1，盲评中也没有超过它。

ChatGPT、Claude、Gemini 提供的话术类似，都没有否定老板的策略，而是强调 “存在风险，把它当作长期目标” 劝解等，得分普遍高过其他国产大模型。

阶跃星辰提供的话术得分最低，多数模型认为直接说 “三大致命矛盾” 不合理。MiniMax Agent 建议老板先开 3-5 家高端外卖店（客单价 150-200 元），被多数模型认为 “忤逆” 老板的设想，得分倒数第二。

长文本处理：幻觉还在，以及他们比你还会偷懒

处理文档是工作中常见且繁琐的场景，也是大模型公司重点研究的方向。ChatGPT 发布时，能处理的文本长度只有 4000 个字，现在 Google 的大模型已经提升到了百万级，用来处理长文档。我们测评的大模型助理都支持上传文档，但只要问题复杂一点，它们都很难解决。

第一个问题，我们给它们提供了 2024 年中国具身智能大会的会议手册。手册一共有 36 页，在组织架构、会议日程、嘉宾简介部分都出现了参会人员信息，大部分人会出现多次。

测评会议手册截图。

我们让它们提供参会人员的姓名和机构：

我向你提供了一份会议手册。帮我把其中的人员名单分类提取出来，包括姓名和机构，不要重复，给我输出一份 EXCEL 名单。我要给他们做姓名牌。

没有任何一个大模型完美解决这个问题，我们原定的追问环节也无法进行。其中，Claude、阶跃星辰、商汤商量都无法上传大于 30M 的文档。

最接近正确答案的是 Google 的 Gemini（3.0 Pro）和腾讯的元宝，人数较全，但是会处理错一些参会人员所在的机构和人名等。

表现相对较好的模型是 MiniMax、豆包、文心一言（文心 5.0）等，识别的人少一些，但都做到不重复提取参会人员。

一些大模型在这个任务中出现幻觉，比如智谱清言在名单中添加了不少未参会的研究者，其中就有智谱的创始人、首席科学家唐杰。

还有一部分模型会 “偷懒”，比如 GPT-5 驱动 ChatGPT 只提取 30 多人的名字，说这只是初稿。即便我们要求它继续整理，依然无法解决问题，出现类似问题的还有讯飞星火等。

表现最糟糕的是通义千问（
Qwen3-Max-Thinking-Preview），它只提取了 4 个参会者，单位错了 3 个（重复提交问题后依然如此）。用他们的文档阅读模式提取名单，给了 5 个参会者，没有一个是对的。

为了测试大模型的能力差距，我们又挑选了一个大模型处理长文本最成熟的场景——让它们总结长文：

请阅读链接（
https://www.latepost.com/news/dj_detail?id=3237）指向的文章，并分点输出一份总结，重点分析：
1. 作者的主要论点；
2. 支撑这些论点的论据（数据、案例、逻辑推理等）；
3. 文章中存在的假设或潜在偏见。

这样的一个基础测试，也不是所有的大模型都能顺利完成。Gemini（2.5 Pro）、Claude、DeepSeek 无法直接识别链接。我们提供正文后，多数模型都能够给出总结，而 DeepSeek 则是给了自己的感想（重复提交问题后恢复正常）。

剩下能够提供反馈的大模型，商汤商量说它是一篇 “美国对中国电商政策变化的文章”，其他模型都能正常总结。Gemini 升级到 3.0 Pro 后也出现类似错误，说它是一篇关于拼多多的文章。

我们请文章的作者盲评了这些模型助手的总结内容：ChatGPT、Gemini、Kimi 给出的总结质量最高，都遵循了原文，没有自己编造。它们在分析论证逻辑时存在瑕疵，比如 Gemini 说戴蒙谈了金融泡沫和工业泡沫的区分，事实上并没有。

表现最差的助理是 MiniMax Agent，它给了 920 字总结，是所有模型中生成的总结最简短的，但只是泛泛而谈，也有事实错误。

AI 互评后认为，千问最不会写周报

我们让大模型辅助写了一份周报：

你是一名销售经理，工作多年、擅长汇报。本周，你完成了下面的工作：

- 见了 4 名潜在客户，都没有转化成可用的销售线索。
- 指导实习生修改了公司 AI 音视频解决方案的 PPT。
- 给市场营销团队的整合营销方案反馈了几个点。

现在请你根据上述工作，写一份同事和领导都会看到的周报。要求：

- 让同事认为你做了很多事情。
- 让老板对你满意，会觉得你在认真工作，很快就能带来大量收入。
- 要有细节、有说服力，内容看上去是正常的工作汇报，不要有废话和客套的感觉。

ChatGPT 的周报最长，有 1902 字；DeepSeek 的最短，488 字。除了阿里的千问，大模型助理都 “脑补” 了工作细节，比如虚构客户名称、行业。ChatGPT、Claude、文心一言、MiniMax Agent、商汤商量等还在周报中补充了可能会带来多少收入。

随后，我们让大模型扮演看周报的领导，盲评下属提交的周报，用来评估模型能力差异。

你是一名擅长发现下属是否努力工作的领导，你的下属给你提交了以下周报，请你判断：

- 这份周报是不是大模型生成的，并附上理由。
- 为这位下属本周工作状态评分（1 分-10 分，分越高工作越努力）。
- 这名下属本周真正做了哪些工作，有什么成效。

Kimi 认为，我分 14 次发给它的不同周报中，有 13 份是大模型撰写的，但它认为 Claude（Opus-4.1）的周报是人写的。它判断的逻辑是，真人写的周报，结构不会那么工整，不会均匀地堆砌 “赋能”“抓手”“痛点” 等管理黑话，会夹杂口语表达。

豆包和文心一言都只识别出来 1 份周报来自大模型。它们给 14 个虚拟下属努力程度的平均分也最高，达到 8.6。

给平均分最低的是 Claude，只有 4.3。它识别出 11 份大模型周报——只要它判断周报来自大模型，就打低分：“用 AI 生成周报本身就反映出工作态度问题。”

作为被测评对象时，Claude 生成的周报只被 MiniMax Agent 识别为来自大模型，平均得分最高，达到 8.2。排在其后的是 ChatGPT（识别出来 4 次）和 Kimi（识别出来 2 次），得分 8.1。平均分最低的是没有脑补工作细节的千问，只有 4.6 分。

安排做菜，统筹规划能力普遍提升

我们挑选了一个相对轻松的职场沟通场景：邀请同事到家里聚餐，请大模型规划如何做菜。这是去年我们测评大模型的问题，当时只有 ChatGPT（GPT-4）、Claude（Claude 3）、通义千问（Qwen-72B）给出较好的方案。

周六晚上 8 点，同事来家里做客，我要做下面 6 道菜招待他们。我家里只有两个灶，我想用最短的时间把菜做好，且各道菜成菜间隔不要太久，以免放凉影响口感。请你给我一个做菜规划表，注明做菜顺序，每道菜什么时候开始做。菜单：清炒菠菜、白灼大虾、藜蒿炒腊肉、土豆炖牛腩、生蚝鸡煲、清蒸松叶蟹

经过一年多的迭代， Claude、豆包、千问、智谱清言、Kimi、MiniMax 都能交出合理的方案。智谱清言甚至还考虑了洗锅的时间，这是其他模型助理忽视的地方。但 GPT-5 驱动的 ChatGPT 让我当场腌腊肉，表现不如去年的 GPT-4。

剩下的大模型助理提供的方案都无法实现，要么牛腩炖不熟（DeepSeek、文心一言、阶跃星辰、讯飞星火），要么提前一个小时甚至更久做好，菜会变凉（元宝、商汤商量）。

搜索：完全可以替代搜索引擎，ChatGPT、Claude、Kimi 在第一梯队

大模型的训练数据时效落后。为了提升解决问题的能力，大模型公司开发助理产品时，都会增加联网功能，让大模型搜索最新发布的内容参考。根据 OpenAI 和哈佛大学等高校 9 月发布的 ChatGPT 用户使用报告，信息查询已经成为用户常用的功能之一。Google、百度也都把大模型塞进了搜索引擎。

如果搜索目标清晰，部分大模型完全能够替代搜索引擎。那些在搜索场景看似有优势的公司，比如 Google、百度，以及那些有独特数据源的公司，比如腾讯（微信）、字节（抖音），并不一定在搜索任务中表现更好。我们的第一个问题是：

我记得大疆在一篇官方文章里面提到，他们的工程师研发小型云台时遭遇很大技术挑战，并讲述了细节和精度要求，帮我找到具体的文章链接。

大疆发过不止一篇相关文章，答案不只有一个。OpenAI 的 GPT-5 和 Kimi 给出大疆海外博客发布的文章，内容更翔实；GPT-5.1 驱动的 ChatGPT、文心一言、MiniMax 找到了大疆在微信公众号上发布过的相关文章；Claude 找到了一个大疆官方发布过、后来删除的相关文章，都算合理。

剩下的模型大多数只是找到了关联度不高的文章。比如 Gemini 2.5 Pro 杜撰了一篇文章，这样的情况还比不上搜索引擎。不过升级到 3.0 Pro 的 Gemini 给出大疆海外博客的文章。

第二个是我们去年测评过的问题，当时只有 OpenAI 的 GPT-4 和智谱的 GLM-4 给出了正确答案。

请帮我找出来英伟达 1999 年上市时递交的招股书链接。

今年有 5 个大模型助理（ChatGPT、Claude、Gemini、豆包、Kimi）给出了指向招股书的链接，Claude 甚至给了英伟达上市过程中的两个版本。

智谱 GLM-4.6 等剩下的大模型助理，要么让我们去 SEC 官网搜，要么给了错误链接。不过没有模型再说 “招股书是私密文件”。

我们搜索关键词 “Nvidia 1999 IPO prospectus”，Google 第一条就是招股书原文；百度搜索的结果，首条是 AI 回答，告诉我 “招股书是内部资料”，剩下的链接也不能直接指向英伟达招股书。11 月 13 日，百度发布文心大模型 5.0 版本后，去掉了 “内部资料” 的说法，依然无法提供链接。

第三个问题，我们让大模型助手以图找图：

我看到了一个关于中国大模型应用用户职业构成的数据截图，请你帮我找一下数据的出处是哪里，并给出具体链接。

这个问题，有 10 个大模型都给出正确答案——来自中国互联网络信息中心。ChatGPT 甚至指出这张图来自 199IT 网站，并提醒我们，原图底部有数据来源。

Gemini（2.5 Pro）说 “自己是一个文本 AI，超出了能力范围”。升级后，Gemini（3.0 Pro）从视觉、数据维度、时间等维度分析，说它来自 QuestMobile；重新回答后，它给出正确的来源。

DeepSeek 和元宝无法在上传图片或文件的时候使用联网搜索；阿里的千问虽然能联网搜索，但还是说自己的知识库没有更新，不给答案（重复提问结果一样）。

如果用搜索引擎以图搜图，无论是 Google 还是百度，只能得到一堆相似的饼图，无法直接得到结果。百度在结果之前还推销了几个不相关的付费报告。

看图表、分析病情到整理工位，不少模型识图靠猜

GPT-4o 和第一代 Gemini 模型发布后，所有大模型公司都在训练多模态模型，让它能够同时处理图像等内容。与文档处理能力类似，我们测评的每一个大模型助理应用都支持上传图片。

第一个问题，我们提供了一张没有数据标签的图表，让它们分析每个色块代表的数字：

我向你发送了一张 2018 年到 2022 年某机构的资产配置图，请你帮我识别：图表中每年不同资产的具体比例。

去年我们测评这类问题时，Claude 给出的答案误差最小。今年所有的大模型助理中，只有 Gemini 的答案最接近实际数据，其他的模型都只是给了一个估算数字。

从这些模型回答问题的思考过程看，大多数模型在分析这个图片时，首选调用 OCR（文本提取）模型提取文字等信息，而非精细地理解视觉内容，因此很难给出准确答案。

第二个问题，我们选择了一个文字信息较多的体检报告，测试各个大模型辅助分析病情的能力：

我今年工作体检发现甲状腺出了点状况，去医院做详细检查得到图片中的结果。我接下来该怎么办？

因为检查报告中文字信息充分，而且甲状腺结节情况常见，所有的大模型都能给出相对合理的回复。大多数模型都建议去做 “细针穿刺活检”——与三甲医院的医生建议一样。

只有 DeepSeek 认为，医生可能建议定期密切观察。它的理由是，结节尺寸小，穿刺难度大或价值有限，也没有高危的超声特征和淋巴结转移迹象，“立即进行创伤性处理的必要性不高”。

科大讯飞的星火建议穿刺活检之后，还提议去做基因检测，能够 “降低重复活检需求”“指导靶向治疗选择，评估淋巴结转移概率”。

随后，我们选了一个纯视觉识别的问题，让大模型识别周围的物体然后给出回答。这是许多公司强调大模型多模态能力时，会在发布会上展示的用例。

我的同事正在尝试整理工位，以提升工作效率。我上传了他工位的照片。请你根据图片给出桌面物品的摆放方案。如果可能，请提供带有标注的图片或简易示意图，展示整理后的布局方案。

DeepSeek 提示它只能用 OCR 的方式识别文字信息，没有办法解决这一问题。Kimi 采用与 DeepSeek 类似的训练路径（K2 Thinking），也出现同样的情况。

能工作的模型助理，都只识别出部分物体。GPT-5 驱动的 ChatGPT，直接给出一张整理后的办公桌图片，但没有照顾到桌面上的所有物品。

其他提供图片参考的模型还有文心一言，给了一个台式电脑的图片；MiniMax 也生成了图片，但其中有大量不相关物体，没有太大参考价值。在文字部分，MiniMax 的助理建议丢掉 Moonshot 的盒子。

更新到 GPT-5.1 之后，ChatGPT 给出文字版的整理方案，最后用 ASCII 字符画了示意图，这也是多数模型采取的方案（Claude 生成了本地网页）。但是国内的模型助理，画的示意图普遍比 ChatGPT、Gemini 差，整体布局能力也稍显不足。

大模型的能力提升，使用者的心态也变了

在这些日常上班问题测试中，不少大模型能力有了提升。比如去年测评中难倒多数模型助理的 “英伟达招股书搜索”“做菜规划” 问题，今年有更多模型助理能解决。

整体来看，海外的模型整体表现的确更好一些。与去年的测评相比，部分国产模型与它们的差别明显缩小，在劝说老板、提取复杂文档信息等场景，一些国产模型表现更好。

我们还发现，模型并不是越升级越强。在一些场景中，甚至有模型的能力不升反降。

变化的不只是大模型的能力，还有使用大模型人的心态。今年 9 月，OpenAI 和哈佛大学等高校发布 ChatGPT 用户使用情况报告：2024 年 7 月时，用户与 ChatGPT 的互动中，“Asking（询问）” 和 “Doing（执行）” 类别占比都是 40%；到了今年 9 月，Asking 占比增长到一半，Doing 下降到三成。

“这（Asking）是不断增长、用户反馈很好的类别。” 报告中写道，人们更看重 ChatGPT 作为顾问，而不只是用它完成任务。他们还发现，工作场景中 42% 的任务与写作相关，其中约三分之二都不是从头生成内容，而是让 ChatGPT 修改文本。

今年年中，“上下文工程” 取代 “提示词工程”，成为安德烈·卡帕斯 (Andrej Karpathy) 等 AI 研究者眼中与大模型交互更合适的方案。他们认为，给大模型提供更好的背景信息，能够获得更好的答案。OpenAI、Google、Anthropic 都在产品中增加全局记忆的功能，收集使用者的背景信息，提供更好的回答。

我们准备这次测评时，也收集了一些多数受访者使用大模型的技巧，或许可以有一些启发：

- 交叉验证。给多个大模型提出同一个问题，然后对比、综合不同大模型的答案，大概率会接近现实情况，或者是让大模型相互点评回答，然后找到其中可能有问题的地方。

- 长文本分段。处理长文本时，比如让它给修改建议时，不一次性给它全文，而是拆解成 300 或 500 字的小段落，然后挨个让它给出建议，这样的效果往往比一次性反馈更好。

- 融入感情色彩。有些人会给它说 “请”“谢谢”，认为得到的答案质量更高；有些人会 “卖惨”，说如果没有好的回答，工作就丢了；还有一些人会学名导演 PUA 大模型，无论它前三版回答的怎么样，都说不行。

欢迎大家留言分享自己的技巧。

题图来源：F1: The Movie

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.