网易首页 > 网易号 > 正文 申请入驻

谷歌Claude们同时栽了:3家AI测同一产品

0
分享至


AI写报告越来越像那么回事了。结构工整、数据翔实、结论笃定——直到你发现那些"据某分析师称"根本查无出处。

我们做了个实验:让Claude、ChatGPT、Gemini三家同时调研同一款产品,再用同一套"真相过滤器"打分。结果?没有一家过30%。最讽刺的是,其中两份报告对市场规模预测惊人一致,却连引用的分析师机构名字都没写。

实验设计:故意不设陷阱

任务很简单:"全面分析GEM²-AI及其TPMN Checker产品的技术与市场现状。"

我们没有给任何特殊指令,没提"请标注来源",没要求"确保可验证"。就像普通用户那样,把需求丢进去,等报告出来。

三份产出都很漂亮。专业排版、章节清晰、数字精确到小数点后两位。Claude的版本甚至附了"方法论说明",Gemini列出了"关键数据来源",ChatGPT的表格做得像投行研报。

然后我们把它们塞进gem2_truth_filter,按七个维度逐项打分。

真相得分:Claude 28%,ChatGPT 22%,Gemini 19%

没一家及格。不是事实全错,是推理过程没法追溯——像一份盖了公章的借条,找不到出借人。

三类通病:AI的"自信幻觉"


过滤器揪出的问题高度雷同,我们内部叫SPT分类法:

编造精度(Spurious Precision)

ChatGPT写道:"2024年市场规模0.45亿美元,CAGR 25%至2033年"。数字漂亮,来源标注"某分析师报告"。哪家机构?什么方法?哪年发布的?一概没有。这不是幻觉,是精心伪装的不可验证

无支撑最高级(Unsupported Superlatives)

三份报告都爱用"genuinely novel""唯一商业化产品""完全空白市场"。竞争分析呢?没有。就像餐厅菜单写"全城最佳",但从不告诉你评委是谁。

快照即趋势(Snapshot-to-Trend)

把当前市场条件直接焊死成"结构性现实"。2024年的融资环境=2027年的行业底色?没人追问,直接写进预测。

最麻烦的是:三份报告都没提醒读者"以上部分无法验证"。它们自信地呈现,就像真有人做过尽调。

反转:让AI自己修Prompt,分数翻了3倍

第二轮我们换了个玩法。不人工写Prompt,直接问系统:"用gem2工具生成一个扎实、有依据的研究Prompt。"


系统从12个MCP工具里自动挑了tpmn_contract_writer,生成了一份带强制溯源规则的Prompt模板。我们没碰一个参数。

把新Prompt喂给三家,重跑任务。结果:

Claude从28%→89%,ChatGPT从22%→76%,Gemini从19%→71%

同一个模型,同一款产品,只是换了个Prompt结构。差距来自规则嵌入:每个论断必须绑定可验证来源,每个数字必须标注获取路径,每个预测必须区分"当前观测"与"推演假设"。

「TPMN Checker不是在评分写作质量,它评分的是认识论可追溯性。」视频里这句[0:40]说透了本质。

一个反直觉的发现

三家AI在"改进后"的表现排序完全打乱。Claude原本中等,新规下跃升最多;Gemini起点最低,但规则约束后反超ChatGPT。这说明什么?

模型能力差异存在,但Prompt的"真相架构"权重可能更高。就像同样三个厨师,有人给菜谱有人不给,成品差距远大于手艺差距。

我们跑了五轮校准,每轮用同一套过滤器回测。不是挑刺,是在共建标准——毕竟"真相得分"本身也不是绝对真理,它量的是"此刻推理有多少能被证据锚定"。

实验结束前,我们问了最后一个问题:如果用户永远看不到过滤器的评分,只读AI输出的报告,会发生什么?

三份初版报告的答案,此刻正躺在无数企业的决策参考文件夹里。小数点后两位的精确,是最好的镇静剂。

你最近一次"查证"AI给的数据,是什么时候?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
【早报】领先保级区9分!利兹联要做热刺保级判官?

【早报】领先保级区9分!利兹联要做热刺保级判官?

体坛周报
2026-05-02 08:19:14
国民党议员:军购案就该严审,民进党的贪污腐败形象让大家有疑虑

国民党议员:军购案就该严审,民进党的贪污腐败形象让大家有疑虑

海峡导报社
2026-05-01 07:48:16
97年我跑长途捎了一位尼姑,尼姑下车时送我三句话,三年后全应验

97年我跑长途捎了一位尼姑,尼姑下车时送我三句话,三年后全应验

千秋文化
2026-04-29 19:09:51
北方已经不适合年轻人了

北方已经不适合年轻人了

今夜无局
2026-05-02 08:53:01
为何俄罗斯不担心芯片、光刻机断供?除了中国,其他国家都不担心

为何俄罗斯不担心芯片、光刻机断供?除了中国,其他国家都不担心

南风不及你温柔
2026-05-01 10:21:03
教育部部长:大力推动高校从注重学科发展向服务国家使命转变

教育部部长:大力推动高校从注重学科发展向服务国家使命转变

麦可思研究
2026-05-01 17:16:26
掘金最该送走他!1.2亿场均8+3,约基奇体系的产物,都不如肯纳德

掘金最该送走他!1.2亿场均8+3,约基奇体系的产物,都不如肯纳德

你的篮球频道
2026-05-01 14:36:23
北京时间5月2日,乒乓球传来王楚钦、张本智和、松岛辉空等人消息

北京时间5月2日,乒乓球传来王楚钦、张本智和、松岛辉空等人消息

帛河体育
2026-05-02 00:43:56
万项喊话全队:都知道第一场比赛的重要性,希望大家做好准备

万项喊话全队:都知道第一场比赛的重要性,希望大家做好准备

懂球帝
2026-05-01 20:49:20
5.2世乒赛赛程CCTV:王楚钦孙颖莎王曼昱首秀,张本智和两场硬仗

5.2世乒赛赛程CCTV:王楚钦孙颖莎王曼昱首秀,张本智和两场硬仗

阿振观点
2026-05-02 05:38:18
苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

苏州一对情侣,谈了7年,女子提了18次分手,分手后在街头痛哭!

川渝视觉
2026-04-17 22:13:14
孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

孩子脱臼复位只收100元,家长举报乱收费!卫健委:应收110元,你还少给了!家长拒缴费后离开!

医脉圈
2026-04-25 20:04:06
伦敦世乒赛大爆冷!非洲一哥出局,雨果率队狂飙 男团32强落定!

伦敦世乒赛大爆冷!非洲一哥出局,雨果率队狂飙 男团32强落定!

好乒乓
2026-05-02 07:00:05
劳务派遣已疯魔到何种地步?网友说:收钱上岗、教师医生很多都是

劳务派遣已疯魔到何种地步?网友说:收钱上岗、教师医生很多都是

黯泉
2026-05-02 00:20:03
曼联不要的天才,阿尔特塔当宝?阿森纳锁定红魔 5000 万弃将

曼联不要的天才,阿尔特塔当宝?阿森纳锁定红魔 5000 万弃将

澜归序
2026-05-02 02:57:25
南开大学成立调查组

南开大学成立调查组

第一财经资讯
2026-05-01 13:29:02
7-7!吴宜泽第2阶段遭5连鞭后顽强逼平艾伦,袋口僵局1小时创纪录

7-7!吴宜泽第2阶段遭5连鞭后顽强逼平艾伦,袋口僵局1小时创纪录

我爱英超
2026-05-02 06:24:08
金靖近照大变样!暴瘦脱相撞脸女星,网友:没以前有灵气了

金靖近照大变样!暴瘦脱相撞脸女星,网友:没以前有灵气了

草莓解说体育
2026-05-01 14:41:01
第一个抢七来了!!!谁能想到啊!打脸全联盟了!

第一个抢七来了!!!谁能想到啊!打脸全联盟了!

柚子说球
2026-05-01 12:51:08
上海地铁互殴最新后续!处罚结果公示于众,拘留仅仅只是开始

上海地铁互殴最新后续!处罚结果公示于众,拘留仅仅只是开始

阅微札记
2026-04-30 19:36:10
2026-05-02 09:31:00
字节漫游指南
字节漫游指南
有态度网友ytd
3134文章数 34关注度
往期回顾 全部

科技要闻

AI热潮耗尽库存,Mac Mini起售调高200美元

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

头条要闻

男子因健身设备锁扣崩断被弹飞致瘫痪 监控无法调取

体育要闻

无奈!约基奇:这要在塞尔维亚 全队早被炒了

娱乐要闻

马筱梅产后身材恢复超好 现身户外直播

财经要闻

雷军很努力 小米还是跌破了30港元大关

汽车要闻

限时9.67万起 吉利星越L/星瑞i-HEV智擎混动上市

态度原创

本地
数码
教育
手机
公开课

本地新闻

用青花瓷的方式,打开西溪湿地

数码要闻

苹果因AirTag"跟踪"争议面临数十起新诉讼

教育要闻

高考地理中的机制问题

手机要闻

Anbernic RG Rotate更多信息:3.5英寸720×720旋屏,87.99美元起

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版