网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

OpenAI前员工：LLM测试像蒙眼开车，90%团队靠直觉撞墙

2026-04-13 08:34:35　来源: Ping值焦虑

北京举报

0

分享至

大模型应用遍地开花，但测试环节还是一团乱麻。OpenAI前员工Jason Wei在最新博客里直言，这是整个技术栈里最脆弱的一环，而大多数人还在用"直觉"当测试策略。

Jason Wei是谁？他是思维链（Chain-of-Thought）论文的核心作者，现在Anthropic做研究。他从GPT-2时代就开始搞模型测试，见过太多团队踩坑。「我见过太多团队用"感觉对了"当测试标准，结果上线就翻车。」

问题出在哪？LLM输出天然不确定，同样输入可能给出不同答案。传统软件测试那套"输入A必输出B"的逻辑，在这里直接失效。更麻烦的是，很多团队把" vibe check"（氛围检查）当成正经测试——看一眼输出觉得没问题，就敢推上线。

Jason Wei举了个扎心的类比：这就像是蒙着眼睛开车，偶尔听到没撞墙的声音，就以为自己在正轨上。他见过有团队花了三个月做提示工程，测试环节却只写了20个样例，结果用户一涌入，边界案例全炸。

他给出的解法不算新鲜，但执行者寥寥：把测试当成产品功能来迭代，建立可量化的评估指标，用真实用户数据持续校准。说白了，别再用"我觉得"当护城河。

文末他贴了一张截图——某团队内部测试文档，标题写着"Final_Final_EVAL_v3_REAL"，修改日期是昨天。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

AI裁员，裁到了“消费”这根大动脉？

虎嗅APP 2026-04-15 02:46:10
1 跟贴 1
狂揽7.1k Stars！武装你的龙虾和“爱马仕”，YC总裁开源AI记忆外挂

智东西 2026-04-14 21:17:39
0 跟贴 0

DeepSeek最会讨好，LLM太懂人情世故了，超人类50%

机器之心Pro 2025-10-27 15:23:21
0 跟贴 0

英伟达发布全球首个开源量子人工智能模型量子计算板块激昂大涨

财联社 2026-04-15 03:14:04
0 跟贴 0
投资人不买账？OpenAI估值8520亿美元遭质疑战略转向引发争议

财联社 2026-04-14 23:00:07
0 跟贴 0

千亿诉讼，马斯克能否阻断OpenAI商业化？

钛媒体APP 2026-04-14 18:31:17
0 跟贴 0

Epic前员工实锤：多数玩家只把它当“白剽站”，领完就跑

Jeho的游戏日常 2026-04-14 09:19:07
0 跟贴 0
众筹跑路MMO停服内幕曝光！前CEO挪用千万美元公款

游民星空 2026-04-13 22:22:18
4 跟贴 4

陈丽华离世仅4天，前员工公开爆料其人品，迟重瑞评价有人信明星

枫哥闲谈 2026-04-12 09:30:02
0 跟贴 0
越南首条高铁终于动工！德国同意给技术，中国果断撤出

隐龙天下 2026-04-14 15:06:05
1 跟贴 1
Howard Stern年入千万，老员工干了15年只拿7万5

影视情报室 2026-04-12 08:38:17
1 跟贴 1
媒体：多国政要密集访华一人来访时机特殊、安排特殊

上观新闻 2026-04-14 18:52:07
57 跟贴 57
为证清白疯狂杀人？逻辑鬼才

喜蕃影视 2026-04-13 15:56:00
0 跟贴 0
被美国封锁、遭俄罗斯拒绝：中国一怒之下杀出血路，技术领先世界

魏叔胡侃 2026-04-14 17:21:53
0 跟贴 0
120W是“型号”不是功率？误导消费者要付出代价

南方都市报 2026-04-13 00:36:10
3612 跟贴 3612
人类首例被恐龙咬伤事件！男子把头伸进恐龙模型里被卡住

开屏新闻客户端 2026-04-12 06:09:47
0 跟贴 0
“常州北站”被改为“常洲北站”？官方回应

微泰州 2026-04-14 09:16:36
182 跟贴 182
广东一面包店发出闭店通知，顾客：“孩子得知后当场大哭!”街坊纷纷挽留，多方帮助后面包店重获“新生”

极目新闻 2026-04-14 11:30:13
571 跟贴 571
美媒：“布什”号航空母舰绕道非洲前往中东

新京报 2026-04-14 12:33:13
2882 跟贴 2882
自然记录的真相：尸体分解如何为刑侦技术开辟新路径

秘密即将揭晓 2026-04-14 12:06:26
3 跟贴 3
莫氏鸡煲拒收温氏千只鸡，老莫：没地放，没骂他；温氏股份：在沟通更多合作想法

界面新闻 2026-04-14 10:23:03
765 跟贴 765
美国“封锁令”正式生效！一文读懂：霍尔木兹最新形势究竟如何？

财联社 2026-04-14 10:11:07
398 跟贴 398
设计与备案不符总投资超7亿元的农业基地不干农业

央视新闻客户端 2026-04-14 22:58:05
433 跟贴 433
张雪为什么喜欢帮用户维权？张雪的回答太令人感动了！

盒子酸奶 2026-04-12 04:02:06
0 跟贴 0
深夜大涨，空头遭重锤，超18万人爆仓！

每日经济新闻 2026-04-15 01:25:46
0 跟贴 0
文章新开面馆口味评分3.6分，网友：30多元一碗面有点贵

红星新闻 2026-04-13 17:22:41
1234 跟贴 1234
DeepMind CEO 德米斯：核聚变要靠 AI 突破！人类将迎来取之不尽的能源

知了3C 2026-04-13 19:02:25
0 跟贴 0
NBA官方：东契奇再度加冕得分王约基奇荣获篮板&助攻王

北青网-北京青年报 2026-04-14 20:04:19
72 跟贴 72
广州黄埔按下房票转让“暂停键”，业内称“灰色套利链”搅乱市场

每日经济新闻 2026-04-14 19:40:09
36 跟贴 36
离谱至极！海底捞员工又唱又跳还自费买礼物赔顾客，CEO亲自道歉

雷科技 2026-04-14 09:43:17
3 跟贴 3
伊朗最高领袖被曝已毁容？或失去一条腿！已成以色列最害怕的人

毛豆何时归 2026-04-12 09:17:52
11 跟贴 11
一代人的数字“藏书阁”落幕！运营20年360doc将停服创始人：未来也无法原样“复活”

每日经济新闻 2026-04-14 23:52:04
0 跟贴 0
Epic白送7年游戏，用户领完就回Steam，7800万月活成了数字游戏

算力游侠 2026-04-14 09:08:17
2 跟贴 2
不插电、不焦虑：吉利i-HEV专治“不想充电又要省油”的刁钻用户

车界江湖car 2026-04-14 19:18:19
1 跟贴 1
俄外长已抵达中国进行访问

环球网 2026-04-14 09:50:53
105 跟贴 105
风云T9L，以全能实力，让每一位用户都能享受越级豪华出行体验

新洲侃科技 2026-04-14 12:59:56
0 跟贴 0
双王炸！魏牌高山7新版本+ 魏牌V9X一车双型，把选择权还给用户

车图腾 2026-04-12 21:02:54
3 跟贴 3
一台18比例模型可以做到多精细这台车发动机是最大亮点

一笑到底 2026-04-14 11:50:36
1 跟贴 1
砌砖技术怎么样？

新知速报 2026-04-13 13:48:39
0 跟贴 0
“张雪机车”被点名！

极目新闻 2026-04-14 19:24:32
172 跟贴 172

山姆会员店，正成为新的零售样板

山姆会员店，正成为新的零售样板

产业深观

2026-04-14 09:08:09

家里若是有这7种“老物件”，好好保存，越放越值钱，能当传家宝

家里若是有这7种“老物件”，好好保存，越放越值钱，能当传家宝

Home范

2026-04-11 10:16:28

特朗普在伊朗战争中犯下的7个致命错误

特朗普在伊朗战争中犯下的7个致命错误

史政先锋

2026-04-12 18:27:18

怕遭中方报复？巴拿马抢在赔款前，主动放低姿态，李嘉诚全面清仓

怕遭中方报复？巴拿马抢在赔款前，主动放低姿态，李嘉诚全面清仓

史襉的生活科普

2026-04-13 19:46:18

985大学原校长逝世！系该校改革开放后唯一的女性校长

985大学原校长逝世！系该校改革开放后唯一的女性校长

双一流高校

2026-04-15 00:10:02

81岁的杜特尔特，在狱中终于等来好消息，儿子正式接任党总裁

81岁的杜特尔特，在狱中终于等来好消息，儿子正式接任党总裁

爱下厨的阿酾

2026-04-14 17:07:17

“你真美，是不是嫌我老？”：手机被没收后，女子用手表录16分钟

“你真美，是不是嫌我老？”：手机被没收后，女子用手表录16分钟

江山挥笔

2026-04-14 10:48:18

张雪峰对当年把他踢出尖子班的教导主任，记了大半辈子，耿耿于怀

张雪峰对当年把他踢出尖子班的教导主任，记了大半辈子，耿耿于怀

情感艺术家

2026-04-13 11:43:48

万科创始人王石启动法律追责程序

万科创始人王石启动法律追责程序

地产微资讯

2026-04-14 19:42:12

回京第2天，马筱梅凌晨3点哭红双眼，道出为何汪宝儿不能住奶奶家

回京第2天，马筱梅凌晨3点哭红双眼，道出为何汪宝儿不能住奶奶家

人间烟火记事本

2026-04-15 02:13:35

4月13日国务院放大招，乡镇卫生院终于不用再当“摆设”了

4月13日国务院放大招，乡镇卫生院终于不用再当“摆设”了

李博世财经

2026-04-14 10:02:08

演员文章开店卖陕西菜：32元一碗面，凌晨五点就有人排队，黄牛代排炒至500元

演员文章开店卖陕西菜：32元一碗面，凌晨五点就有人排队，黄牛代排炒至500元

蓝鲸新闻

2026-04-14 18:48:26

曼联1-2负利兹联，英超积分榜大乱，争冠争五形势激烈

曼联1-2负利兹联，英超积分榜大乱，争冠争五形势激烈

李汪手工制作

2026-04-14 07:34:28

历史首次！单赛季8队至少输55场！难怪总裁不满，改革在所难免

历史首次！单赛季8队至少输55场！难怪总裁不满，改革在所难免

体坛小李

2026-04-14 23:18:23

黄奇帆预言未来房产走势：80万的房子，15年后大概还值多少钱？

黄奇帆预言未来房产走势：80万的房子，15年后大概还值多少钱？

专业聊房君

2026-04-13 15:28:29

这跟不穿有啥区别？内裤外露、开叉开到腰，有钱人的时尚真看不懂

这跟不穿有啥区别？内裤外露、开叉开到腰，有钱人的时尚真看不懂

潮鹿逐梦

2026-03-02 17:19:02

人民日报锐评全红婵遭受网暴，只字不提陈芋汐，却句句不离陈芋汐

人民日报锐评全红婵遭受网暴，只字不提陈芋汐，却句句不离陈芋汐

哄动一时啊

2026-04-13 19:37:27

“狗不理”跌落神坛，从一天卖6万个到无人问津，它为何不火了？

“狗不理”跌落神坛，从一天卖6万个到无人问津，它为何不火了？

房产衫哥

2026-04-14 12:50:59

恒大集团退薪

新浪财经

2026-04-12 10:31:26

无牌摩托闯江苏无锡惠山禁摩区飙车，回应：因山体无围挡，不少骑手从山北缺口或野山路私自闯入，已安排专人常态化巡逻

无牌摩托闯江苏无锡惠山禁摩区飙车，回应：因山体无围挡，不少骑手从山北缺口或野山路私自闯入，已安排专人常态化巡逻

极目新闻

2026-04-14 19:57:24

有态度网友ytd

1350文章数 22关注度

往期回顾全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

以色列开出与伊朗停战先决条件

头条要闻

以色列开出与伊朗停战先决条件

体育要闻

带出中超最大黑马！他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩备孕近10年

财经要闻

许家印认罪，他和恒大还有多少欠债？

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

教育

时尚

健康

家居

本地

教育要闻

他们眼里的光被点燃！中华中学首届南大班学习成果汇报

坏事做尽的疯女人，集体翻红了

干细胞抗衰4大误区,90%的人都中招

家居要闻

现代融合自然灵动

本地新闻

12吨巧克力有难，全网化身超级侦探添乱

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版