网易首页 > 网易号 > 正文 申请入驻

3组实验打脸:LLM把经典机器学习按在地上摩擦?

0
分享至

IRIS数据集跑了47年,准确率天花板卡在96%。有人用GPT-4o重新测了一遍,结果让教科书集体沉默。

这不是学术圈的自嗨。2024年,每个做数据产品的团队都在问同一个问题:传统机器学习模型(机器学习模型)还有必要留着吗?

实验设计:用新锤子敲老钉子

测试者选了机器学习入门第一课的数据集——IRIS鸢尾花分类。150条样本,4个特征,3个类别,从1988年到现在被引用超过10万次。

对照组是两颗"活化石":CART决策树(1984年诞生)和逻辑回归(1958年诞生)。实验组是GPT-4o,用零样本提示词直接分类。

公平性上做了手脚:传统模型用80%数据训练,LLM(大语言模型)零样本直接上,不给任何示例。相当于让老拳手热身完再打,新选手裸考进场。

结果:GPT-4o准确率97.3%,CART 93.3%,逻辑 regression 96.0%。

零样本的LLM,打败了用80%数据喂饱的经典模型。

成本账:省下的不只是显卡

传统团队做分类任务,标准流程是:特征工程→调参→交叉验证→部署→监控漂移。一个熟练工程师折腾两天算快的。

LLM路线:写一段提示词,调API,收工。测试者把整个流程压缩到47行Python代码。

但别急着欢呼。GPT-4o处理150条样本的API成本约0.12美元,按百万级数据量换算,账单能买辆特斯拉。逻辑回归在笔记本上跑完,电费不够买杯咖啡。

「这不是取代,是 trade-off 的重新定义。」测试者在笔记里写。精度换成本,还是成本换速度,取决于你的数据规模。

IRIS之外的战场

鸢尾花数据集有个致命优点:特征干净、类别均衡、噪声极低。真实业务数据长什么样?文本混着错别字,标签由5个外包团队标注,特征里有30%缺失值。

测试者补了一组对抗实验:往IRIS里注入10%标签噪声。CART准确率跌到71%,逻辑 regression 76%,GPT-4o仍保持89%。

LLM的鲁棒性来自预训练阶段见过的脏数据——互联网级别的脏。传统模型没这个福气,它们只认识你喂的那口饭。

但另一组实验泼了冷水。把特征名改成无意义的字母(A、B、C、D),GPT-4o准确率暴跌至34%。CART和逻辑 regression 纹丝不动,它们本来就不识字。

LLM强在理解,弱在盲算。传统模型是瞎子,但瞎得稳定。

产品经理的决策树

测试者最后给了一张对照表,我摘了能直接用的部分:

数据量<1万条、特征可解释性要求高、预算卡死——用逻辑 regression。金融风控、医疗诊断、监管报送场景,模型必须能说人话。

数据量1-10万条、有文本特征、迭代速度优先——试试LLM。客服分类、内容审核、用户意图识别,这些活儿LLM已经接过去了。

数据量>10万条、实时推理、成本敏感——传统模型+特征工程仍是正解。推荐系统、广告CTR、量化交易,毫秒级延迟面前,API调用是奢侈品。

「最蠢的决定是二选一。」测试者说。他见过把BERT(基于变换器的双向编码器表示)和XGBoost(极端梯度提升)串起来用的团队,LLM打标生成训练数据,传统模型做线上 serving,各取所长。

IRIS数据集明年就满50岁了。它见证了从打孔卡片到云计算的完整周期,现在正看着LLM接过接力棒。但有趣的是,测试者发现2024年新出版的机器学习教材,IRIS章节一点没删——只是课后习题加了一道:「用GPT-4复现本章结果,对比分析优劣。」

你的团队去年训练的传统模型,今年还在跑吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
天了噜!韩国最强“脱单战袍”来了:SK海力士工装、人均1年奖金610万

天了噜!韩国最强“脱单战袍”来了:SK海力士工装、人均1年奖金610万

快科技
2026-05-08 11:18:37
太解气了!韩媒力挺央视怒怼国际足联:中国没进世界杯就好欺负吗

太解气了!韩媒力挺央视怒怼国际足联:中国没进世界杯就好欺负吗

社会日日鲜
2026-05-08 04:10:42
3-0!3-1!世乒赛4强浮出水面,中国队不惧对手 日本命悬一线!

3-0!3-1!世乒赛4强浮出水面,中国队不惧对手 日本命悬一线!

曹说体育
2026-05-07 16:49:02
丹麦夫妇游完长沙后,回去跟朋友说:中国根本不是我们想象的那样

丹麦夫妇游完长沙后,回去跟朋友说:中国根本不是我们想象的那样

金哥说新能源车
2026-05-08 14:15:30
快讯!DeepSeek创始人梁文锋发言了!

快讯!DeepSeek创始人梁文锋发言了!

达文西看世界
2026-05-08 13:04:03
“东莞首富”拿下190亿算力大单,是馅饼还是陷阱?

“东莞首富”拿下190亿算力大单,是馅饼还是陷阱?

新浪财经
2026-05-07 19:59:02
和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

和刘涛分手后,他常年定居上海,如今身价过亿,年过60却依旧单身

一盅情怀
2026-04-28 12:22:02
现场画面:日本首相高市早苗下跪!

现场画面:日本首相高市早苗下跪!

每日经济新闻
2026-05-06 14:13:05
官宣!中国斯诺克2将获职业资格,王信伯本赛季夺2冠,罗泽涛圆梦

官宣!中国斯诺克2将获职业资格,王信伯本赛季夺2冠,罗泽涛圆梦

刘姚尧的文字城堡
2026-05-08 09:40:35
伦敦世乒赛:4强席位出炉!日本3:1晋级,张本智和成功登上领奖台

伦敦世乒赛:4强席位出炉!日本3:1晋级,张本智和成功登上领奖台

国乒二三事
2026-05-07 21:57:30
涉黄倒查严查开启!这3种情况不用慌,一般不予处罚

涉黄倒查严查开启!这3种情况不用慌,一般不予处罚

混沌录
2026-05-07 20:46:15
消化科主任:胃癌最危险信号,不是胃疼,而是频繁出现这3种异常

消化科主任:胃癌最危险信号,不是胃疼,而是频繁出现这3种异常

垚垚分享健康
2026-05-08 15:32:57
湖人G2惨败陷绝境!詹姆斯赛后一针见血,尽显巨星担当!

湖人G2惨败陷绝境!詹姆斯赛后一针见血,尽显巨星担当!

田先生篮球
2026-05-08 14:02:52
美国政坛要出大事了:万斯大概率要当选总统。

美国政坛要出大事了:万斯大概率要当选总统。

阿振观点
2026-04-21 05:22:52
97年我对女老师说我喜欢她,她红着脸说:考上重点大学我就嫁给你

97年我对女老师说我喜欢她,她红着脸说:考上重点大学我就嫁给你

千秋文化
2026-05-02 19:36:54
那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

那场难忘的世界最大水库垮坝惨案:1975河南驻马店大水

尚曦读史
2025-01-19 12:50:03
不问配置不聊价格,浙江一女子开口就要买5台最新款iPhone,老板不但不卖,反手报了警

不问配置不聊价格,浙江一女子开口就要买5台最新款iPhone,老板不但不卖,反手报了警

环球网资讯
2026-05-08 07:38:20
雷霆亚历山大调侃湖人:我们也想和中场裁判聊聊

雷霆亚历山大调侃湖人:我们也想和中场裁判聊聊

体育硬核说
2026-05-08 15:45:00
敢罢工敢维权的印度劳工,为何到了海湾国家,800万人乖得像绵羊

敢罢工敢维权的印度劳工,为何到了海湾国家,800万人乖得像绵羊

寰球经纬所
2026-05-06 14:40:12
女孩体验“悬崖秋千”坠亡,曾有网友3月预言“一年内准出事”......

女孩体验“悬崖秋千”坠亡,曾有网友3月预言“一年内准出事”......

新民周刊
2026-05-07 17:31:40
2026-05-08 17:56:49
字节漫游指南
字节漫游指南
有态度网友ytd
3408文章数 38关注度
往期回顾 全部

科技要闻

SK海力士平均奖金600万 工服成相亲神器

头条要闻

中国船东所有的油轮中东遇袭 中方:船上有中国籍船员

头条要闻

中国船东所有的油轮中东遇袭 中方:船上有中国籍船员

体育要闻

他把首胜让给队友,然后用一年时间还清账单

娱乐要闻

古天乐被曝隐婚生子,新娘竟是她

财经要闻

轮到豆包收割了?

汽车要闻

智能双舱大五座SUV 乐道L80将于5月15日正式上市

态度原创

数码
房产
本地
家居
公开课

数码要闻

海信行业首发三色激光户外投影仪Vidda LightGo流光派系列

房产要闻

豪掷6.8亿拿地!何猷君大手笔投资三亚!

本地新闻

用苏绣的方式,打开江西婺源

家居要闻

流动的尺度 打破家的形式主义

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版