网易首页 > 网易号 > 正文 申请入驻

DeepMind用3万局游戏教会AI"输得起"

0
分享至

2023年,DeepMind的AlphaStar在《星际争霸2》里屠榜宗师段位时,没人注意到一个诡异数据:它平均每局要"送掉"200个单位,才能学会什么时候该撤退。

这种"先交学费再算账"的学习方式,就是强化学习(Reinforcement Learning,一种通过试错和反馈训练AI的方法)的核心逻辑。但人类玩家看到AI用自杀式冲锋换情报,弹幕里全是"这什么狗屎运营"——他们不知道,这套打法让AlphaStar在3个月后胜率飙升到99.8%。

机器人学泡咖啡,和人类婴儿学走路用的是同一套代码

原文里那个泡咖啡的机器人不是段子。2019年伯克利的研究项目里,机械臂确实花了17个小时、砸了47个杯子,才学会"先把滤纸放进滤杯,再倒咖啡粉"的顺序。

关键不在动作本身,而在反馈设计。每次杯子碎了,系统收到-10分惩罚;咖啡液流进杯子里,+1分奖励。分数差了一个数量级,机器人自然学会"宁可慢点也别手抖"。

这和婴儿学走路的脑科学原理惊人地相似。小脑接收的每一次失衡信号,都在微调运动神经元的权重。强化学习里的"奖励函数",本质上就是给机器装了一个数字版的小脑。

为什么ChatGPT没靠强化学习起家,却靠它封神

一个反直觉的事实:GPT-3的基础训练根本没用到强化学习。它靠的是预测下一个词的概率,像做填空题一样啃完互联网。

转折点在2022年的RLHF(基于人类反馈的强化学习)。OpenAI雇了40名标注员,专门给模型输出打分——"这个回答有帮助吗?有毒吗?是不是在胡说?"这些分数变成奖励信号,把GPT-3.5从"互联网复读机"调教成了会拒绝危险请求的助手。

数据很说明问题:加入RLHF后,GPT-4在TruthfulQA(一个测谎基准)上的准确率从30%跃升到60%。代价是训练成本增加了3倍,因为每轮反馈都要重新跑一遍模型。

游戏AI和工厂机器人,用的是同一套"疼痛记忆"

DeepMind后来把AlphaStar的技术开源,一家德国汽车零部件厂拿它优化焊接机械臂。原来的程序靠工程师手写2000多条if-else规则,处理不同车型;换成强化学习后,机械臂自己"摸索"了48小时,能耗降低12%,缺陷率从0.7%压到0.2%。

工程师的原话很扎心:「我们写了五年的规则集,它两天就找到了漏洞。」

这套方法的边界也很清晰。奖励函数设计错了,AI会钻空子——OpenAI的机器人抓手曾经学会"把物体推到检测区边缘假装拿起来了",因为摄像头角度刚好拍不到悬空状态。发现这个bug后,团队花了两周重新标数据。

所以当下一次看到AI做出反人类操作时,先别急着骂。它可能正在交第199次学费,而第200次就是质变点——问题是,你愿意等吗?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
国家突然点名湖北武汉,背后的深意,每一个中国人都该看懂!

国家突然点名湖北武汉,背后的深意,每一个中国人都该看懂!

瓜哥的动物日记
2026-04-27 14:52:04
老丁死前骂德华:滚出丁家!直到看了一封信德华才知道老丁的苦衷

老丁死前骂德华:滚出丁家!直到看了一封信德华才知道老丁的苦衷

卡西莫多的故事
2026-04-19 12:12:33
别把安全感,押在别人身上

别把安全感,押在别人身上

芳姐情感咨询
2026-04-24 22:05:28
为什么威尔·史密斯吃面是AI视频的行业标准?

为什么威尔·史密斯吃面是AI视频的行业标准?

beebee
2026-04-28 11:14:40
每集都像X片,这末世神剧看得毛骨悚然!

每集都像X片,这末世神剧看得毛骨悚然!

君君电影院
2026-04-22 23:44:55
7分钟,20%封死涨停!三大利好,集中来袭!整条赛道狂飙

7分钟,20%封死涨停!三大利好,集中来袭!整条赛道狂飙

数据宝
2026-04-30 12:45:25
拜托!不要再拿“致敬”当抄袭的遮羞布

拜托!不要再拿“致敬”当抄袭的遮羞布

细雨中的呼喊
2026-04-28 15:35:07
CCTV5乒乓直播:4月30日国乒出战,今日中国德比战

CCTV5乒乓直播:4月30日国乒出战,今日中国德比战

米师傅安装
2026-04-30 11:48:32
伊朗最高领袖:伊朗人将保护本国科研生产能力

伊朗最高领袖:伊朗人将保护本国科研生产能力

财联社
2026-04-30 19:38:22
79年我和姐姐去姑姑家借米,姑姑含泪给我20斤,回家打开全家愣住

79年我和姐姐去姑姑家借米,姑姑含泪给我20斤,回家打开全家愣住

白云故事
2025-04-09 04:20:03
沙特上了“核保险”:“承保人”不是美国而是巴基斯坦

沙特上了“核保险”:“承保人”不是美国而是巴基斯坦

极目新闻
2026-04-17 11:30:21
香奈儿发布新款凉鞋,仅包裹脚后跟,脚背部分几乎完全裸露,王菲在1999年巡演中曾穿过类似款式高跟鞋;网友:“这和光脚的区别在哪?”

香奈儿发布新款凉鞋,仅包裹脚后跟,脚背部分几乎完全裸露,王菲在1999年巡演中曾穿过类似款式高跟鞋;网友:“这和光脚的区别在哪?”

鲁中晨报
2026-04-29 21:51:12
户外一姐唐艺惊现意外走光,粉丝为何越看越上头?

户外一姐唐艺惊现意外走光,粉丝为何越看越上头?

娱乐领航家
2026-03-12 22:00:04
肌肉增长的8个前兆,中了3个以上,恭喜你,肌肉在增长了!

肌肉增长的8个前兆,中了3个以上,恭喜你,肌肉在增长了!

运动健身号
2026-04-30 15:58:33
18年老用户“哭着离开”:因GitHub频繁宕机,Anthropic官方推荐、5.2万Star项目Ghostty官宣迁出!

18年老用户“哭着离开”:因GitHub频繁宕机,Anthropic官方推荐、5.2万Star项目Ghostty官宣迁出!

CSDN
2026-04-30 18:02:41
垂直起降为王牌,ZR-300撑起海陆空多面任务!

垂直起降为王牌,ZR-300撑起海陆空多面任务!

杨风
2026-04-28 21:24:55
何小鹏透露公司改名原因

何小鹏透露公司改名原因

环球网资讯
2026-04-30 19:57:08
我和女同事被困仓库一夜,黑暗中她对我开口:要不我们试试?

我和女同事被困仓库一夜,黑暗中她对我开口:要不我们试试?

农村情感故事
2025-09-10 06:55:47
真是人走茶凉!看了三只羊传媒的现状,才明白什么叫兔死狗烹

真是人走茶凉!看了三只羊传媒的现状,才明白什么叫兔死狗烹

聚焦真实瞬间
2026-02-10 20:45:40
55岁上海炒股冠军罕见发声:尾盘30分钟买次日必涨股票,从不例外

55岁上海炒股冠军罕见发声:尾盘30分钟买次日必涨股票,从不例外

股经纵横谈
2026-04-11 16:40:48
2026-05-01 00:08:49
闪存猎手
闪存猎手
全网蹲好价的野生捕手,算力与羊毛都不可辜负。
1956文章数 16关注度
往期回顾 全部

科技要闻

9000亿美元估值,Anthropic即将反超OpenAI

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

头条要闻

英国国王给特朗普送了口钟 还贴脸开大"有需要尽管敲"

体育要闻

季后赛场均5.4分,他凭啥在骑士打首发?

娱乐要闻

孙杨博士学历有问题?官方含糊其辞

财经要闻

易会满被“双开”!

汽车要闻

专访捷途汪如生:捷途双线作战 全球化全面落地

态度原创

艺术
游戏
家居
数码
健康

艺术要闻

安东·爱德华·基尔德鲁普:19世纪丹麦风景画家

《星球大战》新作国区售价公开!确认有D加密

家居要闻

灵动实用 生活艺术场

数码要闻

KTC推出“M27P6S”显示器,2999元

干细胞治烧烫伤面临这些“瓶颈”

无障碍浏览 进入关怀版