网易首页 > 网易号 > 正文 申请入驻

别再问什么工作被AI取代!Karpathy直指本质:你的工作「可验证」吗?

0
分享至

  新智元报道

  编辑:peter东

  【新智元导读】当整个科技界还在为「AGI何时到来」激烈争辩时,前特斯拉AI负责人Andrej Karpathy悄然抛出一枚思想炸弹:「软件1.0自动化你能指定的任务;软件2.0自动化你能验证的任务。」

  如果说PC时代的革命,是让每个人都能「用上计算机」,那么大模型时代的革命,则是第一次让计算机自己学会「写程序」。

  从软件1.0到软件2.0,人类不再负责穷举规则,而是只需给出一个清晰的目标,让神经网络在巨大的可能性空间中试错、迭代、收敛。

  在这场悄然进行的范式跃迁中,一个新的判断标准浮出水面:一项任务能否被 AI 接管,不再取决于它是否机械重复,而取决于它是否满足「可重置、可高效试错、可自动奖励」这三条准则。

  最近,Karpathy分享了关于AI对经济影响的有趣对话。

  计算范式跃迁

  如果回到1980年代,个人计算机刚刚出现,你要预测其对就业市场的影响,最需要关注的任务/工作流程是否固定,是否遵循指定的简单规则机械地进行信息处理,例如打字员,速记员等。

  这是在因为那个时代,开发者必须手动编写程序,为此他需要知道程序中的每一步要做什么。

  这一时代出现的软件1.0,只能自动化可以明确定义的信息处理流程

  如果你只知道达成一个任务的目标,但却说不出该如何达到,那在AI成熟之前,这样依靠经验或直觉的任务将无法进行通过编程自动化。

  而到了机器学习,尤其是大模型技术成熟之后,开发者只需要指定信息处理的最终目标(例如分类精度、奖励函数),并通过梯度下降搜索可能性空间,就可以找到在目标上表现良好的神经网络。

  在这个新的编程范式(软件2.0)下,开发者不需要预先知道程序中每一步要怎么做。

  因此,要判断一个任务能否被自动化,最具有预测性特征变成了可验证性

  如果一个任务是可验证的,那么它可以通过强化学习进行优化,并且可以训练神经网络,在该任务上表现出色。

  什么样的任务是可验证,有下面3条标准,分别是

  1 环境可重置(可以开始新的尝试)

  2 试错成本低(可以进行大量尝试)

  3 可奖励(存在某种自动过程来奖励任何特定的尝试)

  3条都满足,AI便能像围棋少年日复一日打谱——只是它的「一天」,是百万局自我对弈。

  不同于AI被比作各种历史先例,如电力、工业革命等,Karpathy给出的类比是将AI视为一种新的计算范式(Software 2.0)。

  软件1.0和2.0都是关于数字信息处理的自动化,区别只是自动化的范围

  相比将AI与工业革命类比,这无疑是一种直指内核的直觉增强器。

  AI「快车道」

  高可验证性任务

  有了可验证这样一个可操作、可检验、可落地的评估框架,就能明白为何Copilot能写代码却编不出《百年孤独》,为何AlphaFold能预测蛋白结构却当不了院士——

  答案不在算力多强,而在任务本身的「可验证性」。

  举例来说,不论是下象棋,下围棋,还是在星际争霸这样的多人实时战略游戏中获胜,都满足可验证性的三条判别标准,因此已经被AI逐个击破、

  在代码生成与修复上,当前大模型超越了普通程序员,这同样是因为编程任务具有可验证性:解释器可检查语法正确性,单元测试可自动验证逻辑正确性,静态分析工具可检测潜在bug,性能优化时也有内存占用,CPU时间等明确的指标。

  除此之外,看看当下AI取得突破的应用场景,例如数学证明,结构化信息提取,问答与事实核查(Jeopardy类的常识问答)等,都是有明确的评价指标的,可实时打分,且答错也影响不大。

  而那些AI表现得还可以的任务,则是在可验证性的3条标准中,有部分满足

  例如机器翻译,的确存在一些测试算法用的金标准,但语义流畅性,跨文化的语义迁移难以量化,需人工校准,不存在能自动打分的奖励体系,因此机器翻译的也只是能准确,却难以言辞优美典雅。

  另一个部分可验证的例子是,使用Alphafold进行蛋白质结构预测。

  虽然蛋白结构可通过实验(如冷冻电镜)最终验证,但计算过程本身不可实时奖励,环境无法重置,只能依赖对已有数据库的监督学习,这导致Alphafold还不能完全取代实验方法。

  低可验证性任务

  人类的「护城河」,还是暂时的喘息?

  至于Karpathy列出的难以验证的任务,AI也表现较差。

  例如,小说创作中什么是「好故事」?并无客观标准。

  在战略决策,例如选创业方向、并购判断等问题上,反馈延迟数年,不可重置。当前有尝试将AI用于心理咨询,但疗效受主观感受影响,同样难以量化。在这些任务上。

  目前,AI还完全无法达到可接受的水平。

  按照可验证性这一标准,CEO将难以被人工智能取代。

  CEO的工作更具主观性,他们需要在很长时间内做出数百个决策。虽然这项工作可以有可衡量的回报(最大化股东价值),但它不可重置(CEO不能撤销他们的决策并重新开始)也不高效(公司运行迭代数百次将花费太长时间)。

  不过,可验证性低的任务中,也有一部分可以被外包给AI,例如科学研究中的可验证部分是文献检索、数据可视化、论文语法校对,这些任务现在已经逐渐交由AI完成。

  而难以验证的的部分,例如确定研究方向,给出原创的实验方案等,由于「重要性」,「创新」由共同体长期共识决定,这些子任务上则应当由人来执行。

  了解了Karpathy的洞见,下次有人问起AI会不会取代人类时,你就可以指出只要一项任务还不满足可验证的3条指标,那AI肯定做不好,若3条指标中有部分不满足,那AI的表现也难以超越人类。

  而这意味着在未来十年,最大的职业风险不在于你做什么工作,而在于你的工作能否被拆解出足够多的可重置-高效-可奖励子任务

  软件2.0时代,人类的价值不再是执行者,变成了创造意义(例如在小说中设计人物弧光,升华主题),以及架构设计(例如为企业运营创立更多维度更全面的评估标准)。

  当AI在可验证的高原上疾驰,人类的使命,便是不断为它点亮下一座灯塔,并永远守护那片不可验证的、属于惊奇、犹疑与自由的深海。

  参考资料:

  https://x.com/karpathy/status/1990116666194456651?s=20

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
狂砸3.14亿!阿森纳夏窗要买4大强援 下赛季剑指双冠王

狂砸3.14亿!阿森纳夏窗要买4大强援 下赛季剑指双冠王

球事百科吖
2026-06-03 12:28:49
婆婆当众骂我二手货,我笑问公公:你养了29年的儿子到底真亲生吗

婆婆当众骂我二手货,我笑问公公:你养了29年的儿子到底真亲生吗

枫红染山径
2026-06-03 09:05:50
中方收到投名状!印尼砸下31亿,抢购中方退役导弹艇,西方不解

中方收到投名状!印尼砸下31亿,抢购中方退役导弹艇,西方不解

安之若憟
2026-06-03 12:48:24
中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

中方严肃定性,16国加入联合军团,共同围剿俄罗斯,日本已经介入

影孖看世界
2026-06-01 23:22:26
现役最佳射手因“叛国”落选?伊朗公布世界杯参赛名单

现役最佳射手因“叛国”落选?伊朗公布世界杯参赛名单

湖报体育
2026-06-02 19:20:43
香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

香港偶遇46岁容祖儿 弯腰驼背走路肚子只剩一张皮 鞋跟高都有20cm

科学发掘
2026-06-01 06:03:49
徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

徐帆回应离婚几个月后,68岁冯小刚再惹争议,养女徐朵成导火索!

乡野小珥
2026-05-18 08:58:28
斯科蒂·皮蓬23岁儿子崩溃自白:15岁那年,同学用Future的歌羞辱我

斯科蒂·皮蓬23岁儿子崩溃自白:15岁那年,同学用Future的歌羞辱我

绿茵狂热者
2026-06-03 01:55:51
微星宣布NVIDIA RTX Spark迷你主机EdgeMesa N AI+

微星宣布NVIDIA RTX Spark迷你主机EdgeMesa N AI+

IT之家
2026-06-02 08:51:08
左手通胀右手衰退,欧美当下的困局

左手通胀右手衰退,欧美当下的困局

米筐投资
2026-06-03 07:07:13
中央5台直播女排时间表:6月3日CCTV5直播中国女排!世联赛赛程表

中央5台直播女排时间表:6月3日CCTV5直播中国女排!世联赛赛程表

等等talk
2026-06-03 12:05:12
谌旭彬:百姓躺平摆烂,食税群体怎么办?

谌旭彬:百姓躺平摆烂,食税群体怎么办?

老郭在学习
2026-06-01 17:12:48
烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

烈日当头下,和尚躬身收麦!坚守祖训的白马寺,打了多少假僧脸?

削桐作琴
2026-06-02 15:27:07
善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

善恶有报!许家印刚认罪1天,子女近况曝光,大儿子的安排全白费

历史伟人录
2026-05-10 22:06:40
印度抵制中国制造空调,却偷取技术

印度抵制中国制造空调,却偷取技术

郭蛹包工头
2026-06-03 00:21:04
贵州大学道歉开了很坏的头,以后市级医院想招到博士就更难了

贵州大学道歉开了很坏的头,以后市级医院想招到博士就更难了

金水路7号站
2026-06-03 08:19:18
情况有变!我国海警巡航台岛,两岸军机激烈对峙,解放军点名警告

情况有变!我国海警巡航台岛,两岸军机激烈对峙,解放军点名警告

谛听骨语本尊
2026-06-03 13:33:52
印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

印度最高种姓“婆罗门”到底有多牛?永享一项特权,出生就是贵族

网络易不易
2026-06-02 06:00:35
曝魏宗万去世细节!3月进入医院疗养,后辈演员曝其三大暖心举动

曝魏宗万去世细节!3月进入医院疗养,后辈演员曝其三大暖心举动

法老不说教
2026-06-03 13:53:30
网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

网友称山姆鹌鹑蛋两个装很尴尬,特别是分享男同事的时候

映射生活的身影
2026-06-01 22:00:15
2026-06-03 14:40:49
新智元 incentive-icons
新智元
AI产业主平台领航智能+时代
15376文章数 66899关注度
往期回顾 全部

科技要闻

员工抗议键鼠追踪,Meta让步:可暂停30分钟

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

头条要闻

女子称凌晨入睡后银行卡多次被转账损失42万 银行回应

体育要闻

选择中国品牌的库里,和他们的巨大野心

娱乐要闻

著名演员魏宗万去世!曾演活司马懿

财经要闻

左手通胀右手衰退,欧美当下的困局

汽车要闻

依托全域辅助驾驶布局 千里浩瀚助推吉利5月市场大热

态度原创

时尚
本地
旅游
艺术
公开课

休闲T恤舒适感极佳,夏天必不可少!轻轻松松拿捏日常的造型

本地新闻

用剪纸的方式,打开江苏扬州

旅游要闻

主持人点点带你打卡北美高端亲子品牌Jolly Bubble 波浪谷全国首店,解锁高质量亲子游玩体验,烟台遛娃首选!

艺术要闻

二十年前割麦的场景

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版