网易首页 > 网易号 > 正文 申请入驻

AI打爆人类题库!16小时独立工作,程序员要失业?

0
分享至

AI能连续工作16小时,人类出的考题不够用了。



AI“考爆”了,不是它错,是题太简单

通用人工智能的到来,或许比我们预想的要快。至少在编程领域,变革的浪潮已经清晰可见。

最近,一个名为Claude Mithras的模型,在权威评测中取得了令人震惊的成绩。

这好比学霸与学神的区别:学霸考100分,是努力达到了极限;学神考100分,是因为试卷满分只有100分

评测机构METR在测试新一代模型时,首次遇到了“测不准”的情况。

并非模型出错,而是人类设计的题库已经不够用了。

你给孩子出考题,本来以为够难了,结果孩子全对,不是他只会这么多,是你出的题最多就值这么多分。AI现在就是这样。

过去,人们测试AI,主要看它能否解答单点问题,比如数学计算、代码片段或语言理解。

但现在,新的测试方向聚焦于另一件事:AI能否像一个真正的员工一样,连续、独立地完成一项复杂任务。

例如,一个原本需要程序员花费数小时的工作,交给AI。



看它能否自己阅读理解代码库、理解系统架构、制定解决方案、调试错误,并最终完整交付。

这种独立工作的持久力,被称为“任务时间跨度”。

几年前,AI只能处理几秒钟级别的任务,比如写一行代码。

后来,进化到几分钟完成一个简单函数。再后来,能花一小时搞定一个小模块。

而最新一代的模型,其独立工作时间已经轻松超过16小时

关键点来了:METR评测中最难的题目,耗时就是16小时

所以,不是模型只能工作16小时,而是题库里根本没有更复杂的题目了。

这标志着一个临界点:AI开始突破人类为它设定的能力上限。



从“工具”到“员工”,AI角色变了

互联网时代,自动化的是信息流转。

AI时代,真正开始自动化的,是“认知劳动”。

这种变化,在编程和网络安全行业感受最为直接。

原本,AI编程是程序员的得力助手。但照此发展,未来可能真的不再需要那么多程序员了。

AI不仅能写代码,更能理解需求、设计架构、持续调试,完成一个完整的开发闭环。

过去一个软件开发团队需要10个人,如果AI能独立完成其中80%的工作,那还需要几个人?

这不是危言耸听,是正在发生的事。

网络安全领域同样如此。一些安全公司发现,AI不再只是辅助人类寻找漏洞,而是能像经验丰富的高级黑客一样,自动将多个微小漏洞串联起来,形成完整的攻击链。

过去一个团队需要数周才能完成的渗透测试,AI可能只需几小时甚至几十分钟



这也催生了“用AI对抗AI”的新赛道:你拿AI攻击,我就拿AI防守。

人跑不赢AI,但AI可以跑赢AI。

当然,不必过度恐慌或神化。今天的AI依然会犯错误,会产生“幻觉”,会偏离轨道,也远未达到真正理解世界的人类级智能。

它距离所谓的“技术奇点”或“外星文明”般的超级智能,还有很长的路要走。

真正值得警惕的,是AI进步的速度和方式

但真正值得警惕的,不是AI是否已成“神”,而是它进步的速度和方式。

过去的AI,更像一个增强版的搜索引擎,有问必答。你问它问题,它给你答案。

未来的AI,将真正成为一个可以委派任务、独立工作的数字员工。

你给它一个目标,它自己规划路径、执行任务、交付结果。

更深层的问题是:如果AI未来开始自己研发更强的AI呢?

现在是人研发AI。如果AI的编程能力已经超过人类,那它完全可以自己写代码、自己优化自己。

到那时候,技术进步本身将被AI加速,其增长曲线可能不再是简单的指数增长,而是“指数的指数”增长。



评测题库被AI“打爆”,是一个极具象征意义的信号,它告诉我们三件事:

变革已至,且正在加速。不是未来某一天,就是现在。

衡量AI的标准变了。从“会不会做这道题”变成了“能不能独立完成一项工作”。

人类需要重新思考自己在工作中的位置。当AI能连续工作16小时不休息、不出错、不抱怨,人类的核心竞争力在哪里?

这不是要制造焦虑,而是提醒:适应的最好时机是昨天,其次是现在。

声明:个人原创,仅供参考

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
最神秘雇佣兵:人数维持34人,专门猎杀特种兵,美国黑水也不敢惹

最神秘雇佣兵:人数维持34人,专门猎杀特种兵,美国黑水也不敢惹

闻识
2026-05-14 16:40:54
美战略大佬劝特朗普:台海问题该“准备后事”,两字之差天壤之别

美战略大佬劝特朗普:台海问题该“准备后事”,两字之差天壤之别

叹知
2026-05-14 22:20:12
空军一号上,特朗普放下汉堡可乐,改吃牛肉面,旁边还有两个春卷

空军一号上,特朗普放下汉堡可乐,改吃牛肉面,旁边还有两个春卷

魔都姐姐杂谈
2026-05-14 08:17:51
印度,第一个被AI撕碎的国家?

印度,第一个被AI撕碎的国家?

美第奇效应
2026-05-14 00:02:54
南审研究生案后续,同学再曝恶行,比偷拍更恶心,落此下场不冤!

南审研究生案后续,同学再曝恶行,比偷拍更恶心,落此下场不冤!

奇思妙想草叶君
2026-05-14 13:32:44
性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

性生活不足,原来会短寿!每周多少次比较合适?研究告诉你答案

医学原创故事会
2026-05-12 15:34:03
相亲要1000万彩礼的“泡面姐姐”露真容,网友很失望劝她戴上面罩

相亲要1000万彩礼的“泡面姐姐”露真容,网友很失望劝她戴上面罩

汉史趣闻
2026-05-13 10:21:50
如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

如今已经不是房价跌不跌的问题了,而是新房正在“摧毁”二手房

蜉蝣说
2026-05-14 18:33:50
美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

美国对中国统一下达新结论:大陆只要按兵不动,越晚统一代价越小

华史谈
2026-05-13 08:49:26
丧心病狂!因感情问题,重庆男子10天内,3次想方设法杀害女友!

丧心病狂!因感情问题,重庆男子10天内,3次想方设法杀害女友!

川渝视觉
2026-05-13 22:31:31
评论 | 首次允许外国驻军,印度在下一盘什么棋?

评论 | 首次允许外国驻军,印度在下一盘什么棋?

南亚研究通讯
2026-05-13 22:45:44
天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

天王嫂滤镜彻底碎!方媛抢单人间引众怒,极致利己嘴脸藏不住了

千言娱乐记
2026-05-14 23:30:52
雷军宴会上“追星”马斯克,握手并自拍合影,马斯克配合做出Wink表情

雷军宴会上“追星”马斯克,握手并自拍合影,马斯克配合做出Wink表情

每日经济新闻
2026-05-14 21:28:06
央视军事官宣:中国首艘核动力航母正式确认!

央视军事官宣:中国首艘核动力航母正式确认!

科学知识点秀
2026-05-14 08:00:14
这跟不穿有啥区别?赵露思演唱会内衣外穿:被众嘲一套比一套辣眼

这跟不穿有啥区别?赵露思演唱会内衣外穿:被众嘲一套比一套辣眼

胡一舸南游y
2026-05-13 15:23:56
“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

“给儿子吃得大脑缺氧了!”一顿全碳水早餐,暴露了宝妈的低认知

妍妍教育日记
2026-05-14 13:30:26
50岁后还能轻松做到这两件事,恭喜你,大概率会长寿

50岁后还能轻松做到这两件事,恭喜你,大概率会长寿

方舟健客科普
2026-05-14 18:13:44
11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

11年前优衣库男女主现状曝光,他们还在一起生了两个孩子

半糖甜而不腻
2026-04-06 12:09:15
事态升级了!四川凌晨追打案后续:6人全带走,女子袭警细节被扒

事态升级了!四川凌晨追打案后续:6人全带走,女子袭警细节被扒

小鋭有话说
2026-05-13 15:41:41
闪电夺权!马科斯刚把刀架到莎拉脖子上,下一秒自己却被斩首了!

闪电夺权!马科斯刚把刀架到莎拉脖子上,下一秒自己却被斩首了!

菁菁子衿
2026-05-13 21:48:49
2026-05-15 00:28:49
我超有瓜
我超有瓜
全网热瓜第一线,网友神评天天见。不生产瓜,只是瓜田的搬运工。
2文章数 0关注度
往期回顾 全部

科技要闻

马斯克说会谈很顺利 黄仁勋点赞 库克比耶

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

头条要闻

外媒询问中方对鲁比奥的制裁是否已经解除 外交部回应

体育要闻

争议抽象天王山,和季后赛最稳定中锋

娱乐要闻

何九华官宣当爸!全程不提孩子妈

财经要闻

李强会见美国工商界代表

汽车要闻

双零重力座椅/AI智能体/调光天幕 启境GT7内饰发布

态度原创

旅游
本地
家居
时尚
公开课

旅游要闻

日照五莲:云海日出映青山

本地新闻

用苏绣的方式,打开江西婺源

家居要闻

精神奢享 对话塔尖需求

白色上衣+彩色下装:今年夏天最火搭配,时髦又减龄!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版