一份423页的报告,斯坦福HAI最新发布的《2026年AI指数报告》,把结论直接拍在桌上:中美AI模型性能差距已基本消除。
翻译成人话——你追我赶这么多年,终点线突然变成同一根了。
2025年,业界产出了超过90%的知名前沿模型。博士级科学问题、多模态推理、竞赛数学,这些曾经的"人类专属领地",模型们现在已经能踩线甚至超车。更夸张的是SWE-bench Verified,这个编码基准测试,模型性能一年内从60%飙到接近100%。
企业端采用率88%,大学生里五分之四已经在用生成式AI。数字看着热闹,但报告真正的狠话藏在细节里。
DeepSeek-R1今年2月短暂追平美国顶尖模型;到2026年3月,Anthropic虽仍领先,优势只剩2.7%。产出层面,美国握着更多顶级模型和高影响力专利,中国则在论文、引用、专利总数、工业机器人安装量上占上风。韩国更绝,人均AI专利数量全球第一——地方不大,密度惊人。
数据中心这块,美国5427个,数量是其他国家的10倍以上,电费账单也是。几乎每块领先AI芯片都出自台积电一家,全球AI硬件供应链被押在中国台湾省的一家代工厂上。台积电美国扩建项目2025年已运营,但"几乎"和"都"这两个字,读起来还是让人捏把汗。
能力的天花板与地板同样刺眼。Gemini Deep Think能在IMO拿金牌,读个指针式时钟准确率却只有50.1%——比抛硬币强点有限。OSWorld的真实任务测试,成功率从12%跳到66%,但仍有三分之一任务会失败。
头部开发者现在主动披露基准成绩,"负责任的AI"却像拼了一半的拼图,信息零散。AI事故从233起涨到362起。安全性和准确性之间,往往只能二选一。
投资数字更赤裸:美国2859亿美元,是中国124亿的23倍以上。1953家AI公司一年内拿到新融资,是第二名国家的10倍以上。但自2017年以来,这个数字已经跌掉89%,过去一年又少了80%。
生成式AI三年触达53%人口,比PC和互联网都快。但普及率与人均GDP高度挂钩——新加坡61%,阿联酋54%,美国28.3%排第24。哪怕工具免费,美国消费者年收益已达1720亿美元。
教育战场更微妙。80%以上的美国高中生和大学生用AI做学习任务,但只有一半中小学制定了AI政策,6%的教师觉得这些政策清晰。
技能增长最快的国家是阿联酋、智利、南非。美加AI博士数量涨了22%,但更多流向学术界而非工业界。发展中经济体在扩建国家级AI战略和超算投资。GitHub上"其他地区"的贡献量已超欧洲,逼近美国。
专家与公众的认知裂缝宽达50个百分点:73%的专家认为AI对工作影响正面,公众只有23%。欧盟在"能否有效监管AI"上的信任度,整体高于美国和中国。
报告还埋了五个冷观察:机器人家务任务完成率仅12%;AI先吃掉的是22-25岁年轻开发者岗位,近20%直接消失,年长开发者反而在增加;GPT-4o年用水量够1200万人喝;模型越大不一定越强;500多项临床研究中,真正用真实患者数据的只有5%。
这份报告由李飞飞联合创立的HAI发布,但她今年没在推特露面,指导委员会名单里也没有她。从2017年开始,这群人每年就干一件事:把AI的里子面子摊开给人看。
今年明显多了一层信号——AI不再是技术问题,而是全面进入深水区。报告首次估算生成式AI的经济价值,补充劳动力市场新证据,提出国家技术控制与竞争的分析框架,单独设立AI科学和AI医学板块。
有个细节值得玩味:美国只有一半中小学有AI政策,而教师觉得政策清晰的,只有6%。技术跑得比规则快,规则跑得比理解快——这大概是所有"深水区"的通病。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.