网易首页 > 网易号 > 正文 申请入驻

【人工智能】谷歌如何将 AI 训练要求降低 10,000 倍

0
分享至

人工智能行业面临着一个根本性的悖论。虽然机器如今能够处理海量数据,但其学习效率却出奇地低下,面临着收益递减的挑战。传统的机器学习方法需要海量带标签的数据集,而这些数据集的创建可能耗费数百万美元,耗时数年。这些方法通常基于这样的信念:更多的数据会带来更优的人工智能模型。然而,谷歌研究人员最近推出了一种创新方法,挑战了这一长期存在的信念。他们证明,只需减少多达一万倍的训练数据,就能实现类似的人工智能性能。这一进展有可能从根本上改变我们对待人工智能的方式。在本文中,我们将探讨谷歌研究人员如何实现这一突破、这一进展对未来的潜在影响,以及未来的挑战和发展方向。

人工智能中的大数据挑战

几十年来,“数据越多,AI 越好”的理念一直驱动着业界对 AI 的探索。像GPT-4这样的大型语言模型在训练过程中会消耗数万亿个 token。这种数据密集型方法为缺乏大量资源或专业数据集的组织带来了巨大的障碍。首先,人工标注的成本非常高昂。专业标注人员收费高昂,而所需的数据量也使得项目成本高昂。其次,收集到的大部分数据往往是冗余的,无法在学习过程中发挥关键作用。传统方法也难以应对不断变化的需求。当政策发生变化或出现新的问题内容时,企业必须从头开始标注流程。这个过程形成了昂贵的数据收集和模型再训练的恶性循环。

通过主动学习应对大数据挑战

解决这些数据挑战的已知方法之一是通过赋能主动学习。这种方法依赖于一个精心挑选的过程,它可以识别出最有价值的训练示例供人类标记。其基本思想是,模型从它们认为最令人困惑的例子中学得最好,而不是被动地消耗所有可用数据。与需要大量数据集的传统人工智能方法不同,主动学习采用更具战略性的方法,专注于只收集最具信息量的示例。这种方法有助于避免标记对模型价值不大的明显或冗余数据的低效率。相反,主动学习针对的是边缘情况和不确定的示例,这些示例有可能显著提高模型性能。

通过将专家的精力集中在这些关键样本上,主动学习可以让模型以更少的数据点更快、更有效地学习。这种方法有望解决数据瓶颈和传统机器学习方法的低效问题。

谷歌的主动学习方法

谷歌的研究团队已成功运用这一范式。他们全新的主动学习方法论表明,精心挑选的高质量样本可以取代海量标注数据。例如,他们证明,基于少于 500 个专家标注样本训练的模型,其性能已达到甚至超越基于 10 万个传统标注训练的系统。

该流程通过谷歌所谓的“LLM-as-Scout”系统进行。大型语言模型首先扫描大量未标记数据,识别出其感觉最不确定的情况。这些边界情况正是模型需要人工指导以改进决策的确切场景。该流程始于一个初始模型,该模型使用基本提示标记大型数据集。然后,系统根据预测的分类对样本进行聚类,并识别模型在不同类别之间出现混淆的区域。这些重叠的聚类揭示了专家人类判断最有价值的精确点。

该方法明确针对的是那些彼此距离最近但标签不同的样本对。这些边界情况恰恰代表了人类专业知识最为重要的场景。通过将专家的标注工作集中在这些令人困惑的样本上,该系统实现了显著的效率提升。

质量胜过数量

这项研究揭示了一项关于数据质量的关键发现,挑战了人工智能领域的一个普遍假设。它表明,专家标注凭借其高保真度,其表现始终优于大规模众包标注。他们使用科恩卡帕值 (Cohen's Kappa)来衡量这一点,科恩卡帕值是一种统计工具,用于评估模型预测与专家意见的吻合程度,而非偶然性。在谷歌的实验中,专家标注员的科恩卡帕值超过了 0.8,显著优于众包标注通常的表现。

这种更高的一致性使模型能够从更少的样本中有效地学习。在使用Gemini Nano -1 和 Nano-2 的测试中,相比大约 10 万个随机众包标签,模型仅使用 250 到 450 个精心挑选的样本,就达到了甚至超过了专家对齐的效果。这减少了三到四个数量级。然而,其优势不仅仅在于使用更少的数据。用这种方法训练的模型通常比用传统方法训练的模型表现更好。对于复杂任务和更大的模型,性能提升达到了基线的 55% 到 65%,这表明与策略专家的对齐更加显著且更加可靠。

为什么这一突破现在如此重要

这一进展正值人工智能行业的关键时刻。随着模型规模越来越大、越来越复杂,传统的扩展训练数据的方法已变得越来越不可持续。训练大规模模型的环境成本持续增长,而且许多组织的经济准入门槛仍然很高。

谷歌的方法同时解决了多个行业挑战。标注成本的大幅降低使小型组织和研究团队更容易进行人工智能开发。更快的迭代周期使其能够快速适应不断变化的需求,这在内容审核或网络安全等动态领域至关重要。

该方法还对人工智能的安全性和可靠性具有更广泛的意义。通过关注模型最不确定的情况,该方法可以自然地识别潜在的故障模式和边缘情况。这一过程可以创建更强大的系统,更好地理解其局限性。

对人工智能发展的更广泛影响

这一突破表明,我们可能正在进入人工智能发展的新阶段,效率比规模更重要。传统的“越大越好”的训练数据方法可能会让位于更复杂的方法,这些方法优先考虑数据质量和战略选择。

仅就环境影响而言,其意义就十分重大。目前,训练大型人工智能模型需要耗费大量的计算资源和能源。如果能够用更少的数据实现类似的性能,那么人工智能开发的碳足迹将大幅减少。

民主化效应可能同样重要。以前无力承担大规模数据收集工作的小型研究团队和组织,现在有了一条通往竞争性人工智能系统的道路。这一发展可以加速创新,并在人工智能发展中创造更多元化的视角。

限制和注意事项

尽管取得了令人鼓舞的成果,但该方法仍面临诸多实际挑战。由于需要专家注释员的 Cohen's Kappa 得分高于 0.8,这可能会限制其在缺乏足够专业知识或明确评估标准的领域的应用。该研究主要侧重于分类任务和内容安全应用。同样的显著改进是否也适用于其他类型的人工智能任务,例如语言生成或推理,仍有待观察。

与传统的批处理方法相比,主动学习的迭代特性也带来了复杂性。组织必须开发新的工作流程和基础设施,以支持查询-响应周期,从而实现模型的持续改进。

未来的研究可能会探索自动化方法,以维护专家级的注释质量,并开发核心方法的特定领域适应性方案。将主动学习原理与其他效率技术(例如参数高效微调)相结合,可以带来额外的性能提升。

底线

谷歌的研究表明,有针对性的高质量数据比海量数据集更有效。通过专注于标记最有价值的样本,他们将训练需求减少了高达一万倍,同时提升了性能。这种方法降低了成本,加快了开发速度,减少了环境影响,并使高级人工智能更容易获得。这标志着人工智能向高效可持续发展迈出了重要一步。

免责声明:

本文所发布的内容和图片旨在传播行业信息,版权归原作者所有,非商业用途。如有侵权,请与我们联系删除。所有信息不构成任何投资建议,加密市场具有高度风险,投资者应基于自身判断和谨慎评估做出决策。投资有风险,入市需谨慎。

设为星标 避免错过

虚拟世界没有旁观者,每个点赞都是创造历史的像素

关注我,一起探索AWM⁺

2025-07-28

2025-07-25

2025-07-24

商业赞助

点击下方 “目录” 阅读更多

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

近期,一名中国男子去泰国玩,花6000泰铢找21岁女孩,悲剧发生了

鲸探所长
2026-03-01 14:38:25
“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

“妈,门口要钱,我们就不进去看你了”,游客在壶口瀑布外拍视频被投诉侵权,山西壶口瀑布景区:事发地是陕西壶口瀑布,我们也是受害者

观威海
2026-03-18 14:47:02
你见过天才吗?网友:有些领域,努力在天赋面前,一文不值

你见过天才吗?网友:有些领域,努力在天赋面前,一文不值

带你感受人间冷暖
2026-03-20 00:47:24
高市刚抵达美国,特朗普面还见到,中俄甩出重拳出击,美失声

高市刚抵达美国,特朗普面还见到,中俄甩出重拳出击,美失声

健身狂人
2026-03-20 00:23:37
这下麻烦大了!翻红还不到72小时,54岁瞿颖就因孙楠“深陷泥潭”

这下麻烦大了!翻红还不到72小时,54岁瞿颖就因孙楠“深陷泥潭”

好贤观史记
2026-03-19 16:03:23
医生:糖尿病最危险信号,不是浑身无力,而是频繁出现这4种异常

医生:糖尿病最危险信号,不是浑身无力,而是频繁出现这4种异常

华庭讲美食
2026-03-19 18:11:16
曾遭伊万批评+弃用!曝27岁申花主力重返国足,首次获邵佳一征召

曾遭伊万批评+弃用!曝27岁申花主力重返国足,首次获邵佳一征召

我爱英超
2026-03-19 22:05:51
美媒:中国在筹备持久战,越来越多国家的钱,络绎不绝流向中国!

美媒:中国在筹备持久战,越来越多国家的钱,络绎不绝流向中国!

通鉴史智
2026-03-19 14:34:37
萝莉岛文件再公开!背后更可怕的,是每年50万“消失的孩子”

萝莉岛文件再公开!背后更可怕的,是每年50万“消失的孩子”

秋枫凋零
2026-02-04 21:04:24
真的有家长每晚都坚持陪孩子学习吗?网友:经历一些事情就会想开

真的有家长每晚都坚持陪孩子学习吗?网友:经历一些事情就会想开

夜深爱杂谈
2026-03-19 20:00:29
曼联为贝林厄姆开出1.04亿英镑重磅报价,英力士欲重塑昔日荣光

曼联为贝林厄姆开出1.04亿英镑重磅报价,英力士欲重塑昔日荣光

夜白侃球
2026-03-19 22:05:11
巴拿马这次的操作,真是把“国际玩笑”开成了天价账单

巴拿马这次的操作,真是把“国际玩笑”开成了天价账单

福建平子
2026-03-19 11:57:42
高市早苗会见特朗普,提前对华下战书,中方回了四个字:贼喊捉贼

高市早苗会见特朗普,提前对华下战书,中方回了四个字:贼喊捉贼

爱看剧的阿峰
2026-03-20 00:23:48
成都网友建议取消春秋假,回应来了

成都网友建议取消春秋假,回应来了

天府观察
2026-03-19 19:16:56
4月1日起,看病别忘带两样东西,要不医保报得少、自己多花钱

4月1日起,看病别忘带两样东西,要不医保报得少、自己多花钱

i书与房
2026-03-19 10:57:01
伊朗:通过国外卫星频道发布的有关安保人员位置视频,逮捕了41名间谍;查获装备包括“星链”设备、无线通信设备和电子芯片等

伊朗:通过国外卫星频道发布的有关安保人员位置视频,逮捕了41名间谍;查获装备包括“星链”设备、无线通信设备和电子芯片等

扬子晚报
2026-03-19 19:25:45
大连市纪委监委通报三起破坏营商环境典型案例

大连市纪委监委通报三起破坏营商环境典型案例

半岛晨报
2026-03-19 18:12:37
教育界“两面人”现形!广东一高校原书记落马,看完让人愤怒

教育界“两面人”现形!广东一高校原书记落马,看完让人愤怒

爱下厨的阿椅
2026-03-20 00:17:36
玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

玄学提醒:如果一个人还在穿着10年前的衣服,只说明3个问题

洞读君
2026-03-04 14:30:12
伊朗报复升级!全球资产异动!

伊朗报复升级!全球资产异动!

证券时报
2026-03-19 19:54:11
2026-03-20 02:59:00
七元宇宙 incentive-icons
七元宇宙
AI、Web3、Meta聚合型精选内容分享。以前沿视角,探索科技未来;让每一个人,都走在时代的前沿
2042文章数 92关注度
往期回顾 全部

科技要闻

小米新一代SU7上市,售价21.99万

头条要闻

美军一架F-35战机疑似被伊朗火力击中后紧急降落

头条要闻

美军一架F-35战机疑似被伊朗火力击中后紧急降落

体育要闻

他们专卖“老头鞋”,却能签下19岁NBA未来门面?

娱乐要闻

胡歌初恋回应曝光书信 否认用爆料赚钱

财经要闻

伊朗战争会是"美国金融危机"导火索吗?

汽车要闻

不到10万还有激光雷达 零跑A10体验超预期

态度原创

教育
本地
游戏
手机
公开课

教育要闻

写作业总说不会,背后藏着学习盲区

本地新闻

春色满城关不住|绍兴春日顶流,这片樱花海藏不住了

《GTA6》价格定调了!CEO暗示70到80美元

手机要闻

小米春季发布会一文汇总:新一代SU7上市,时隔四年推“公斤本”

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版