网易首页 > 网易号 > 正文 申请入驻

并非所有AI问题都是数据问题:我们应当有意图地考虑数据扩展

0
分享至

我局官微“上海统计”已开设专栏“理论应用”,内容聚焦前沿理论、立足全球视野,以传播现代统计方法、实践和成功案例为主,助推统计人科研水平提高和统计事业的改革发展,欢迎大家及时关注分享。

本期推送“并非所有AI问题都是数据问题:我们应当有意图地考虑数据扩展”,原文是由Google研究人员Tanya Rodchenko、Natasha Noy、Nino Scherrer和Jennifer Prendki合作撰写的论文“Not Every AI Problem is a Data Problem: We Should Be Intentional About Data Scaling”。在人工智能(Artificial Intelligence,AI)领域,扩展数据规模似乎已成为推动技术发展的主要动力,然而本文指出,并非所有AI问题都能通过简单地扩展数据规模来解决,我们应该考虑哪些类型的任务更有可能从数据扩展中获益,从而更有针对性地获取数据,以实现更有效的AI发展。

1 数据驱动型扩展的局限性

自Transformer模型问世以来,数据规模和模型参数量的不断扩大,成为AI领域发展的一个重要趋势。然而,这种趋势并非适用于所有场景。尽管在机器人技术等领域,扩展数据规模带来了显著进展,但在识别虚假信息等任务中,扩展数据规模并未带来预期的效果。原因在于,高质量数据是有限的,而低质量数据可能会对模型的性能和可靠性产生负面影响;较大的模型对哪怕少量不可靠数据也尤为敏感,可能会记住错误信息,从而导致不恰当的输出。

2 数据形态的重要性

文章指出,数据形态(即数据的组成和结构模式)对数据驱动型扩展至关重要。拓扑数据分析框架可以帮助识别数据集内在的维度和模式,从而判断数据驱动型扩展是否适用。例如,在机器翻译领域,语言的稳定性和高质量的翻译数据为模型训练提供了坚实的基础;然而,在新闻事实核查和揭露错误信息等任务中,由于数据缺乏明显且持久的拓扑特征,扩展数据规模的方法可能并不适用。

3 数据采集的重要性

除了数据形态,数据驱动型扩展的可行性也在很大程度上取决于数据采集过程的性质。如果能够得到高质量且易于获取的数据,那么扩展的潜力就会显著增加。例如,在自动驾驶汽车领域,持续收集的传感器数据能够不断提升模型的性能。

当然,数据质量的定义是复杂的,其与应用场景以及训练模型为用户带来的价值紧密相关。此外,我们还要批判性地审视当今的评估框架,进一步考虑人工智能模型如何应对现实世界的复杂性,并反映用户满意度和经济价值。

04 有意图的数据扩展

在数据驱动型扩展中,我们应当有明确的意图。通过专注于那些对扩展效果有较强假设的用例,并根据需求收集有针对性的数据,可以提高模型训练的效率,并减少所需的数据量。这种方法的演进可能会在主动学习中发挥重要作用,通过人机交互和模型交互,模型可以优先选择合适类型的数据,从而加快研究进展。

这种更具针对性的方法不仅能够高效利用资源,还能为解决那些需要的不仅仅是数据和规模的复杂AI挑战铺平道路。

编撰:上海社会科学院 刘周洲供稿:市统计学会

责编:薛依宜

审核:杨荣

特别声明:本文经上观新闻客户端的“上观号”入驻单位授权发布,仅代表该入驻单位观点,“上观新闻”仅为信息发布平台,如您认为发布内容侵犯您的相关权益,请联系删除!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
演员张翰自曝“已没有助理”

演员张翰自曝“已没有助理”

黄河新闻网吕梁
2026-03-27 10:21:30
赢球不到24小时,萨巴伦卡锐评郑钦文,只字不提球技,却字字珠玑

赢球不到24小时,萨巴伦卡锐评郑钦文,只字不提球技,却字字珠玑

林子说事
2026-03-26 14:10:10
比亚迪突然官宣:15.19万起,新车正式上市

比亚迪突然官宣:15.19万起,新车正式上市

高科技爱好者
2026-03-26 23:14:40
宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

宋喆直播卖枣笑塌全网!百万流量零成交,满屏王宝强弹幕扎心到爆

誮惜颜a
2026-01-13 01:12:10
张雪峰离世后,老对手杜子建含泪解释:节目上的对抗是为了收视率

张雪峰离世后,老对手杜子建含泪解释:节目上的对抗是为了收视率

云景侃记
2026-03-26 15:13:16
《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

《雍正王朝》演员现状:有人住千万豪宅,有人晚节不保,有人离世

小徐讲八卦
2026-03-24 17:10:05
一夜输1亿,一瓶酒50万,2亿豪车买来当玩具,父子败光百亿家产!

一夜输1亿,一瓶酒50万,2亿豪车买来当玩具,父子败光百亿家产!

历史伟人录
2026-03-13 18:28:07
如果男人没有本事,挣不来钱,就不会有女人嫁给他

如果男人没有本事,挣不来钱,就不会有女人嫁给他

加油丁小文
2026-02-20 14:30:03
重庆一大学生因兼职送校内外卖被学校违纪处分,学校回应:处分流程已经中止,没有对该学生作出实际处罚

重庆一大学生因兼职送校内外卖被学校违纪处分,学校回应:处分流程已经中止,没有对该学生作出实际处罚

台州交通广播
2026-03-27 00:42:16
川普边谈边打,尤其让以色列持续加大攻击,想全过程、全域获利

川普边谈边打,尤其让以色列持续加大攻击,想全过程、全域获利

邵旭峰域
2026-03-27 12:09:51
第86轮打击来袭!打击力度升级,以色列海军基地遭摧毁,川普让步

第86轮打击来袭!打击力度升级,以色列海军基地遭摧毁,川普让步

爱吃醋的猫咪
2026-03-26 22:25:02
业界的王又见王!堪比詹姆斯库里合体!

业界的王又见王!堪比詹姆斯库里合体!

贵圈真乱
2026-03-27 11:18:46
外媒:华为畅享90系列意义重大,或影响中国AI的未来

外媒:华为畅享90系列意义重大,或影响中国AI的未来

极客网
2026-03-25 09:28:00
我娶了单位32岁前台,结婚半个月后董事长:你知道你老婆是啥人不

我娶了单位32岁前台,结婚半个月后董事长:你知道你老婆是啥人不

千秋历史
2026-03-12 19:18:12
0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

0.028%!无罪判决率跌至谷底,为何国际水平是我们的35倍?

深析古今
2026-03-25 01:10:47
赖清德收到通知,参会身份已定,4国交了底,民进党10年努力白费

赖清德收到通知,参会身份已定,4国交了底,民进党10年努力白费

浪子阿邴聊体育
2026-03-26 10:48:09
黄河壶口瀑布:你喊“妈”可以,但说她“要钱”就不行

黄河壶口瀑布:你喊“妈”可以,但说她“要钱”就不行

难得君
2026-03-23 09:27:50
麦迪警告:若文班今年拿不到MVP,那么未来几年其他人只能争第二

麦迪警告:若文班今年拿不到MVP,那么未来几年其他人只能争第二

仰卧撑FTUer
2026-03-26 23:30:09
52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

52岁北京炒股冠军罕见发声:如果手里有10万,建议死啃美人肩战法

股经纵横谈
2026-03-16 21:56:42
女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

女同主播出轨大哥 被"正宫"直播对质!真实长相曝光

游民星空
2026-03-25 20:08:13
2026-03-27 13:28:49
上观新闻 incentive-icons
上观新闻
站上海,观天下
456849文章数 760387关注度
往期回顾 全部

科技要闻

OpenAI果断砍掉"成人模式",死磕生产力

头条要闻

牛弹琴:一直赢的特朗普心里更慌了 又给自己续了10天

头条要闻

牛弹琴:一直赢的特朗普心里更慌了 又给自己续了10天

体育要闻

近29战23胜!这支黄蜂有多强?

娱乐要闻

张雪峰灵堂内景曝光,四周摆满了鲜花

财经要闻

很反常!油价向上,黄金向下

汽车要闻

与众08,金标大众不能输的一战

态度原创

教育
本地
数码
手机
公开课

教育要闻

高二英语只能考五六十分,如何快速提分,需要详细提分计划

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

数码要闻

达音科“卯”头戴式耳机发售=,2680元

手机要闻

苹果史上最贵手机!iPhone Fold折叠屏发货推迟:比iPhone 18 Pro晚

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版