网易首页 > 网易号 > 正文 申请入驻

成本低、周期短,小样本学习能否成为AI落地的速效药? 超级观点

0
分享至

带着观点看商业。超级观点,来自新商业践行者的前沿观察。

文 | 顾夏辉,子长科技(1STEP.AI)CTO、创始人

编辑 | 吕方

AI应用的心病:数据缺失

人工智能(AI)一直是被热议的话题,但围绕着人工智能的讨论往往是“人工智能产业是否存在泡沫?”,“人工智能的估值是否过高?”。

人工智能不同于传统软件或系统开发项目,在各个领域的落地都存在很多问题,比如技术难度大、研发成本高、项目周期长。即使是行业里的头部公司,短期内也很难实现技术落地和商业化。

以行业头部计算机视觉公司旷视科技为例,据其港招股书显示,2016年、2017年和2018年,公司营业收入分别达到人民币6780万元、3.13亿元和14.27亿元,但亏损分别达3.43亿元、7.58亿元和33.52亿元。类似的还有寒武纪,即使已经成为人工智能芯片领域的头部公司,其在2017-2019年的三年亏损总额也超过了16亿元。

其中一个原因是当前人工智能的成果很大程度上还是人工堆砌,成本非常的高。

大部分人工智能项目需要机器学习的训练过程,而这个过程需要大量标注了答案的训练数据,即监督学习。据统计,在整个人工智能项目开发过程中80%的工作量都是准备训练数据,就算对于简单的数字图像识别,也需要五六千张数据图像作为训练数据。而这些数据都需要人工标注,比如目前国内某知名直播品牌就有4万名数据标注员工。

除了模型训练的高成本,找到大量可用于标注的训练数据的成本也非常高。由于信息安全、工作量等原因,很多为甲方开发定制的人工智能项目,往往很难获得大量有效的专项标注数据,而没有大量的数据就无法进行有效的机器学习。但数据是一个企业的核心,无法获得企业提供的数据进行训练是人工智能应用的心病。这就需要人工智能公司自行标注或准备大量训练数据,这个过程又增加了项目成本。因此降低数据准备的成本对人工智能落地至关重要。

数据准备的解药:预标注、数据增强、迁移学习

目前比较流行的降低数据准备成本的方法有预标注、数据增强、迁移学习等方法。

预标注是利用已有模型或者规则对训练数据进行自动标注,再把预标注后的训练数据交给数据标注人员进行标注。这个方法可以有效的降低人工标注的工作量。但预标注要求质量较好的预标注模型,并且标注人员需要对预标注错误的结果进行纠正。也就是说即使进行了预标注,还是需要大量的检查工作量,这种方法获得准确的标注训练数据的成本依然较高。此外,预标注方法还依赖于海量的训练数据为基础,实质上并没有解决需要大量可标注数据的问题。

数据增强是一种基于已有训练数据的基础,对数据进行自动扩充,从而获得更多的训练数据的方法。例如对图片进行标注,通过对图像旋转、截取等方式获得更多的图片数据,使用这种方法可以在少量的训练数据上进行标注,然后通过增强的方式获得大量已标注训练数据,同时解决了数据标注的工作量和对训练数据数量的依赖。但数据增强的过程需要开发模型生成或者是用规则生成,这又产生了数据增强的工作量。而如果通过数据增强的训练数据结果不够多样化,容易出现过拟合的情况,也就是在训练数据集中的结果很好,但在实际生产中的效果较差,模型过度拟合到训练数据。

迁移学习是将其他相似领域中已经充分训练过的模型作为预训练模型,以这个预训练模型为基础,使用目标领域的训练数据进行微调训练,从而获得适应于目标领域的模型。这种方法经常用于不同语言的翻译过程,但不管是预训练模型的训练过程还是微调的过程,依然需要大量的训练数据,否则还是存在过拟合的问题。

以上的三种方法都是希望通过降低训练数据数量,降低人工标注的成本和模型数据的准备成本,但仍然都存在着各种各样的问题。

数据救心丸:小样本学习

我们人类可以从很少的样本中获得某个新领域的知识,这个过程比起机器学习需要依赖成千上万的数据作为训练数据来说快捷很多。这是因为人类有举一反三、融会贯通的能力,可以将其他领域所积累的知识应用到对新领域理解的过程中,但如果完全从零开始学习一个新的知识,学习速度也是很缓慢的。

小样本学习(Few shot learning)与人类学习新领域的方式非常接近。它细分了很多种方法,但都是通过对其他各个领域知识的积累,在新的领域中寻找与所积累的知识的共性,从而快速的对新领域知识进行学习。只需要在新领域只提供几十个甚至几个样本数据,小样本学习就可以对新领域的知识进行学习理解。

小样本学习其实也是一种迁移学习。与其他迁移学习不同的是,小样本学习最大程度的利用了模型在各个领域数据训练的积累,大大降低了训练数据的数量,相比数据增强和迁移学习也有着更好的抗过拟合的效果。更重要的是,小样本训练可以将各个领域的学习过程积累下来,从而在不增加新领域训练数据的同时,获得更好的学习效果。

使用小样本学习可以在人工智能项目落地过程中彻底解决对大量训练数据的依赖,而由于减少了数据标注的工作量,模型训练的成本和周期也降低了。目前越来越多的主流人工智能公司开始对小样本学习方向发力,比如1STEP.AI已经可以在SMP小样本学习的比赛中,对小于十个样本的情况下,做到文本意图识别83.4%的准确率。通过可商用的小样本学习能力,可以解决项目冷启动、项目学习、实施成本等问题。

目前衡量一家人工智能公司是否具有落地能力,主要看这家公司是否找到了用户痛点、是否有算法、算力和数据能不能解决用户痛点。而使用小样本学习不仅能解决数据问题,同时可以降低训练所需要的算力,人工智能公司就可以把全部精力放在研究算法来解决用户痛点上,这样也简化了人工智能落地的复杂度。当然小样本学习不是变魔术,积累越多学习越快,作为一个新的研究方向它需要更为复杂的预训练过程。

不过由于小样本学习可以大大降低人工智能项目的落地成本,解决企业数据泄露的后顾之忧,所以未来很可能变成人工智能落地的一个重要方向。

“超级观点”栏目现发起“特约观察员入驻”计划,邀请各赛道的创业者、大公司业务线带头人等一线的商业践行者,在这里分享你的创业体悟、干货、方法论,你的行业洞察、趋势判断,期待能听到来自最前沿的你的声音。 欢迎与我们联系,微信:cuiyandong66;邮箱:guanchayuan@36kr.com

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
苹果美国为近期下单用户免费升级2026款M5系列MacBook

苹果美国为近期下单用户免费升级2026款M5系列MacBook

IT之家
2026-03-06 10:58:13
五号舰来了,满载排水量15万吨,世界第一,到底可能有多大?

五号舰来了,满载排水量15万吨,世界第一,到底可能有多大?

万里繁华
2026-03-06 09:57:41
老道长告诫:房子周边出现这三种现象,说明这里是个宝地!

老道长告诫:房子周边出现这三种现象,说明这里是个宝地!

千秋文化
2025-11-25 09:41:32
热议!代表建议英语总分调为100分,家长:希望合理分配学科权重

热议!代表建议英语总分调为100分,家长:希望合理分配学科权重

户外阿毽
2026-03-06 10:04:31
以色列监狱有多荒谬?女狱警在审讯室供犯人玩乐,长官负责牵线

以色列监狱有多荒谬?女狱警在审讯室供犯人玩乐,长官负责牵线

古事寻踪记
2026-03-06 07:08:42
我和女友去领证,填表时她去上厕所,她的手机亮了,弹出一条消息

我和女友去领证,填表时她去上厕所,她的手机亮了,弹出一条消息

王二哥老搞笑
2026-03-05 23:35:29
夺冠概率飙升东部第一!联盟最牛的GM,节省3.5亿开支,还能冲冠

夺冠概率飙升东部第一!联盟最牛的GM,节省3.5亿开支,还能冲冠

你的篮球频道
2026-03-06 07:47:52
保交楼全面完成

保交楼全面完成

21世纪经济报道
2026-03-05 21:10:08
美国全球打击司令部新任司令宣称,中国不具备研发轰-20的能力

美国全球打击司令部新任司令宣称,中国不具备研发轰-20的能力

蜉蝣说
2026-03-04 15:29:39
浙江6岁女孩被送到陕西一农户家中,6年后被父母强行接回,谁料,女孩长大后千里寻亲,只为这一个原因

浙江6岁女孩被送到陕西一农户家中,6年后被父母强行接回,谁料,女孩长大后千里寻亲,只为这一个原因

励职派
2026-03-05 12:45:20
000533,逾34万手封单涨停!超70亿元主力资金涌入这个板块

000533,逾34万手封单涨停!超70亿元主力资金涌入这个板块

数据宝
2026-03-06 12:26:16
霍尔木兹海峡告急后,亚洲各国能源部灯火通明,伊朗也在自杀

霍尔木兹海峡告急后,亚洲各国能源部灯火通明,伊朗也在自杀

文昌每日谈
2026-03-06 15:09:45
美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

美国恨透了中国北斗,却不敢轻易干扰北斗信号,美在害怕什么?

阿纂看事
2026-03-04 11:40:53
万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

万万没想到!两会最火提案不是医疗和就业,而是霍启刚的这一举动

米果说识
2026-03-05 17:59:27
一旦战争爆发,中国实力究竟有多强?美国专家的评价让人出乎意料

一旦战争爆发,中国实力究竟有多强?美国专家的评价让人出乎意料

蹲坑看世界
2026-03-04 10:14:26
突发!卡塔尔首都遭导弹袭击

突发!卡塔尔首都遭导弹袭击

新快报新闻
2026-03-06 10:15:08
名场面!乌克兰大使公开拒吊唁伊朗高层,字字戳心撕破伪善面具

名场面!乌克兰大使公开拒吊唁伊朗高层,字字戳心撕破伪善面具

老马拉车莫少装
2026-03-06 13:45:05
寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

寿命与大便次数有关?研究发现:寿命长的人,每天排便在这个次数

DrX说
2025-10-24 14:15:19
由迪拜国际机场飞往上海浦东国际机场航班平安落地

由迪拜国际机场飞往上海浦东国际机场航班平安落地

每日经济新闻
2026-03-06 08:02:51
令欧美头疼的穆斯林难题,在中国却不成问题,只因中国人拥有一项独特本领

令欧美头疼的穆斯林难题,在中国却不成问题,只因中国人拥有一项独特本领

文史明鉴
2026-02-16 16:30:15
2026-03-06 15:55:00
36氪 incentive-icons
36氪
让一部分人先看到未来
150770文章数 2848264关注度
往期回顾 全部

科技要闻

独家|除夕加班、毫无黑料!林俊旸无奈离场

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

头条要闻

国家发改委主任:预计今年GDP增量超6万亿元

体育要闻

跑了24年,他终于成为英超“最长的河”

娱乐要闻

周杰伦社交媒体晒昆凌,夫妻感情稳定

财经要闻

经济主题记者会 潘功胜吴清等出席演讲

汽车要闻

710km长续航+闪充 宋Ultra EV预售15.5万起

态度原创

教育
旅游
时尚
家居
公开课

教育要闻

高二英语适合刷真题吗?要先了解高考命卷特点和自己的分数区间

旅游要闻

昆明金殿第十届花朝盛会3月8日启幕 古风盛宴邀客共赏春

看来看去还是这些穿搭最高级,不老套、不死板,舒适又显气质

家居要闻

暖棕撞色 轻法奶油风

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版