网易首页 > 网易号 > 正文 申请入驻

阅读理解能力超越真人的AI机器人是怎么做到的?

0
分享至

让机器像人一样学会理解并做出回答一直是 AI 走向规模化应用的大难题,相比图像、语音领域,自然语言处理领域的发展相对来说比较缓慢。究其原因,在于自然语言是高度抽象化的产物,其语义信息非常丰富,很难做到精准的理解与回应。

SQuAD 2.0 (Stanford Question Answering Dataset 2·0) 是认知智能行业内公认的机器阅读理解领域顶级水平测试,通过吸收来自维基百科的大量数据,构建了一个包含十多万问题的大规模机器阅读理解数据集。这项由斯坦福大学发起的机器阅读理解挑战赛,吸引了全世界致力于人工智能研究的团队参与攻坚“打榜”。近日,来自中国的蚂蚁小宝技术团队登顶 SQuAD 2.0 排行榜,并刷新了榜单纪录,模型分数超过真人的表现。

支小宝资深技术专家陆鑫表示,此次榜单刷新背后的意义在于该项技术可以在蚂蚁的业务场景上做一些赋能,通过知识点的挖掘和生产,大幅度提高生产效率,部分程度上已经可以代替人在业务上发挥作用。

另一方面,模型分数超过真人表现也并不意味着机器可以在专业的、完全 Open 的领域代替人工,仍旧有很多定制化的工作要做。以支小宝所在的金融领域为例,如果要做到完全开放式的理财问答,还有很多技术能力需要补充,以辅助自然语言理解,去完成一个全能的问答机器人的交付。

为什么会选择 SQuAD 2.0 榜单去做技术攻坚?支小宝算法负责人董扬解释道:

最优先考虑的点是 SQuAD 2.0 的问题和支小宝业务本身有比较大的相似性;第二看榜单的参赛队伍的数量和质量,看业界的先进技术能力是否有所体现;第三是看中举办单位的影响力和榜单的权威性。实际上除了 SQuAD 2.0,国内国外的相关榜单以及 NLP 领域的综合评测、比赛都会作为参考。

陆鑫笑言:去参加这些比赛,都是用业务工作之外的余力在做,就好像“用火炉烧水的余温顺便烤个白薯”,在用技术能力服务业务的同时,把模型针对这些比赛做相应的调优。

技术解构:“烤白薯的余温”

这个“烤白薯的余温”开始于 2020 年下半年,这半年时间除了适配业务做了很多数据训练的工作以外,支小宝技术团队也花了很多时间解决机器阅读的几大难题,具体手法有:

  • 在做 text span 预测的时候,对多个 start-end pair 进行排序是影响最终结果的关键点,需要加入很多 rank 的逻辑和特征;
  • 通过一些巧妙设计的长短文本的粗排和精排算法来提前找回段落,解决过长文档信息冗余,过短文档信息信息不足的问题;
  • 数据集噪声的干扰,通过一些增强鲁棒性的训练方法来解决,如文本对抗训练;
  • 数据方面,因为比赛的数据集体量较小,所以尝试了多种语料增广方法包括回译、EDA、CMRC 和 DRCD 数据集增量训练等;
  • 另外还引入 pretrained embedding 作为整个模型的底座,以及 automl 来调整模型结构和超参数搜索。

此外,由于支小宝所在的金融领域对合规、安全性要求高,这种行业特性也对机器阅读理解技术带来了不一样的挑战。支小宝技术团队在训练机器阅读理解的过程中,在输入的部分选择的都是专业的财经资料,输出部分的内容在上线之前也会有合规、审核的团队去把关,确保交付给用户的部分都能合规、安全并且符合时效性。

董扬介绍道,支小宝是一个需求模糊、供给有限的产品,早期的支小宝知识库非常有限,采用的也都是专家撰写的方式,因为金融行业场景的专业性及合规方面的要求,专家人工撰写知识库的周期相对较长,每个月从生产、审核到上线只能产出百余条的数量级。

而另一方面,支小宝的庞大用户体量导致当用户问及理财、保险问题时,早期的支小宝无法很好地回答。再加上金融行业的知识点并非静态存在,如果纯靠人工专家产出知识库,其生产效率和时效性都不能满足业务的需求。

在这样的业务痛点之下,支小宝技术团队通过机器阅读理解技术,在给模型投喂大量文章和用户实时性问题的同时,训练其提出相应的答案,交给专家审核,在大大提升效率的同时,线上用户也感觉到了支小宝变聪明了。

相比于同类型技术,除了上文提到的机器阅读本身难题的创新解法,支小宝技术团队还在人机协同方面有显著的创新成果。通过利用算法挖掘用户和理财师的“人人对话”场景,可以自动生成“人机对话”的剧本,把人人对话场景的经验移植到人机场景之下,使得机器人也可以承接更多人人对话的需求,扩大了应用范围。

陆鑫表示,目前支小宝的技术团队规模在30人左右,其中有一半是算法的同学,除了NLP、对话理解等重点方向,其他头部的算法支小宝团队都会有参与并产出相关论文。团队此前的公司和学历背景方面,可以说远高于业界的一些技术团队综合水平,其中清北学历、海外高校背景比比皆是,博士比例占到30%,985硕士占比在95%以上。

也正是这样一对热爱学习、热爱技术的团队,才做出了这样受用户喜爱、受权威榜单认可的成绩。

未来:与业务深度耦合,开放迎接更多挑战

目前机器阅读理解技术在支小宝业务场景中得到了广泛的应用,其已经产出了一万多个知识点,覆盖了超过300个产品,用户的直观感受就是支小宝变聪明了,也实现了支小宝团队对用户“有问必答,有答必对”的价值。

董扬表示,从数据上看,在对话结构学习方面,支小宝技术团队发表了相关论文,挖掘了几十个对话剧本,在人机对话里提升了服务半径,点击率提升了30%左右;在个性化、可解释的推荐理由方面,对比普通的推荐点击率提升在50%左右;从用户体验上看,用户对回答的准确性满意度持续提升,在主动服务、推荐上的点击转化率也有所提升,真正给用户带来了金融服务的价值。

陆鑫补充道,该项技术也运用到了理财师的领域上,用机器的方式帮助理财师解决掉了重复的问答,大幅提升了理财师的工作效率。目前有大概20%左右的用户问题用到了相应的技术去辅助理财师迅速地回答用户提问。

当前,机器阅读已经在往多轮对话场景、跨文档答案获取、更复杂的推理几个方面发展,也有相应的 QUAC、CoQA、DROP、HotpotQA 等相应的数据集合比赛。在技术上,支小宝技术团队的规划:

  • 一方面,继续发展机器阅读里沉淀的语义推理、数值推理、常识推理等推理能力,并结合多轮对话 context 增强 query 的表征,进行进一步的在线深层语义理解,这个工作目前已经在开展,并且取得一些进展。
  • 另一方面,支小宝也在建设更大规模的低资源跨文档的机器阅读和知识提取能力,打破常规的机器阅读模型在实际业务落地过程中对数据集的大小限制,在业务中发挥更大的作用。

陆鑫表示,今年会让支小宝进入更多的用户服务场景及决策路径里,及时地为用户提供理财服务。与此同时,支小宝将把这些技术能力开放给机构,用目前的技术成果和先进模型帮助机构给用户提供相应服务。这本身也对支小宝技术提出了新的挑战,也将倒逼支小宝技术团队持续打磨内功,迎接更多更复杂的业务场景和规模化的挑战。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

过期一天就绝对不能碰的10种危险食物,第一名你可能经常舍不得扔

娱乐的硬糖吖
2026-06-24 17:00:21
美机构预估委内瑞拉强震遇难人数在1万至10万;当地中国公民发声:当时地面剧烈晃动,非常恐怖,有12层居民楼倒塌;现场画面曝光

美机构预估委内瑞拉强震遇难人数在1万至10万;当地中国公民发声:当时地面剧烈晃动,非常恐怖,有12层居民楼倒塌;现场画面曝光

极目新闻
2026-06-25 11:09:12
韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

韩红被质疑“走到哪,哪就是她的老家”,央媒报道显示,其生于西藏昌都,两岁时前往成都,后定居北京,祖籍山东德州,并非在西藏长大

大风新闻
2026-06-25 14:15:08
陕西男子24.4万彩礼娶妻,领证25天新娘撒谎回娘家,转身去安徽找男友;女子获刑七年半,男方仅追回5.8万

陕西男子24.4万彩礼娶妻,领证25天新娘撒谎回娘家,转身去安徽找男友;女子获刑七年半,男方仅追回5.8万

大风新闻
2026-06-25 17:57:06
委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

委内瑞拉全国华侨华人联合总会主席:据信已有约10名华人被困,一名13岁女孩遇难

红星新闻
2026-06-25 14:33:27
一个重卡司机换电车的纠结与烦恼

一个重卡司机换电车的纠结与烦恼

经济观察报
2026-06-25 17:26:16
981天,146场缺阵:内马尔14分钟告诉世界,什么叫“迟到的英雄”

981天,146场缺阵:内马尔14分钟告诉世界,什么叫“迟到的英雄”

新姐看世界
2026-06-25 15:41:55
佛得角门将战靴产自中国莆田,代工厂负责人:世界杯前国外客户下的紧急订单,海外售价约1500至1700元人民币,暂未在国内销售

佛得角门将战靴产自中国莆田,代工厂负责人:世界杯前国外客户下的紧急订单,海外售价约1500至1700元人民币,暂未在国内销售

大象新闻
2026-06-25 17:57:03
高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

高考最难省份诞生!家长欲哭无泪:高考600分,却连一本都上不了

凯旋学长
2026-06-25 17:18:12
“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

“走个面”再升级!网友深扒:半只脚踏入美国的人,教我们抓特务

火山詩话
2026-06-25 05:08:44
博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

博主怒批《抓特务》:整个电影都是私货堆起来的,怎么过审的?

小徐讲八卦
2026-06-25 16:41:12
韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

韩红「走个热面」,《抓特务》更冷:那个装腔作势的「京圈」,终于没人拜了……

家传编辑部
2026-06-25 10:00:51
广德车祸事件进展:知情人称3岁男孩“脑死亡”,36岁女司机曝光

广德车祸事件进展:知情人称3岁男孩“脑死亡”,36岁女司机曝光

老猫观点
2026-06-24 17:12:27
官方发布!四川省2026年普通高等学校艺术体育类招生录取控制分数线

官方发布!四川省2026年普通高等学校艺术体育类招生录取控制分数线

四川省教育厅
2026-06-25 19:42:58
消费实在太惨了,人都麻了

消费实在太惨了,人都麻了

七叔东山再起
2026-06-24 23:32:48
快讯!俄罗斯唯一的氦气厂没了!

快讯!俄罗斯唯一的氦气厂没了!

故事终将光明磊落
2026-06-25 08:42:24
大疆定义了 Pocket,而 Pocket 4P 定义了「口袋电影机」

大疆定义了 Pocket,而 Pocket 4P 定义了「口袋电影机」

爱范儿
2026-06-25 18:00:41
悲催!57岁领导突发脑梗离世,办公室被清空翻新,仿佛他从未出现

悲催!57岁领导突发脑梗离世,办公室被清空翻新,仿佛他从未出现

火山詩话
2026-06-25 07:53:57
莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

莫斯科遇袭四天,俄军彻底被激怒:大桥炸断,战争拐点真的来了?

音乐时光的娱乐
2026-06-25 12:13:37
又有纸尿裤送检后被检测出甲酰胺,涉及Babycare品牌,检测机构还在部分婴幼儿血液、尿液中检出该物质;检测机构:有一份正在复测

又有纸尿裤送检后被检测出甲酰胺,涉及Babycare品牌,检测机构还在部分婴幼儿血液、尿液中检出该物质;检测机构:有一份正在复测

大象新闻
2026-06-25 19:09:57
2026-06-25 20:40:49
蚂蚁金服科技
蚂蚁金服科技
蚂蚁金服官方技术账号
48文章数 126关注度
往期回顾 全部

科技要闻

宇树机器人大降价

头条要闻

"美如家"被"如家"起诉侵权并索赔10万 酒店经营者发声

头条要闻

"美如家"被"如家"起诉侵权并索赔10万 酒店经营者发声

体育要闻

世界杯最动人一吻:我若离世 你就改嫁吧

娱乐要闻

这国产剧太装了,居然还热播第一?

财经要闻

又有纸尿裤送检后被检测出甲酰胺!

汽车要闻

东风奕派纳米06智趣版上市 指导价9.99万元起

态度原创

教育
健康
家居
数码
公开课

教育要闻

【资讯】南方教研大讲堂二次教研活动暨“莞邑教研大讲堂”第7场(小学劳动专场)活动举办

医生如何快速诊断脑梗和脑出血?

家居要闻

绿意盎然 自然之境

数码要闻

酷比魔方iPlay 70 Max Pro将上市 13英寸2.5K屏+国产芯片

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版