网易首页 > 网易号 > 正文 申请入驻

AI与产品 NLP技术及其在百度APP中的应用

0
分享至

编辑导语:NLP的技术应用十分广泛,应用的场景也十分广泛。本篇文章作者分享了NLP的四大经典任务——文本分类、文本匹配、序列标注和文本生成,介绍了这几个任务以及相关的业务,感兴趣的一起来看看吧。

百度文心(ERNIE)是大规模语义理解技术与平台,依托百度深度学习平台飞桨打造,集先进的预训练模型、全面的NLP算法集、端到端开发套件和平台化服务于一体,提供一站式NLP开发与服务,让开发者更简单、高效地定制企业级文本模型。

通过百度文心的NLP技术,现在的百度APP不仅是搜索引擎,还有各种生活化服务以及智能应用场景。

一、NLP及其任务介绍

要走进百度,我们先来了解一下NLP是什么?

NLP是Natural Language Processing的缩写,中文意思是自然语言处理,是人工智能和语言学领域的分支学科。

此领域探讨如何处理及运用自然语言;自然语言处理包括多方面和步骤,基本有认知、理解、生成等部分。

通俗点理解,NLP就是让机器理解自然语言(人类的文字),然后让机器处理,并进行运用。

NLP应用非常广泛,例如搜索引擎,机器翻译,各种输入法如搜狗、微软、谷歌等以及带有语音识别的计算机和手机。

NLP有四大经典任务,文本分类、文本匹配、序列标注和文本生成。接下来我来为您一一介绍这几个任务及其相关应用:

1. 文本分类

文本分类是指用计算机对文本(或其他实体)按照一定的分类体系或标准进行自动分类标记。为了方便理解,我们用下面的方式介绍:

  • 输入用文本X表示,输出标签用Y表示
  • 如果Y表示X属于某一个类别的概率,或者一组类别的概率分布,则可抽象成文本分类问题。

如上图是文本分类的几种应用案例。文本分类可以分为单标签分类、多标签分类和句对分类。

在情感分析的例子里,我们要判断一句话是消极的还是积极的,比如评价一个房子“房间太小,其他的都一般”,它要么属于消极要么属于积极,是一种二分类,也叫单标签分类。

还有一类问题是新闻主题分类,比如说“中美元首就经贸关系通话“,这个新闻标题同时属于时政、国际和财经三个类别,这三个类别是相互独立的,可以同时出现,所以是多标签分类。

还有一类是文本蕴含,它输入的不是一段文本而是两段文本,要判断两段文本之间是否存在逻辑上的包含关系,是相关关系、对立关系还是说中立的,没有任何关系。比如”大家觉得她好看吗“和”大家觉得跑男好看吗“这两句话就是中立的,没有任何关系。

2. 文本匹配

  • 输入文本用X表示,输出标签用Y表示
  • 如果X是两段文本(X1,X2), Y表示二者的相似度,则可抽象为文本匹配问题。

如图两句话“喜欢打篮球的男生喜欢什么样的女生”和“爱打篮球的男生喜欢什么样的女生”这两句话基本意思是一样的,所以是相似的,标签Y为1。

若不相似,则为0。或者有一定的相似度,则在0-1之间打一个分。

文本聚类问题可以通过文本相似度问题进行处理。而相似度是两个文本之间语义层面距离的远近。

3. 序列标注

  • 输入文本用X表示,输出标签用Y表示;
  • 如果X是一段文本, Y是一段与X等长的文本, 且X与Y的每个字符一一对应,可抽象为序列标注问题。

序列标注的一个经典任务是命名实体识别。比如“海钓比赛地点在厦门与金门之间的海域”这句话,我们抽出两个实体,厦门和金门,这两个实体都是地址,我们就可以将其标注为地址,而其他词语标注为非地址,用O表示。

分词、词性标注、组块分析、语义角色标注、词槽挖掘都是典型的序列标注任务。

相信大家都做过阅读理解,阅读理解其实就可以理解为特殊的序列标注,X是2段文本(X1,X2),分别表示正文篇章和问题,Y是篇章中的一小段文本,表示对应问题的答案。

4. 文本生成

  • 输入文本用X表示,输出标签用Y表示;
  • 如果X是一段文本,Y是一段不定长的文本,则可抽象为文本生成问题。

最典型的文本生成问题是机器翻译。如图例,我输入的是一段英文,输出的是一段其他语言的文字,这两段文字的语言和词可能不是那么一一对应的,可能原语句宾语在前谓语在后,后面那段目标语句可能是宾语在后谓语在前。

文本摘要、标题生成、闲聊等都是典型的文本生成任务。

二、NLP应用

NLP典型应用场景有新闻咨询推荐、商品评价分析、智能客服对话、社交言论分析、金融风险洞察等,业务的需求千差万别,所以场景的需求都是定制化的需求。

企业级NLP应用要着重考虑三个指标,效率、效果和效能。

  • 第一是效率,效率指的是开发的效率,如人力成本、时间成本等,人效要越高越好。
  • 第二是模型的效果,这是定制化需求里最关注的指标,有时候甚至会不计成本一定要拿到最好的效果,因为有时候模型效果高一两个点就可能对公司或者集团带来巨大的收益。这样就需要进行高精度标注数据以及专家级的经验。
  • 第三是效能,这是一个更加宏观的点,它关注的是应用部署上的灵活,应用为整体业务带来的价值。它关注的是从产品和用户的角度来说带来的收益。
三、百度文心(ERNIE)

ERNIE是百度开创性提出的基于知识增强的持续学习语义理解框架,该框架将大数据预训练与多源丰富知识相结合,通过持续学习技术,不断吸收海量文本数据中词汇、结构、语义等方面的知识,实现模型效果不断进化。

ERNIE在情感分析、文本匹配、自然语言推理、词法分析、阅读理解、智能问答等16个公开数据集上全面显著超越世界领先技术,在国际权威的通用语言理解评估基准GLUE上,得分首次突破90分,获得全球第一。

1. ERNIRE2.0(持续学习语义理解框架)

ERNIRE2.0是基于持续学习的语义理解预训练框架,使用多任务学习增量式构建预训练任务。在ERNIE2.0中,新构建的预训练任务类型可以无缝的加入训练框架,持续的进行语义理解学习。 通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务,ERNIE 2.0 语义理解预训练模型从训练数据中获取了词法、句法、语义等多个维度的自然语言信息,极大地增强了通用语义表示能力。

ERNIE2.0的优点就在于持续学习,不断的基于海量的数据以及先验的知识集成到ERNIE模型中,不断的在不同任务中训练来提升模型的效果,而且还不会忘记。

在多任务学习或者持续学习中,模型特别容易发生灾难性遗忘。在一个场景下训练好了模型,在另一个模型下效果可能就不好了。甚至本来原来场景下效果比较好的模型,在新的场景下训练后,再去之前的场景下得到的效果是灾难性下降的。所以就需要多任务学习、持续性学习,使得模型有非常好的泛化能力和通用效果。

2. ERNIE 3.0 (基于知识增强的多范式统一预训练框架)

ERNIE3.0是基于知识增强的多范式统一预训练框架。

在 ERNIE 3.0 中,自回归和自编码网络被创新型地融合在一起进行预训练,其中自编码网络采用 ERNIE 2.0 的多任务学习增量式构建预训练任务,持续的进行语义理解学习。

通过新增的实体预测、句子因果关系判断、文章句子结构重建等语义任务。

同时,自编码网络创新性地增加了知识增强的预训练任务。自回归网络基于 Tranformer-XL 结构,支持长文本语言模型建模。

多范式的统一预训练模式使得 ERNIE 3.0 能够在理解任务、生成任务和零样本学习任务上获取 SOTA 的表现。

ERNIE2.0的优点就在于基于同一个网络进行多种自然语言处理学习范式的统一学习,以及加入了大规模知识图谱类数据。

四、百度文心NLP技术在百度APP中的应用

百度文心NLP大模型体系涵盖基础大模型、任务大模型和行业大模型。

百度文心的基础大模型,包括词向量、句子理解、文章理解这些基础技术,另外还提供多模态、多语言、图理解的拓展技术。

第二类是任务大模型,如文本匹配场景、文本生成场景等,这些是跟任务跟应用相关的预训练模型。

第三类是行业大模型,包括ERNIE健康、ERNIE金融等等。

在预训练模型探索好之后,文心会有一些轻量化技术帮助进行模型压缩、结构化搜索和模型蒸馏。使得原来非常大的、非常重的模型变成轻量级模型,从而更好的应用于生产实践。

使用百度文心NLP技术可以为产品赋能。比如百度的搜索引擎,新闻咨询推荐,人工智能客服,以及百度健康,百度律师等等都用到了百度文心的NLP技术。

1. 百度搜索引擎

今天的用户完全可以直接输入任何想到的需求或者问题,甚至直接通过话筒向百度语音助手提问。

譬如用户可以搜“天气”、“日历”、“机票”、“汇率”这样的模糊需求,百度会直接在搜索结果呈现结果。

2. 百度新闻

通过文本分类技术,可以将新闻进行分类显示;通过新闻摘要技术,可以准确的为针对待发布的新闻进行摘要,从而提高传统人工提炼摘要的效率。

3. 百度问答

当我们在百度中搜索“花生发芽了还能吃吗”,得到的答案已不再是互联网上五花八门的原始网页答案,而是让人一目了然的汇总式答案摘要。

除了这样的“一问一答”,用户还可以与百度对话,问它一个又一个问题,NLP最终可以让用户使用自然语言进行搜索,并且采用多轮交互的方式来逐步澄清和满足需求,从而完成深度决策型的搜索任务。

4. 百度健康

依托百度文心 ERNIE 先进的知识增强预训练语言模型打造,通过医疗知识增强技术进一步学习海量的医疗数据,精准地掌握了专业的医学知识。

同时,通过医疗问答匹配任务学习病患病状描述与医生专业治疗方案的对应关系,获得医疗实体知识之间的内在联系。

实现智能诊疗对话模型,智能分析预诊导诊,通过AI学习构建适合临床辅助诊断的体验流程,深度将筛查、自测、诊断等多环节嵌入到诊疗流程中,自然、及时、流畅的应答患者提问,极大的提升了诊疗效率。

五、小结

技术是百度的基因,技术和数据积累形成的用户、产品和品牌优势是百度的护城河。

NLP则是百度技术的基石,它赋予了百度技术“智能化”的基因,在过去智能化的搜索让百度越来越好用为其在中文搜索市场奠定了王者地位。

在未来智能化连接用户与服务成为百度与阿里腾讯等巨头最大的区隔时,NLP技术只会更加重要。

因此毫不夸张地说,NLP就是百度的技术基石。

本文由 @灼华一品 原创发布于人人都是产品经理。未经许可,禁止转载。

题图来自 Unsplash,基于 CC0 协议。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
亚运会游泳男子接力,中国队有望包揽金牌,整体实力领先日韩太多

亚运会游泳男子接力,中国队有望包揽金牌,整体实力领先日韩太多

体娱一家亲
2026-06-23 22:21:27
不是杨瀚森王俊杰!荷兰主帅盛赞中国1小将,未来当核心使用

不是杨瀚森王俊杰!荷兰主帅盛赞中国1小将,未来当核心使用

老吴说体育
2026-06-24 00:07:26
首登世一不到一周 国乒小将接连掀翻队友 日媒连夜发文警醒张本美

首登世一不到一周 国乒小将接连掀翻队友 日媒连夜发文警醒张本美

锅锅爱历史
2026-06-23 23:39:44
2场热身结束12人名单有眉目了!后卫5人,内线3人够用,另3人备选

2场热身结束12人名单有眉目了!后卫5人,内线3人够用,另3人备选

篮球资讯达人
2026-06-23 22:28:49
1953年,西南女匪首被押赴刑场,公审后,毛主席提议,留下她

1953年,西南女匪首被押赴刑场,公审后,毛主席提议,留下她

莫地方
2026-06-24 00:15:04
男篮有趣一幕!杨瀚森徐昕畅聊,两人互相谦让先行,场上有望互补

男篮有趣一幕!杨瀚森徐昕畅聊,两人互相谦让先行,场上有望互补

篮球资讯达人
2026-06-24 00:05:02
快讯!关于郑丽文的消息!

快讯!关于郑丽文的消息!

故事终将光明磊落
2026-06-23 10:11:44
法国美女部长登成人杂志,身材丰满拍火辣写真,还喜欢写成人小说

法国美女部长登成人杂志,身材丰满拍火辣写真,还喜欢写成人小说

闻识
2026-06-18 01:10:46
一个洗盘信号来了!周三,A股走势分析

一个洗盘信号来了!周三,A股走势分析

郭小凡财经
2026-06-23 17:45:59
雄鹿送走字母哥换回希罗+3首轮 热火16年后再迎超巨

雄鹿送走字母哥换回希罗+3首轮 热火16年后再迎超巨

温柔且自由
2026-06-24 01:28:41
世界“最缺男人”国家:美女如云,却一夫难求,男人真正的天堂?

世界“最缺男人”国家:美女如云,却一夫难求,男人真正的天堂?

抽象派大师
2026-05-22 16:38:25
两车发生碰撞起火,车上3人死亡!

两车发生碰撞起火,车上3人死亡!

应急360
2026-06-23 15:11:14
央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

央企“最牛女副处长”落马:两年与上司开房410次,细节曝光

西门老爹
2025-12-16 15:35:31
李若彤参观驻港部队,换上军装端起枪,这身板绝了

李若彤参观驻港部队,换上军装端起枪,这身板绝了

落雪听梅a
2026-06-21 14:21:41
立陶宛总理鲁吉尼埃内宣布辞职 该国将启动新内阁组建程序

立陶宛总理鲁吉尼埃内宣布辞职 该国将启动新内阁组建程序

吉刻新闻
2026-06-23 22:26:29
国务院今日下午召开重要发布会,释放多重民生经济利好!

国务院今日下午召开重要发布会,释放多重民生经济利好!

时尚的弄潮
2026-06-23 04:21:09
40岁“李小萌”太丰满了,穿背心+阔腿裤又欲又纯,蜜桃身材绝顶

40岁“李小萌”太丰满了,穿背心+阔腿裤又欲又纯,蜜桃身材绝顶

蓓小西
2026-06-21 10:06:23
别不信!普通人已经高攀不起央国企劳务派遣,根本不是以前临时工

别不信!普通人已经高攀不起央国企劳务派遣,根本不是以前临时工

细说职场
2026-06-20 15:17:24
移动针对长期不换号老用户推出四项优待,网龄时长可升级星级权益

移动针对长期不换号老用户推出四项优待,网龄时长可升级星级权益

复转这些年
2026-06-22 15:37:42
物理学家何祚庥:中国的优秀科学家,都是美国的科学土壤长出来的

物理学家何祚庥:中国的优秀科学家,都是美国的科学土壤长出来的

宋诉搞笑配音
2026-06-22 18:07:01
2026-06-24 05:08:49
人人都是产品经理社区 incentive-icons
人人都是产品经理社区
想要成为大牛先从学做产品开始
64833文章数 311632关注度
往期回顾 全部

科技要闻

48名中国开发者联名举报苹果

头条要闻

葡萄牙5-0乌兹别克斯坦 C罗梅开二度

头条要闻

葡萄牙5-0乌兹别克斯坦 C罗梅开二度

体育要闻

扬尼斯去了迈阿密:凯尔特人怎么办?

娱乐要闻

内娱95后顶流格局发生潜移默化的变化

财经要闻

AI“算力稀缺”信仰开始动摇?

汽车要闻

施鹏泽:为什么奥迪E7X强调座舱气味安全?

态度原创

数码
教育
时尚
旅游
本地

数码要闻

AOC发布AGON PRO AGP277QKDC双模游戏显示器

教育要闻

出分在即!这件事没做对,艺考分再高也白搭 用对工具,志愿填报少走90%弯路

被40万人追更的火焰魔术师,重塑古老灯工玻璃

旅游要闻

端午假期忻州市累计接待游客98.29万人次,同比增长10.31%

本地新闻

吃一次广东龙舟饭,才懂什么是豪华盛宴

无障碍浏览 进入关怀版