网易首页 > 网易号 > 正文 申请入驻

实战 | ​​人工智能在非结构化数据场景中的科技赋能

0
分享至

文 / 交通银行软件开发中心 秦唐臻

加快数字化发展,建设数字中国是《十四五规划纲要》中的重要纲领。人工智能也是科技创新板块纲要的重中之重。人工智能与数字化相互碰撞的火花,为金融科技催生出新的力量。交通银行为加快落实数字化转型的战略,借力AI人工智能平台,搭建了行内外专家投研交流平台,促进集团内部优质的投研资源的共享,用研究推动业务、创造价值——智慧投研,并通过构建标准化的AI服务模块和通用组件,为后续应用智能化改造,提供新的解决方案与参考。

非结构化数据背景及价值

IDC曾经做过预测,在2025年,全球的数据圈将达到175ZB,而在整个扩张中,增速最快的中国将增长至48.6ZB,以27.8%的占比领跑全球。在这些数据中,结构化数据仅占20%,剩余的80%都是非结构化和半结构化数据,并且这些数据还以60%的增速每年递增。

非结构化数据的价值主要体现在以下三方面。数据量大:在大部分银行中,非结构化数据已经占到信息总量的80%甚至更高。产生数据快:随着数字化转型的战略实施,可以预见的,将会有越来越多的非结构化数据产生。数据来源丰富:没有限定结构形式,表示灵活,蕴含了非常丰富的信息内容。

同时,非结构化数据也有许多无法规避的缺点。技术难度大:我行现有成熟的分析、挖掘技术体系,主要针对结构化数据,而非结构化数据却由于结构多变,无法充分利用。较高的存储要求:非结构化数据由于种类多样,因此他们的存储并不统一,并且由于增长速度快,数量巨大,对存储、治理都有着很高的要求。应用难度大:非结构化数据纷繁复杂、包罗万象,如何聚焦不同的业务场景进行挖掘,是其在应用层面的一大难点。

人工智能在非结构化数据中的应用背景

在传统投研平台中,管理员每日都会维护添加定量的研究报告与研究活动。而我们的用户群体中,包含不少的客户经理、投资经理这样的决策者。我们的研报具有高度的专业性、实时性,是这些用户决策的重要参考来源。

为了使报告便于管理和用户筛选,普遍做法是利用结构化数据信息,人工对这些报告和活动进行归类和总结,用户也通过这些归类来进行筛选。这种方法有效的前提是报告与活动的内容高度同质化,并能够精确归类。但是在实际应用中,我们发现报告内容往往是宏观且抽象的,叙事的中心内容总是不尽相同。如果只是强行对应到某些固定的分类中,效果往往是差强人意,不但造成了对管理员人工资源的进一步占用,也导致用户总是无法根据现有的筛选机制获取想要的信息内容。

针对此种问题,利用NLP(自然语言处理)手段构建关键词模型,能够更好地解决传统人工归类无法解决的痛点。自然语言处理是人工智能技术中重要的研究领域,该技术在多个行业被用以处理非结构化的文本数据。在金融业的应用包括:证券投资,自然语言处理可以运用热点挖掘、舆情分析和事件驱动分析等模型来做决策辅助。智慧风控,自然语言处理可以帮助构建用户画像,引入更多特征加入至监测模型。智能客服,自然语言处理是自动问答系统的关键技术。

智慧投研通过NLP算法,对研报、活动文本进行语义分析,并结合机器学习算法,完美的解决了上述的问题。一方面避免了大量人力参与归类的过程,节约了人力成本,解决了新类别研报活动产生后无法套用现有归类类别的困扰;另一方面用户也能通过NLP算法更为精准的搜寻锚准想要阅读的研报内容。

人工智能+非结构数据处理落地技术及方案

1.NLP算法文本提取。非结构化数据中,文本的占比比重无疑是最多的。传统的文本处理往往需要非常高昂的人工成本,而通过NLP算法的文本提取,便能很好地解决这个问题。提取主要分为两种:抽取式和生成式(见图1)。

图1 NLP算法文本提取的两种方式对比

抽取式:抽取式是一种根据算法,直接从原文中选择几条重要句子,并将它们重组成摘要的方法,特点是技术成熟,语法通顺,适用度高。

生成式:生成式主要通过计算机阅读原文后,在理解内容的基础上,用自己的话重新组织生成一段语言。特点是难度较大,需要深度学习,但生成的摘要更加通顺。

根据投研平台的应用特点,我选用抽取式作为关键词、句的提取技术。

本文对文本挖掘技术的梳理是基于数据挖掘的视角,数据挖掘的流程包括预处理、特征工程、算法建模、模型验证等;而爬虫采集抓取文本、自然语言处理NLP、搭建知识图谱等技术不在本文研究的范围内。

2.NPL文本预处理。对于银行来说,大量的客户和交易信息都是结构化存储的,因此非结构化的文本数据在分析时也需要与这些结构化数据关联在一起,结构化数据可以对文本打上各种标签(见图2)。

图2 NPL对文本进行标签化处理

中文文本和英文文本最大的区别就在于需要分词,分词技术分为基于词典、基于统计、基于理解三大类。基于理解的技术属于NLP,还处在研究阶段,应用较少。目前比较主流的是基于词典的技术,同时使用基于统计的技术为辅助(见图3)。

图3 NLP对文本的分词处理

应用赋能:智慧投研落地展示

针对智慧投研的场景,我们根据展示区和搜索区两个区域提出了基于人工智能的优化算法。

展示区往往会呈现研究报告的简介与基本信息,例如研报名称、作者名称、内容简介等,如果缺乏这些信息,将会使用户花费较多时间筛选。因此,用高效的语言、简洁的词组对研报进行归纳提炼,一种非常友好、高效的形式。本文提出关键词生成算法来获取研报的关键词、摘要,从而帮助用户进行快速筛选。

搜索区的优化是考虑到用户进行研报搜索时,如果仅根据输入的专业词汇进行严格搜索,很有可能导致研报数量少或者过滤掉具有相似信息的报告。因此本文提出同义词衍生算法应用于搜索阶段,将原有搜索词与其同义词同时搜索并进行优先级排序。这样既保证最初搜索词的内容可以被搜到,也能以此丰富搜索内容。

同义词衍生算法除了能够优化搜索结果以外,还能联结行内其他衍生信息,比如外部舆情、行内指标、宏观数据。对决策层用户来说,更多关联的数据、数据间更充分的关联关系、更多的决策参考视角,可以使他们做决策时规避更多的风险。

除此以外,通过NLP对非结构化数据的整合,关联至结构化数据,以标签的形式对研报内容、活动内容进行梳理与归类,实现程序化、模块化的管理与应用。

总结及展望

AI与非结构化数据究竟能碰撞出怎样的火花,是我们需要努力研究探索的。对银行非结构化数据而言,智慧投研的数据只是沧海一粟,我们应当在构建整合的同时,提升数据分析和应用的深度与广度。企业利用非结构化数据,对内可以优化业务流程节约人力成本,对外可以优化用户体验,洞察用户痛点。面对数字化转型的大潮,利用AI挖掘非结构化数据,无疑能提供巨大的动能并创造巨大的价值。

(栏目编辑:韩维蜜)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
上海已婚少妇“脚踏四只船”,出轨全过程曝光,传疯了!

上海已婚少妇“脚踏四只船”,出轨全过程曝光,传疯了!

拾点先生
2024-06-17 20:14:40
南京的股民瞬间0.001一股接到了70多万股 瞬间赚到了50多万

南京的股民瞬间0.001一股接到了70多万股 瞬间赚到了50多万

风风顺顺
2024-06-17 17:16:38
处罚俞莉博士的医学院,膝盖跪肿了

处罚俞莉博士的医学院,膝盖跪肿了

宾语观世
2024-06-17 10:38:39
想不通,俞老师救患者迟到被罚,又被停诊,院方:她不救自有人救

想不通,俞老师救患者迟到被罚,又被停诊,院方:她不救自有人救

教育琳
2024-06-17 17:11:33
上雷霆手段:中国海警登菲船!菲媒沉默一整天,仍持续失联中

上雷霆手段:中国海警登菲船!菲媒沉默一整天,仍持续失联中

笔墨V
2024-06-17 21:14:30
烧光百亿,离奇破产!顶级天才,让广东损失惨重

烧光百亿,离奇破产!顶级天才,让广东损失惨重

金错刀
2024-06-16 15:47:42
国足加速归化脚步!6位归化齐首发,阵容强度不亚于日本韩国

国足加速归化脚步!6位归化齐首发,阵容强度不亚于日本韩国

十点体坛
2024-06-17 15:48:48
龚翔宇回应比赛中哭泣!赛后独自离开,没有与队友庆祝胜利

龚翔宇回应比赛中哭泣!赛后独自离开,没有与队友庆祝胜利

体育哲人
2024-06-17 18:15:09
7分29秒视频疑似曝光翰林府女销售和男业主发生的瓜,网友热议!

7分29秒视频疑似曝光翰林府女销售和男业主发生的瓜,网友热议!

新动察plus
2024-06-17 16:15:33
果然,二手房开始失控了!

果然,二手房开始失控了!

翔哥说地产
2024-06-17 13:03:59
讲个敏感的,大家都没钱了…

讲个敏感的,大家都没钱了…

邓姐姐的美好生活提案
2024-06-17 19:09:09
卡里乌斯附体!乌克兰门将单场2巨大失误,离开皇马不会踢球了!

卡里乌斯附体!乌克兰门将单场2巨大失误,离开皇马不会踢球了!

风过乡
2024-06-17 22:32:39
为何欧洲杯变成了鸡肋?各大平台都不关注,原因让人惊讶

为何欧洲杯变成了鸡肋?各大平台都不关注,原因让人惊讶

低调看天下
2024-06-17 12:55:23
专家:对俄战争已然失败

专家:对俄战争已然失败

俄罗斯卫星通讯社
2024-01-22 15:13:11
一查就停产,很多大老板开始失眠了

一查就停产,很多大老板开始失眠了

大猫财经Pro
2024-06-17 18:00:38
江苏涟水数学天才女生涉嫌造假

江苏涟水数学天才女生涉嫌造假

张所长
2024-06-17 10:36:20
王思聪回应私生女事件,网友炸开了锅!

王思聪回应私生女事件,网友炸开了锅!

拾点先生
2024-06-15 19:00:02
私生子事件过后,王思聪与00后新女友高调秀恩爱,躺腿摸脸好悠闲

私生子事件过后,王思聪与00后新女友高调秀恩爱,躺腿摸脸好悠闲

橘子大娱社
2024-06-17 19:15:02
这工资打败了全国50%的人!

这工资打败了全国50%的人!

人情皆文史
2024-06-17 17:20:43
印度外交部发声明:不赞同瑞士乌克兰问题会议发表的任何公报,解决冲突需双方接触

印度外交部发声明:不赞同瑞士乌克兰问题会议发表的任何公报,解决冲突需双方接触

环球网资讯
2024-06-17 16:08:22
2024-06-17 23:28:49
金融电子化
金融电子化
中国金融信息科技类主导期刊。
1641文章数 457关注度
往期回顾 全部

科技要闻

为什么你的iPhone,肯定用不上"苹果AI"?

头条要闻

北约秘书长称正讨论将核武器置于待命状态 俄方回应

头条要闻

北约秘书长称正讨论将核武器置于待命状态 俄方回应

体育要闻

豪华阵容,原始战术 英格兰10亿天团就这?

娱乐要闻

上影节红毯:倪妮好松弛,娜扎吸睛

财经要闻

人均养老金上调3% 怎么年轻人吵翻了?

汽车要闻

传奇新篇章 全新一代大众迈腾来了

态度原创

数码
游戏
时尚
房产
艺术

数码要闻

ILOVBEE B87 客制化三模键盘知速轴开售,299 元

玩家抱怨没抢到《黑神话》实体版 呼吁多给些名额

永不过时的高级感,这个风格已经美了20年了

房产要闻

强!全国第三!海口房价正在止跌!

艺术要闻

穿越时空的艺术:《马可·波罗》AI沉浸影片探索人类文明

无障碍浏览 进入关怀版