网易首页 > 网易号 > 正文 申请入驻

专访庖丁科技罗平:做一把锋利的刀,切入投研市场

0
分享至

正如公司的名字一样,庖丁科技也是利用一把锋利的刀——基于自然语言处理与计算机视觉,实现金融文档结构化,从而切入金融市场。

中科院计算所副研究员兼博导、庖丁科技首席科学家罗平对雷锋网AI金融评论表示,作为一种应用科学,计算机在研究和应用阶段的目标和工作方式存在差异。“相较而言,实际应用可能会耗费更多的人力和工程量。若划分个百分比,前期研究是20%,应用产品化是80%。”而他一贯秉持着从实际需求中挖掘研究内容。

一方面是监管机构对金融文档有着真实、准确、完整要求,另一方面则是金融从业者面临着繁杂的文档数据处理、审核等困境。针对于此,庖丁科技专注于核心技术金融文档结构化的研究与工程化。简单而言,金融文档结构化就是提取出金融文档中的核心信息,转化为可供计算机搜索、比对、分析的结构化数据。而关键信息一般藏在两个地方:一是大量的表格,二是自然语言段落。

在去年7月雷锋网承办的第二届CCF-GAIR全球人工智能与机器人峰会上,罗平曾为观众展示了庖丁科技早期的产品——AutoDoc,主要能够复核金融文档表格及语言中的数字勾稽关系。

如下图所示,根据文档中的表格数据,机器可自动计算出“2016年主营收入较2015年下降的比例”应该为“12.43%”,但文字中的显示为“11.29%”。

当时,罗平还表示,出于教育市场的目的,他们预先发布了一版免费的AutoDoc软件,支持金融文档中数据勾稽关系的复核和笔误修改,复核重点是数字,后续将会增加自动撰写、智能分析,并增添人名、事件表述等复核功能。一年后,庖丁迭代了企业版本,据称目前已在券商内部测试使用。而那些后续功能将只在企业版本中提供。

除了AutoDoc企业版本的进展,他们还推出了一个新产品——PDFlux,将PDF电子文档转换成Excel表格。其中最关键的实现了无边框表格提取。据罗平介绍,企业财报中有一些出于美观考虑的无线框表格的存在,而一般使用pdf转化器后,表格数据会被打乱。通过预测表格的外框和内线,他们最终实现了数据提取。

北京银行年报无边框表格提取,210页大约用时7~8分钟

获得数据后即可直接拷贝到Excel或者word中使用。这项技术和产品的价值在哪儿呢?罗平表示,国内一些金融数据公司实质上就是卖数据的公司,从上深交所发布的报告中扒下数据,通过半自动化加人工的方式,提取报表数据。“可能需要好几百人,而录入一期财务报表至少需要3~5小时,而我们只需要几分钟。”

PDFlux也发布了一个免费版本,当前还未对速度进行优化。经雷锋网AI金融评论尝试,北京银行210页年报大约处理用时7~8分钟,杭州银行15页的2018一季度报只用了3分钟。

当然该产品并不包含图表的识别。罗平解释说,这是因为相较于表格,图表的的应用价值并不高。“在企业发布的业绩报告中,所有的关键信息都在表格中;而图表可能只有5%及以下,且理解难度也很高,从投入产出来看并不值当。”

据称,基于金融文档结构化技术,庖丁能够推出更多丰富的应用,比如合规、风控,甚至自动撰写。“坦率说,我们前期的主要工作都放在突破底层关键技术,建立技术壁垒;有了核心技术,我们会将精力转移到商业化产品端。 “

雷锋网AI金融评论还就公司与行业发展与罗平展开了更深入的对话:

雷锋网AI金融评论:庖丁的自我定位究竟是怎样的?曾有一家媒体将庖丁公司归类到智能投研,而在此之前也看到CEO接受采访时表示,庖丁对标美国大数据公司Palantir,也说“AI公司未来会是新的金融机构,未来庖丁科技要成为新的资产管理机构。”

罗平:我们是一家金融科技公司,智能投研只是该领域的一部分。另外,我们认为通过技术未来可以自然地转型成一个新型金融机构。换个角度,AutoDoc的目标是减少投行重复的投入,可能现在投行100个人,利用我们的工具后只需要10个人,也就是说相当于这个工具占到90%的工作量。那么从技术角度切入,未来延伸至业务层面,顺理成章。当然,还需要考虑到监管因素。

雷锋网AI金融评论:目前庖丁科技发布的产品实际为投研人员提供了便利。国内一些开发投研工具的公司已经不少,有推出企业知识图谱、金融搜索引擎等工具,相较起来庖丁科技的切入点更小更聚焦。

罗平:我明白你的意思,市场存在这样认知的从业者不在少数。但我想说的是,我们所做的金融文档结构化底层技术实际上都可以实现这些功能。这些工具说起来还是解决工程化的问题,并没有什么技术难度。

我们能够看到一些企业知识图谱展示,比如列出一家公司的前十大用户或者供应商名单。而事实上,后台数据库已经存储好了这些信息,相当于只是做了数据库查询,并把查询的内容可视化。

核心的技术门槛应该在如何实时的构建这样的数据库。也就是说,怎么知道这家公司的上下游公司在哪里?这些信息实际上都存在于披露的金融文档中,我们需要实时的抽取出来。这就需要自动化的表格理解和自然语言理解技术。

雷锋网AI金融评论:在没有自动化处理能力或者不成熟之前,同类公司如何为投资者提供足够多的数据?人工?

罗平:这就千差万别了。第一类是半自动化+人工实现的,比如万得。第二类则是通过不正当的手段直接获取结构化数据。

雷锋网AI金融评论:公司的商业化进展如何?在B端部署时数据如何处理?

罗平:除了C端试用产品,主要目标对象是国内券商等金融机构和监管单位。收费模式包括按次收费或者按软件收费。我们会到相关机构部署系统,数据也会存储在他们内部。

雷锋网AI金融评论:AutoDoc企业版本中有自动撰写功能,该工作的难点是什么?在此之前,我们确实有看到一些机器人自动撰写的简短的新闻。

罗平:大家不要对能够帮助投行从业者自动撰写的功能抱有太高的期望。比如一个IPO的招股书,我觉得自动撰写的比例会在50%以下,甚至更低。

我们首先需要明确撰写的内容,目前能够实现的是根据一张财务报表的数字进行自然语言描述,比如今年的指标,同比增长等,或者说可以叫做辅助撰写。

但如果出现一个异常增长率,一般监管都需要其作出解释。那么这个原因,不论是开拓的新业务或者是政策变化,机器是无法自动生成原因的,仍然需要人工撰写。

雷锋网AI金融评论:“庖丁科技未来的应用场景包括监管合规,目前的使用者上传了数万份金融市场信息报表。”怎么理解你们的作用,有什么实际应用吗?

罗平:监管有个最基本的需求就是复核年报或者IPO招股书的数据。另外,他们还希望对金融市场做到风控管理,也需要公司的底层财务和业务数据。金融文档结构化是一切后续应用的基础。实际上,我们已经与某发债监管单位签订了系统合约。

雷锋网AI金融评论:那么行业的竞争壁垒是在哪里?之前看到你接受采访时谈到在于“技术+金融数据理解。”

罗平:我觉得真正壁垒是如何获取金融数据,这是计算机的壁垒,是我们主要做的事情。获取的速度和精度,将体现出迥然不同的应用价值。

有了底层的金融数据,需要将金融以及行业知识融入计算机技术,这才是金融从业者发挥价值的广阔舞台。我们的策略是,先做计算机的事情;做好之后,金融的事情应该是一片蓝海。

雷锋网AI金融评论:近年来我们能看到许多新金融业态监管收严,比如智能投顾、网贷等,但你们所在的细分领域似乎并没有太多的监管压力。

罗平:我们所在的市场比较开放、健康。做监管科技,是为了稳定、管理金融市场。我觉得这块市场类似于传统的安防行业,用AI技术稳定金融市场,或者可以叫“金融安防市场。”

雷锋网AI金融评论:关于行业现状,你有感而发一句“鱼龙混杂”,这主要指什么问题?

罗平:鱼龙混杂主要指的是各公司的技术水平,含金量在于底下的数据来源,有些公司甚至会窃取他人数据。底层数据的来源也决定了是否能够真正构建“知识图谱”,一些所谓的AI公司充其量只是做了数据“展示”而已。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
《主角》原著:14岁被玷污,20岁闪婚生下低能儿,50岁被养女背刺

《主角》原著:14岁被玷污,20岁闪婚生下低能儿,50岁被养女背刺

慢半拍sir
2026-05-18 21:23:56
歼-35总师“道破天机”:中国的两款六代机,可能再一次出人意料

歼-35总师“道破天机”:中国的两款六代机,可能再一次出人意料

小莜读史
2026-05-30 21:37:09
大连一停车场发生火灾,多辆车被烧成空架,现场响起爆燃声,附近商户:应该是附近一家汽车商家所有

大连一停车场发生火灾,多辆车被烧成空架,现场响起爆燃声,附近商户:应该是附近一家汽车商家所有

大象新闻
2026-05-31 09:43:04
CBA场均仅2.9分之人屡进国家队!他真有潜力还是郭士强夹带私货?

CBA场均仅2.9分之人屡进国家队!他真有潜力还是郭士强夹带私货?

大嘴爵爷侃球
2026-05-31 12:10:16
我定居泰国15年,娶过3个妻子,发现泰国的女人都有一个共同特点

我定居泰国15年,娶过3个妻子,发现泰国的女人都有一个共同特点

千秋文化
2026-05-26 19:45:23
油价大跌超500元/吨,今年“最大油价下跌”后,6月4日油价再大降

油价大跌超500元/吨,今年“最大油价下跌”后,6月4日油价再大降

油价早知道
2026-05-30 00:57:42
突然,耿同学抖音被永久限流!

突然,耿同学抖音被永久限流!

化学人生
2026-05-30 20:10:25
穆帅支持皇马下赛季召回4750万欧元19岁8球8助1米73前锋

穆帅支持皇马下赛季召回4750万欧元19岁8球8助1米73前锋

福酱的小时光
2026-05-31 07:52:50
50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

50岁李小冉机场吃面,褪去滤镜才懂,普通人的衰老藏不住

庭小娱
2026-05-13 12:06:40
北极"尸体点"正在融化:数百年前的水手遗骨暴露于世

北极"尸体点"正在融化:数百年前的水手遗骨暴露于世

闪存猎手
2026-05-25 04:36:07
俄专家一针见血:中国若要对日本动手,中国只有两个选择!

俄专家一针见血:中国若要对日本动手,中国只有两个选择!

色彩斑斓的世界
2026-05-02 05:46:28
陈凯歌曾评价周迅:如果身高再多上10厘米,那么整个世界就是她的

陈凯歌曾评价周迅:如果身高再多上10厘米,那么整个世界就是她的

寒士之言本尊
2026-05-29 13:04:53
徐帆回应离婚才9个月,68岁冯小刚和养女贴脸拍照亲密 ,关系很好

徐帆回应离婚才9个月,68岁冯小刚和养女贴脸拍照亲密 ,关系很好

沧海一书客
2026-05-31 18:08:08
菲防长“装可怜”:中美会相互尊重,但我们太弱…

菲防长“装可怜”:中美会相互尊重,但我们太弱…

观察者网
2026-05-31 11:56:13
襄阳“割四赔五”后续:23家派出所出手,网红出面也无力扭转局面

襄阳“割四赔五”后续:23家派出所出手,网红出面也无力扭转局面

云舟史策
2026-05-31 10:09:43
北京今天有雷阵雨,局地伴7级阵风或冰雹!气象部门提醒:注意防范雷暴大风

北京今天有雷阵雨,局地伴7级阵风或冰雹!气象部门提醒:注意防范雷暴大风

环球网资讯
2026-05-31 10:05:16
榴莲仅退款遭死亡威胁!女孩哥哥扬言“灭门”,已刑事立案

榴莲仅退款遭死亡威胁!女孩哥哥扬言“灭门”,已刑事立案

椰青美食分享
2026-05-31 12:09:22
CBA最大疑云!可怕的不是白边突然消失,是官方解释彻底兜不住了

CBA最大疑云!可怕的不是白边突然消失,是官方解释彻底兜不住了

烟浔渺渺
2026-05-30 20:51:31
Lisa世界杯歌曲因低俗遭抵制,因歌词物化女性,导致粉丝都不敢洗

Lisa世界杯歌曲因低俗遭抵制,因歌词物化女性,导致粉丝都不敢洗

芊手若
2026-05-29 07:02:38
5月31日,人社部关于2026年调整基本养老金的通知正式公布了吗?

5月31日,人社部关于2026年调整基本养老金的通知正式公布了吗?

社保小达人
2026-05-31 09:53:53
2026-05-31 18:59:00
雷峰网 incentive-icons
雷峰网
关注智能与未来!
69529文章数 656137关注度
往期回顾 全部

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

头条要闻

香会上中方全英文发问菲律宾 菲防长语无伦次答非所问

体育要闻

阿森纳用最悲壮的方式,成就了巴黎王朝

娱乐要闻

朱军退休,正义虽迟但到,女方受惩

财经要闻

医学首席转岗搞科技,A股科技股遭遇巨震

科技要闻

戴尔诺基亚又回来了!AI重估老牌科技公司

汽车要闻

900V+3.2秒破百 领克10+&领克10上市16.99万元起

态度原创

艺术
本地
健康
教育
公开课

艺术要闻

16位欧美画家笔下的儿童肖像

本地新闻

用剪纸的方式,打开江苏扬州

尝试干细胞疗法如何避免踩坑?

教育要闻

2026高考志愿必看:新工科VS传统工科,选错赛道影响孩子一生!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版