蚂蚁金融大模型亮相为什么选择了两个“小”应用？|算法

蚂蚁金融大模型亮相为什么选择了两个“小”应用？

2023-09-12 09:18:07　来源: 中国经营报

北京举报

分享至

本报记者李晖上海报道

如何从一个只能做开放聊天的通用大模型，真正地变成能够解决行业复杂决策任务的专业大模型？这是当前各行业机构与技术专家都在加紧攻克的难题。

在刚刚结束的上海外滩大会上，蚂蚁集团成为又一家发布金融大模型的机构。与其他同业有所区别，蚂蚁在发布金融大模型（AntFinGLM)的同时重点推出了两个依托大模型的产品应用“支小宝2.0”与“支小助”——分别面向用户侧和机构侧提供辅助和生产工具。

为什么将大模型落脚在“小”应用上？蚂蚁集团副总裁王晓航在会后接受《中国经营报》等媒体记者采访时表示：“我们不卷云厂商。”他认为，蚂蚁的大模型更关注解决方案，关注帮金融机构解决关键问题，而不是裸模型的开放，这和很多做云厂商提供通用大模型是不同的商业模式。

小场景真问题

公开研究数据显示，目前国内参数在10亿规模以上的大模型数量已有116个，其中金融行业大模型约18个。

相比把大模型名字起得风生水起的同业，蚂蚁此次并没有单独为自己的金融大模型命名，而是将依托大模型的两个应用“支小宝2.0”“支小助”推到前台，一定程度显示其切入金融大模型赛道的特点——更关注应用层的改造效果。

在蚂蚁集团CTO何征宇看来：“大模型应该聚焦金融场景的真实需求，我们希望通过端到端的产品降低使用门槛，让有需求但可能不了解大模型的群体能够享受到技术红利。通过技术快速补给最终反馈到生产链条里。”

据记者了解，此次蚂蚁金融大模型采用了“大模型+知识+服务”驱动的架构。测试显示，其目前在“认知、生成、专业知识、专业逻辑、合规性”五大维度28类金融专属任务中表现突出，特别在“研判观点提取”“金融意图理解”“金融事件推理”等领域可以达到行业专家水平。

复旦大学教授、上海市数据科学重点实验室主任肖仰华认为，生成式大模型是整个人工智能新底座，它可以理解为海量的参数化数据的知识容器。但它在可控、编辑，在隐私防护，在可理解、可解释等很多方面也存在着较大的瓶颈。特别是在金融等专业领域，就非常需要符号化的知识图谱能力去互补。

据了解，此次基于金融大模型的两款应用分别面向C端和B端——智能金融助理“支小宝2.0”，以及面向金融行业专家的智能业务助手“支小助”。目前“支小宝2.0”已内测近半年，将在完成相关备案工作后上线，“支小助”正在与蚂蚁平台合作机构内测共建。

此前，业内的智能理财助理大多为“检索式AI”，因此在语意理解、金融问题分析回复和专业服务的提供上，存在诸多局限。而大模型的加入确实会对业务效率产生正向帮助。

以保险理赔场景为例，生成式、端到端训练多模态大模型的加入，大幅度提高了对复杂、非标医疗凭证提取的精度。“过去半年发生了技术领域很大的突破。以前对于这些复杂凭证的识别机器是比不上人的，但基于大模型的推理学习之后，理赔助手能做到比人更准确，和平均的核保专家1﹕1对比能做到更精确。”何征宇透露。

大模型的加入，实现了金融领域智能理财助理从“检索式AI”到“生成式AI”的跃升。据支小宝技术负责人陆鑫介绍，支小宝2.0的金融知识数据存储量达到百亿级，实测金融事件分析推理能力不逊于真人行业专家平均水平；有金融大模型充当“服务中枢”后，支小宝会调用数百个金融接口工具，还会在服务链路中预判用户需求和卡点，主动询问或提供服务。

而机构侧的实测数据显示，支小助每日可以辅助每位投研分析师高质量完成超过100篇研报和资讯的金融逻辑和观点提取，40多个金融事件的推理和归因，分析效率倍增。在“服务支小助”的辅助下，理财顾问和保险代理人的有效管户半径人均可扩大70%以上。

“金融大模型要解决产业的真命题。”在王晓航看来，通用大模型无法在专业严谨的领域直接商用，特别是金融服务对错误的容忍度很低，金融大模型要确保领域知识和专业逻辑的严谨性，才能真正落地带来产业价值。

大模型还需要“全面发展”

在王晓航看来，通用大模型缺少金融领域的专业力、知识力、语言力以及安全力，金融大模型实现落地行业是一个复杂化的系统工程，需要将“四力”形成合力。因此，蚂蚁金融大模型在蚂蚁基础大模型之上，需要针对金融产业进行深度定制。

从知识力的角度看，蚂蚁金融大模型在万亿量级Token的通用语料基础上，注入千亿量级Token金融知识，并从300+真实产业场景中提取了共60万+高质量指令数据，形成了金融专属任务性能优化的数据资产；专业力方面，基于平台上的数字化金融工具矩阵，大模型可通过理解用户语言，精准调用蚂蚁体系内的这些专业工具进行服务；针对内容生成的安全可控问题，大模型采用意图识别与事实性校验相结合，可以提高内容的真实、合规与安全。

从性能看，蚂蚁基础大模型平台具备万卡异构集群，其中千卡规模训练MFU达到40%，集群有效训练时长占比90%以上。

但行业公认的是，大模型在训练过程中发现整体训练的故障率是比较高的。“在初期，卡训练一段时间之后就会坏掉，掉链需要去恢复，卡量必须要达到一定的规模。当达到千卡规模以上，本质上技术难度就翻了好几番。而高性能万卡规模，在现有的工程条件下训练是相当艰难的。”王晓航直言。

据何征宇透露，在大模型支持“支小宝”的过程当中，一开始性能并不好——智能助理一个字一个字蹦，用户体验极差。这个过程必须解决“推理”上的问题，提升系统每秒吐出的Token数量，行业里面是35个字/秒钟，现在慢慢解决到100个字/秒钟。

官方信息显示，蚂蚁金融大模型RLHF训练在同等模型效果下训练吞吐性能相较于业界方案提升3.59倍，推理性能相较于业界方案提升约2倍，可以为大模型产业化应用提供有力支撑。

即使已经开始尝试在具体金融应用中解决问题，但行业普遍认可大模型由于有其“基因”上的缺陷，并不是万能的，某些时候甚至仅仅是“会学舌的鹦鹉”。

“我们发现通用大模型擅长一些事情，又不擅长一些事情——它非常擅长文科的事情，写作、生成、理解、推理，然后深度感知这些事情；但它不很擅长数字型的、复杂逻辑决策的、量化分析的、优化相关的这些理工科的工作。”何征宇表示。

但需要注意，金融的核心业务风险量化和管理，本质是理科工作，这也是生成式大模型目前很难在风控领域发挥效果的原因。

记者也注意到，为了解决大模型的“幻觉问题”（一本正经地胡说八道），大多数机构会采用知识图谱这样的结构化数据与大模型参数化数据相结合的方式。

“大模型的价值目前不太能更精准地做风险定价或者运筹优化的算法，而主要在于数据怎么理解，工作流程怎么更加极致、流畅和低成本。虽然大量的科研工作者和研发人员在试图解决一些问题，但是并没有达到工业级的水平。”王晓航直言。

而蚂蚁集团方面也透露，未来将持续探索和精进大模型的五大能力方向。包括建设高质量的数据标注团队，沉淀高质量数据体系；攻坚基础大模型算法，以及高效绿色工程能力，提升模型逻辑推理等能力；从通用语言大模型到通用多模态大模型，从一般通识走向全面专业；建设高效的大模型评测标准和评测体系，加快大模型迭代速度；以及建设大模型安全能力，保障大模型健康可持续发展等。

（编辑：何莎莎校对：颜京宁）

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.