网易首页 > 网易号 > 正文 申请入驻

都“百模大战”了,蚂蚁数科为何要发布金融推理大模型?

0
分享至

金融行业又迎来了一个新的大模型。

7月底举行的2025世界人工智能大会(WAIC)论坛上,蚂蚁数科正式发布金融推理大模型Agentar-Fin-R1,提供32B和8B两个版本,为金融AI应用打造可靠可优化智能中枢。

该模型基于Qwen3研发,在FinEval1.0、FinanceIQ等权威金融大模型评测基准上超越同尺寸开源通用大模型以及金融大模型,显示其更强的金融专业性、推理能力以及安全合规能力。

实际上,随着大模型从技术走向应用落地,金融行业的实际业务场景中,往往需要高度专业的金融知识、复杂的业务逻辑推理能力以及严格的金融级安全合规等要求,然而,现有的基础大模型“幻觉率”依然很高,在解决实际金融任务时仍然存在诸多挑战,因此,“百模大战”下,金融这一专业领域也需要更懂金融的专业大模型。

蚂蚁数科CEO赵闻飙表示,通用大模型距离产业实际应用存在“知识鸿沟”。构建专业的金融大模型是推进金融与AI深度融合的必然路径,未来,金融大模型的应用深度将成为金融机构竞争力的关键要素。

基础大模型无法适应金融专业场景

研究机构IDC于近日发布的一份报告显示,2024年,中国金融行业生成式 AI平台及应用解决方案市场总规模约为9.14亿元人民币,约占整体AI平台及应用市场规模的14%。

由于金融行业的特殊性,往往对于数据安全性、隐私保护以及监管合规等要求高于其他行业。大多数金融机构会选择本地化部署方式落地生成式AI平台及生成式AI应用。数据显示,2024年,中国金融行业生成式 AI 平台及应用解决方案市场规模中本地化部署方式的规模约占总规模的91%。

而且,保险、消金/互金、券商等金融机构在合同审核、智能客服、知识助手等场景仍会以MaaS(MaaS)模式接入大模型,以此提供以云服务模式交付的全流程大模型生命周期工具链以及大模型服务。

WAIC一场论坛上,浙江大学教授、区块链与数据安全全国重点实验室主任陈纯表示,大模型的专业化应用,首要的是可靠性问题。尽管当前技术SOTA(指行业顶尖水平)已经达到了80%到90%的水平,但其可靠性距离医疗、工业、金融等专业场景的要求仍有显著差距。

蚂蚁数科CTO王维也表示,金融行业用好AI技术还是面临很多的挑战,包括大模型在金融场景中的“幻觉”、差错或者回答没有达到金融企业要求,“如何把通用能力和场景鸿沟弥合。从水平通用大模型向专业/专用模型演进,这也是数科持续攻坚的方向。”

事实上,蚂蚁数科此次发布的金融推理大模型Agentar-Fin-R1,就是专门面向金融任务设计,通过构建全面的金融任务数据体系以及模型训练算法创新,实现模型更强的金融推理能力及可信性。

在数据层面,蚂蚁数科构建了业内最全面与专业的金融任务分类体系,包括6大类、66小类场景,覆盖银行、证券、保险、基金、信托等金融全场景,基于千亿级金融专业数据语料,通过可信数据合成技术以及结合专家标注的金融长思维链(CoT)构造机制,显著提升模型处理复杂任务的能力;

训练层面,蚂蚁创新的加权训练算法,最大化提升数据利用效率及训练效率,同时通过动态分配训练资源,提高大模型对复杂金融任务学习效率与性能,在后续业务应用中,可以显著减少二次微调的数据需求与算力消耗,降低大模型落地企业的门槛和成本。

此外,Agentar-Fin-R1不断更新迭代,吸收最新的金融政策、市场动态等关键信息,并通过配套评测工具进行针对性优化,确保知识、能力和合规性始终紧跟行业变化,让模型能力在真实业务场景中不断进化。

评测结果显示,在业内主流的大模型金融评估基准FinEval 1.0、FinancelQ等评测中,Agentar-Fin-R1均取得最高评分,超过DeepSeek、Qwen等开源通用模型以及xuanyuan等金融大模型,并且Agentar-Fin-R1在金融能力显著增强的同时,通用能力也表现出较高水准。

为了考察大模型在实际金融场景中部署的能力,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构联合推出Finova大模型金融应用评测基准,深度考察智能体能力、复杂推理以及安全合规能力。

在Finova评测中,Agentar-Fin-R1也取得最高评分,甚至超越DeepSeek-R1、GPT-o1等更大参数规模的通用模型。目前Finova已经全面开源,推动行业共同提升大模型在金融领域的应用水平。

据悉,Agentar-Fin-R1包括32B和8B参数两个版本。蚂蚁数科还推出基于百灵大模型的MoE(混合专家)架构模型,获得更优推理速度。此外,还有非推理版本的14B和72B参数大模型,以满足金融机构在多样化场景下的部署需求。

“一个推理能力很强的垂直大模型,才能成为智能体可控、可靠、可优化的智能中枢。齿轮决定了机器、履带要严丝合缝,没有关键性的齿轮,那其他的齿轮就带不动。而推理模型产生出来的推理能力、泛化和意图识别能力,可以让企业更加有意愿升级原有的业务模式,否则就很难谈增量价值的创造了。”王维称。

“AI+金融”进入深水区,2027年国内规模将超35亿元

IDC预计,到2027年,中国金融行业生成式 AI 平台及应用解决方案市场规模将攀升至35.09亿元,较2024年实现384%的增幅。

IDC中国金融行业研究总监高飞表示,随着大模型相关技术的快速迭代,生成式AI在金融行业的实践正在经历从“局部工具”向“企业级平台能力”的升级。其应用场景也在由单一的效率提升,逐步拓展至业务决策的支持与任务执行。

“一个不能理解行业的大模型,它难以产生真正的价值。”王维表示,蚂蚁数科希望帮助金融行业客户解决大模型在核心业务场景落地的问题,让大模型真正深入实际应用场景,创造真实价值。

在王维看来,蚂蚁数科的优势,一方面在于背靠蚂蚁集团的底层技术能力,另一方面来自于长期深耕金融场景所积累的金融know-how能力。

今年以来,蚂蚁数科加速布局企业级大模型服务,并聚焦金融与新能源两大行业场景。

其中,在金融领域,蚂蚁数科此前推出金融智能体平台Agentar,贯通智算调度、数据与模型平台、行业大模型及应用落地全流程,助力金融机构高效搭建专业智能体应用,加速大模型在金融行业的落地应用。

今年7月,蚂蚁数科还宣布联合金融业伙伴进行创新,推出超过100个金融场景智能体解决方案,覆盖银行、证券、保险、通用等四大领域。包括零售业务助手、AI原生手机银行、智能营销和风控等多个已经在金融实际场景中深度应用的智能体解决方案。

以上海某银行为例。蚂蚁数科助力该行打造的AI手机银行,创新“对话即服务”模式,用户通过自然对话即可获取各类金融服务,月活用户同比增长25%。

蚂蚁数科与大地保险打造的“AI大模型中台”,则是保险业内首次将大模型、数据、算力和框架相结合,通过大模型技术与行业特定垂直场景紧密结合,大地保险模型应用部署过程无须人工介入和适配,效率提升80%,准确率及智能体应用问答效率提升近30%。

目前,蚂蚁数科累计已服务100%的国有银行和股份制银行、超60%的地方性商业银行、数百家金融机构。

“AI 虽然离全面替代人工还有很长一段距离,但是利用AI赋能业务发展的趋势和方向是毋庸置疑的。我们判断,AI对人类社会的影响会越来越大,商业银行与AI的连接,不是一个‘要不要’的问题,而是‘怎么用’的问题。”中国农业银行股份有限公司副董事长、执行董事、行长王志恒近期对外表示。

王维强调,如今已经进入企业级智能体爆发之年,蚂蚁数科会逐步覆盖且深化金融场景,帮助客户解决业务场景的难题,让大模型在金融业从“可用”到“好用”,加速大模型在金融业的规模化价值落地,“这是一场没有完成时,只有进行时的长跑”。(本文首发于钛媒体App,作者|林志佳,编辑|盖虹达)

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

潇湘晨报
2026-03-26 16:25:20
已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

已经抵达东莞?曝广东宏远大外援到位,NBA首轮秀,身高2米13

篮球大陆
2026-03-26 14:01:14
游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

游戏结束,国债突破39万亿,美联储通知全世界,中方分批运回金条

涵豆说娱
2026-03-26 11:46:21
曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

曝张雪峰3段婚姻都是闪婚,前妻缅怀满是惋惜,疯狂健身疑为备孕

古希腊掌管松饼的神
2026-03-25 12:00:46
白发“师妃暄”,为何变成“金刚芭比”

白发“师妃暄”,为何变成“金刚芭比”

凹凹滴
2026-03-26 12:52:16
春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

春天,这碱性菜再贵也要多吃,杀菌强免疫,补钙补钾两不误,好吃

阿龙美食记
2026-03-25 10:38:40
横店巨变!20万群演困境:美女泛滥懒汉遍地,降薪后路在何方?

横店巨变!20万群演困境:美女泛滥懒汉遍地,降薪后路在何方?

网络易不易
2026-03-25 10:31:12
从欧尔班行为,看北约当年拒绝俄罗斯的远见

从欧尔班行为,看北约当年拒绝俄罗斯的远见

民间胡扯老哥
2026-03-23 18:53:38
神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

神笔警探林宇辉再绘“梅姨”老年画像:她年龄增大,精神也受折磨,面貌应该变化很大

极目新闻
2026-03-26 11:14:21
地平线员工撕开窗户纸,小鹏智驾成了"皇帝新衣"?

地平线员工撕开窗户纸,小鹏智驾成了"皇帝新衣"?

汽车大事记
2026-03-24 20:48:45
利空突袭,全线杀跌!

利空突袭,全线杀跌!

中国基金报
2026-03-26 13:16:51
日本企业未受邀参加重要论坛?商务部回应

日本企业未受邀参加重要论坛?商务部回应

澎湃新闻
2026-03-26 15:28:26
不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚间18:30比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:32:21
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

拼了!第80波打击,拒绝停战伊朗越打越狠,美军航母基地集体被揍

卷史
2026-03-26 09:34:56
《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

椰黄娱乐
2026-03-26 15:45:32
快讯!美军拒绝为以色列作战!

快讯!美军拒绝为以色列作战!

达文西看世界
2026-03-26 09:54:51
美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

美军合作商CEO急眼,竟狂言“终将破解并瘫痪北斗信号”

观察者网
2026-03-25 14:58:54
广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

天天话事
2026-03-26 09:30:14
2026-03-26 17:59:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
131356文章数 862012关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
时尚
亲子
数码
本地

艺术要闻

哪一座桥不是风景?

皮衣+裙,高级到炸

亲子要闻

售卖“增高神药”让孩子“猛长20厘米”?多家店铺被立案调查!

数码要闻

苹果MacBook Neo将重塑整个笔电行业!分析师纷纷强调:打不过

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

无障碍浏览 进入关怀版