网易首页 > 网易号 > 正文 申请入驻

刚刚!蚂蚁推出首个金融推理大模型,登顶权威金融测评,超越OpenAI o1、DeepSeek-R1

0
分享至

智东西7月28日报道,今天上午,蚂蚁数科正式发布蚂蚁数科金融推理大模型Agentar-Fin-R1 。该模型基于Qwen3研发,在FinEval1.0、FinanceIQ等金融大模型评测基准上超越DeepSeek-R1等同尺寸开源通用大模型以及金融大模型。

Agentar-Fin-R1包括32B和8B参数两个版本,还有非推理版本的14B和72B参数大模型,以满足金融机构在多样化场景下的部署需求。此外,蚂蚁数科还推出基于百灵大模型的MoE(混合专家)架构模型,获得更优推理速度。

同时,蚂蚁数科还开源了大模型金融应用评测基准Finova以及Agentar-Deepfinance-100K金融领域训练数据集。

一、蚂蚁数科用3个特点登顶权威榜单,超越同类金融大模型

蚂蚁数科首席技术官王维介绍,Agentar-Fin-R1 主要有“可靠、可控、可优化”的三大特点:

首先是“可靠”,王维认为,行业大模型需要构建系统化专业化的金融任务体系。

为此,Agentar-Fin-R1打造了6大类66小类的金融任务体系,覆盖银行、证券、保险、基金、信托等金融全场景。围绕这一体系,通过可信的数据合成和长思维链的精标链路,从场景数据出发,蚂蚁数科构建了100K的大规模训练集。

基于任务体系和大规模数据训练集,Agentar-Fin-R1在激活能力上和Qwen和DeepSeek等通用大模型旗鼓相当。在金融推理能力上,该模型在FinEval 1.0、FinancelQ以及Finova等金融榜单中,超越超越DeepSeek-R1等同尺寸开源通用大模型以及金融大模型。

在“可控”方面,王维介绍,在训练金融大模型的过程中,该模型以金融任务体系为靶点,结合主动学习的实践,通过自动识别模型的薄弱项,可以有针对的合成数据、动态调节,在提升训练效率的前提下,避免了大规模的遗忘。

Agentar-Fin-R1仅用不到一半的数据达成了更优的模型能力,在多任务的均衡训练中,该模型能够极大地降低微调阶段需要的数据和算力,实现较高的迁移效率。

此外,Agentar-Fin-R1还将不断进化。蚂蚁数科首席技术官王维认为,行业模型应该建立高频的敏捷的迭代机制,让模型能够持续发现模型的问题和缺陷,进行快速修复。

这背后需要两个方面的努力,一是密切关注实际数据,定位模型表现;另一方面就是紧密追踪金融动态,市场调整以及产业机构和产品的变化。

最终,蚂蚁数科将通过训练和评测联动以及高效生成的训练数据,驱动模型进化,使Agentar-Fin-R1更加贴合金融业务需要。

二、全面开源金融基准测试集,联合五大机构发布

除此之外,蚂蚁数科还联合中国工商银行、宁波银行、北京前沿金融监管科技研究院、上海人工智能行业协会等机构,推出大模型金融应用评测基准Finova。

Finova是针对复杂推理任务和金融智能体任务的评测任务集,涵盖意图识别、工具调用和结构化表现等金融行业全方位测评的各个环节。

据介绍,蚂蚁数科还首创了高复杂度的金融推理问题库,该数据库来源于蚂蚁积累的多年的真实业务数据,经过5000万道问题和人工筛选,再配合长思维链的精标链路,形成了一套全面评估真实业务能力的评测集。

此外,蚂蚁数科还将Agentar-Deepfinance-100K大规模金融领域训练数据集全面开源。

结语:金融与AI深度融合,步入“垂直专用”深水区

蚂蚁数科CEO赵闻彪说到,AI智能体产业价值释放的关键在于“水平通用”向“垂直专用”的战略转变。

此次Agentar-Fin-R1的推出,以及Finova评测基准和Agentar-Deepfinance-100K数据集的开源,正是这一转变在金融领域的具体实践。

随着人工智能技术的不断发展,金融机构对大模型的需求日益精细化,从最初在客服、办公等场景的浅层次应用,逐步深入到风控、财富管理、信贷审批等核心业务流程。

然而,在实际推广和应用过程中,如何确保模型在不同金融机构的业务环境中稳定运行,如何平衡模型性能与数据安全保护之间的关系等等挑战,依旧需要AI企业与金融机构共同解决。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

广东宏远今日早报!杜锋深夜发声,陈家政效仿徐昕,徐杰状态回升

多特体育说
2026-03-26 10:17:08
46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

46 岁张柏芝三亚生图流出,肚子上的软肉,打了整个内娱的脸

橙星文娱
2026-03-26 13:40:27
3大冷门!上季亚军狂输32分!夺冠热门输20分,前总冠军惨败42分

3大冷门!上季亚军狂输32分!夺冠热门输20分,前总冠军惨败42分

老吴说体育
2026-03-26 00:26:35
美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

美智库:美若出兵拦中国收台,解放军30分钟内能将美军事基地夷平

南权先生
2026-03-25 15:28:41
俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

俞灏明现身广州永庆坊,生图疤痕明显脸肿涨,手上戒指甜翻网友

洲洲影视娱评
2026-03-26 19:05:28
炸锅!北约最高司令当众认怂:乌军爱国者战力吊打美军

炸锅!北约最高司令当众认怂:乌军爱国者战力吊打美军

老马拉车莫少装
2026-03-26 20:01:46
2025年湖南省常住人口减少47万人,出生人口连续九年下降

2025年湖南省常住人口减少47万人,出生人口连续九年下降

何亚福
2026-03-26 18:42:00
河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

河南郑州,10岁男孩在上课时与同桌发生矛盾。老师竟然让两...

网络易不易
2026-03-26 14:05:04
泽连斯基曝惊天内幕:美国逼乌克兰弃顿巴斯,换一纸安全保证

泽连斯基曝惊天内幕:美国逼乌克兰弃顿巴斯,换一纸安全保证

老马拉车莫少装
2026-03-26 21:17:40
真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

真要走了?5首轮豪赌!火箭再梭哈,杜兰特+字母哥?

篮球盛世
2026-03-25 22:25:51
京沪蓉之后,第四座“双机场”城市,来了

京沪蓉之后,第四座“双机场”城市,来了

西部城市
2026-03-25 21:43:15
泡泡史诗级暴跌!榜一大哥单日亏千万,省大努力半年,却创出最大亏损

泡泡史诗级暴跌!榜一大哥单日亏千万,省大努力半年,却创出最大亏损

金石随笔
2026-03-26 00:09:28
江苏拟建一条过江通道,或将再破“世界纪录”

江苏拟建一条过江通道,或将再破“世界纪录”

水泥土的搞笑
2026-03-26 14:04:59
中国首创!打一针降血脂基因治疗获突破

中国首创!打一针降血脂基因治疗获突破

医学界
2026-03-26 19:17:50
公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

公安部172号令落地:70岁驾照不再终身有效,2026年这些事必须办

小怪吃美食
2026-03-24 17:29:52
张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

张雪峰去世后,第一个被骂的明星出现了!网友强烈呼吁封杀

星星没有你亮
2026-03-26 18:26:16
战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

战场奇迹!1台乌军机器人死守阵地45天硬刚俄军冲杀和机枪扫射

子桑说
2026-03-25 17:27:05
冬去春来:徐胜利因祸得福遇贵人!庄庄终于看清沈冉冉的真面目

冬去春来:徐胜利因祸得福遇贵人!庄庄终于看清沈冉冉的真面目

怂熊剧场
2026-03-26 09:33:08
篮网一口气选的五个首轮秀,现在都怎么样了?

篮网一口气选的五个首轮秀,现在都怎么样了?

只关于篮球
2026-03-26 12:34:23
从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

从广东到东北!刘强东游艇版图扩容,150亿元项目进驻大连

南方都市报
2026-03-26 14:42:13
2026-03-26 22:28:49
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11441文章数 117016关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

头条要闻

美国总统特朗普公开宣布访华行程 外交部回应

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

艺术
游戏
本地
健康
公开课

艺术要闻

哪一座桥不是风景?

开冲!PS会员4月离库名单公布:独立神作进入倒计时

本地新闻

救命,这只酱板鸭已经在我手机复仇了一万遍

转头就晕的耳石症,能开车上班吗?

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版