网易首页 > 网易号 > 正文 申请入驻

低调霸榜全球最难SQL榜单超两月,国产AI这次选择高调开源!

0
分享至

  • 金磊 发自 凹非寺
  • 量子位 | 公众号 QbitAI

不鸣则已,一鸣惊人。

没想到一个低调霸榜了全球最权威SQL榜单超过两个月的国产AI,这一次选择了高调开源



如此反差剧情的主角正是蚂蚁数科,在第二届CCF中国数据大会上,它正式宣布:

  • 开源旗下数据智能体关键技术——Agentar-SQL系列。

此次开源不仅包含实时文本转SQL(Text-to-SQL)框架的全套论文、代码、模型和使用指南,后期还将陆续开源数据库理解与挖掘、行业知识挖掘、实时多轮交互技术框架,覆盖意图理解、业务理解到数据理解的全链路数据能力。

如果你关注AI数据分析领域,大概率听说过BIRD-Bench。这是目前全球公认最具权威性的NL2SQL评测基准。

就在今年9月,蚂蚁数科的Agentar-Scale-SQL在BIRD榜单上以执行准确率(81.67%)和执行效率(77%),双料第一的成绩登顶一举超越了谷歌、亚马逊等国际科技巨头。



自然语言转SQL(NL2SQL)在实际落地中面临四大严峻挑战:理解模糊多义的人类口语、注入庞大的行业专业知识、解析复杂的数据库结构与关联,以及生成准确无误的复杂SQL语句。这些挑战意味着,简单的模型“套壳”远不足以满足企业级应用的可靠性与准确性要求。

蚂蚁数科的Agentar-SQL核心思想在于,不是追求单一“完美”的SQL生成,而是通过系统化工程方法,真正让AI赋能生产,让数据结果懂需求、懂业务。在某头部城商行试运营期间,蚂蚁数科Agentar SQL多个工具的平均查询准确率超92%,较传统查询方案提升超3倍。

但这样的成绩,还不足以形容蚂蚁数科。

一直以来,蚂蚁数科的AI发展可谓非常“低调”。如果深挖今年的动作会发现,蚂蚁数科的AI版图已经非常成熟与丰富,走出了一条中国AI“非常识”但又价值巨大的新路径。

蚂蚁数科CEO赵闻飙近日在生态伙伴大会上的一番话,道出了蚂蚁数科AI布局上的真实“野心”:

  • AI的真正价值不仅在于技术的先进性,更在于能否深入产业一线、解决实际问题。


△蚂蚁数科CEO赵闻飙

之所以会有这番言论,是因为这个AI诞生的地方,正是在金融行业这个最复杂、数据门槛最高的业务场景,它经受住了比任何公开榜单都严酷的考验——

从登榜到开源,从金融到各行各业,蚂蚁数科正在用一套务实的方法论,回答产业AI如何真正用起来。

从一场非共识的死磕说起

让我们先把时间拨回到2024年初。

那是百模大战打得最凶的时候,市面上的AI公司大多在做两件事:要么在刷各种通用榜单,证明自己的模型智商有多高;要么在做Chatbot,试图让AI变得更像一个陪聊伙伴。

但蚂蚁数科的CEO赵闻飙和他的团队的做法,却显得有些“格格不入”——

一头扎数据门槛最高、合规要求最严的金融领域,这个被普遍认为是AI落地的“深水区”。

这个战略从表面上来看是一点也不性感的,它意味着团队必须要与“两高一长”相伴:高风险、高投入、长回报周期。

因为这里没有“差不多”,只有“百分百”。一个错误的回答不仅仅是用户体验下降这么简单,更可能意味着巨额资金的损失,甚至是监管的红牌罚下。

金融场景的极端复杂性,体现在三个维度:

  • 数据高度敏感且孤岛化:客户资产、交易流水、风控规则等关键数据分散在多个系统,互不打通;
  • 业务逻辑极其严谨:如“重点客户”不是模糊标签,而是“本季度活跃度大于80分”的明确定义;
  • 合规要求近乎苛刻:所有AI推理必须可解释、可审计、可回溯,不允许“黑箱决策”。

每一项对AI来说都是老大难的问题。

换言之,一个AI若是能精准地搞定最难领域的问题,那它再身处别的领域时就会变得从从容容游刃有余。

但蚂蚁数科偏偏选择了死磕,事实证明,这场豪赌,他们赢了。

因为最新的成绩单显示:蚂蚁数科的服务已经覆盖了100%的国有股份制银行,以及超过60%的地方性商业银行。

可以说中国金融体系的毛细血管里,已经流淌着蚂蚁数科的代码。

不仅如此,他们还悄然跻身了IDC《中国智能体开发平台2025年厂商评估》的领导者象限,意味着在市场份额和技术实力上,他们已经站到了第一梯队。

但光有战略定力是不够的,AI发展到现在的阶段,更看重的好不好用。

在宁波银行,双方合作打造的智能化决策系统,便彻底打破了传统金融服务的知识孤岛。

过去,客户经理面对一个复杂的投资咨询,需要在多个系统间来回切换,答案常常是模糊的、滞后的。

新系统通过“规划-检索-推理”的智能机制,实现了从模糊匹配到精准推理的跨越。复杂问题回答准确率从68%跃升至91%,响应速度进入百毫秒级。

更关键的是,系统能清晰呈现推理过程与数据来源,在强监管的金融场景中实现AI黑箱白化。

上海银行推出的AI手机银行,则是另一种维度的革新。

它以对话即服务为核心,用户通过自然语言交互即可办理转账、理财咨询、养老金查询等业务。这不再是简单的功能堆砌,而是体验的重构,从“人找服务”到“服务找人”。

配合千人千面的个性化推荐与适老化设计,它已经成为了行业数智化转型的典型样本。

已经从金融级外溢到了产业级

金融领域的成功实践,为蚂蚁数科积累了可迁移的产业AI方法论,也推动其能力向更多民生领域延伸。

在南京,蚂蚁数科与南京公交联合打造的公交智能体小蓝鲸,便是这一能力外溢的典型案例。



它将金融领域验证过的“规划-检索-推理”逻辑,应用到了城市交通的复杂系统中。

从分析客流到生成线路,再到输出经济可行性报告,小蓝鲸展现的是一种通用的、可迁移的产业AI能力。

210路公交车的开通,可谓是一下子把之前这片区域的公交线网空白给填上了,单日最高客流达2168人次,老年卡使用占比近50%。

不仅如此,类似210路这样在AI建议下开通的公交,在南京已经有30多个,还新增了84个招呼站!



据悉,这是国内首次将AI智能体技术深度应用于公共交通调度系统,根据站点、客流、线路等多维数据分析,实现从经验决策到智能规划的全面升级。

能源领域,这种能力同样锋利。

蚂蚁数科的 EnergyTS 能源电力时序大模型,能够精准预测发电量和市场供需变化。

在投前决策环节,它能将原本需要2–3天的人工投资测算,缩短为十余分钟,决策效率提升超60倍,已助力协鑫能科、霍普等企业实现数智化升级。

由此可见,从最难的场景切入,延伸到更广的场景,用最硬的指标说话,这就是蚂蚁数科在过去一年里上演的非共识剧本。

还敢按效果付费

技术再牛,如果卖不出去,也是白搭。

在To B的软件市场,传统的收费模式无非两种:要么按项目制收费,要么是按订阅制收费。

但这两种模式都有痛点:甲方觉得我花了钱,万一效果不好怎么办?乙方觉得我投入了这么多人力,利润薄如刀片。

蚂蚁数科在付费模式上采取的做法也是一种非共识的打法——按效果付费。

这种模式,极大地降低了中小机构应用AI的门槛和风险。客户不再需要为不确定的技术前景买单,而是为确定的业务结果付费。

这就倒逼了技术提供商必须真正深入业务一线,理解客户的痛点,将技术能力转化为可量化的商业价值。这是一种对自身能力的极度自信,也是一种对产业伙伴的真诚负责。

要规模化地实现这种模式,单打独斗是行不通的,蚂蚁数科深谙这一道理,因此,生态共荣,成为它必然选择。

据了解,截至今年,蚂蚁数科已与300家合作伙伴建立深度合作,共同服务超13000家终端客户。

在这次的大会上,蚂蚁数科正式升级了“星澜计划”,从技术赋能、运营支持、商机共享、资金扶持四个维度,全面提升伙伴能力,推动整个生态的全域升级。



一位合作伙伴在现场分享,今年其30%的营收来自与蚂蚁数科的合作业务。这不仅仅是数字,更是市场对这套“技术+生态+商业化”组合拳的有力投票。伙伴们通过合作,沉淀出了一套AI赋能垂直场景的方法论,共同推动产业AI的规模化落地。

这种生态的视野,甚至延伸到了全球。

蚂蚁数科的技术方案,已服务南洋商业银行、渣打银行等超百家海外金融机构。今年10月,其入选香港金融管理局生成式AI沙盒项目,为沙盒提供AI智能体服务与AI安全产品。

这标志着源自中国严苛金融场景打磨出的AI方案,正获得国际市场的认可,展现出强大的全球竞争力。

在通用AI的喧嚣之后,产业AI的务实革命才刚刚开始;而这场革命的主角,必将是那些敢于用效果说话的实干者。

— 完 —

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
王楠没想到,她养大、不让打乒乓球的儿子,如今成全家的骄傲

王楠没想到,她养大、不让打乒乓球的儿子,如今成全家的骄傲

白面书誏
2026-01-24 19:33:09
1969年,苏联为何放弃用核武器轰炸中国?多年以后,叛逃的苏方高层终于说出了缘由

1969年,苏联为何放弃用核武器轰炸中国?多年以后,叛逃的苏方高层终于说出了缘由

史海孤雁
2026-01-23 15:26:12
24小时收复油田,483人投降,普京不得不服

24小时收复油田,483人投降,普京不得不服

南风不及你温柔
2026-01-23 00:12:15
英超最新积分战报:热刺绝平,曼城终结4轮不胜,利物浦2-3爆冷

英超最新积分战报:热刺绝平,曼城终结4轮不胜,利物浦2-3爆冷

足球狗说
2026-01-25 03:31:09
张曼玉现身blackpink香港演唱会

张曼玉现身blackpink香港演唱会

星星没有你亮
2026-01-25 08:04:54
美军已算好,只要开打,中国一次造50艘航母,美国还有明白人

美军已算好,只要开打,中国一次造50艘航母,美国还有明白人

军机Talk
2026-01-24 14:17:06
6年不换机!39%的iPhone 11用户还在硬扛:是情怀还是无奈?

6年不换机!39%的iPhone 11用户还在硬扛:是情怀还是无奈?

小柱解说游戏
2026-01-24 08:38:13
抗美援朝之战,除了中国之外,其实还有一个国家秘密派出七万精兵,驰援朝鲜战场

抗美援朝之战,除了中国之外,其实还有一个国家秘密派出七万精兵,驰援朝鲜战场

桃烟读史
2025-12-27 19:26:18
震怒!侯向锋:广东对迪亚洛动私刑,呼吁篮协出手,杜锋4将受伤

震怒!侯向锋:广东对迪亚洛动私刑,呼吁篮协出手,杜锋4将受伤

许钇很机智
2026-01-25 04:09:21
大陆“斩首”赖清德立项?特朗普亮明态度,新加坡主动为统一助力

大陆“斩首”赖清德立项?特朗普亮明态度,新加坡主动为统一助力

薛小荣
2026-01-23 17:21:04
破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

破防了!原来只要失业,所有人都一样!网友:人都快抑郁了

另子维爱读史
2026-01-16 21:03:12
贾玲张小斐新疆被偶遇!两人一起素颜吃火锅,桌旁20瓶啤酒太抢眼

贾玲张小斐新疆被偶遇!两人一起素颜吃火锅,桌旁20瓶啤酒太抢眼

有范又有料
2026-01-23 11:14:11
4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

4年时间门店从0增至960家,全国开店的零食品牌,如今陷入闭店争议!官方回应:主动放缓是策略,不是叫停加盟

每日经济新闻
2025-12-28 23:52:06
一句话一个梗,东北人不会让话掉地上,网友:架都吵不起来!

一句话一个梗,东北人不会让话掉地上,网友:架都吵不起来!

夜深爱杂谈
2026-01-23 18:29:15
美航母还没到,伊朗抢先下死手!导弹绞杀盟友基地,五角大楼慌了

美航母还没到,伊朗抢先下死手!导弹绞杀盟友基地,五角大楼慌了

南山塔的姑娘
2026-01-24 18:09:27
从"香肠嘴"到"国区一姐"!吴梦梦的逆袭史太猛了!

从"香肠嘴"到"国区一姐"!吴梦梦的逆袭史太猛了!

碧波万览
2026-01-25 04:25:03
重庆“文强”之子的现状

重庆“文强”之子的现状

年代回忆
2025-05-13 20:05:32
新疆维吾尔自治区政协喀什地区工委副主任艾尼瓦尔·吐尔逊接受审查调查

新疆维吾尔自治区政协喀什地区工委副主任艾尼瓦尔·吐尔逊接受审查调查

界面新闻
2026-01-25 09:03:49
演员向梅:83岁退休后生活悲凉,背后真相曝光,才知道风光后的痛

演员向梅:83岁退休后生活悲凉,背后真相曝光,才知道风光后的痛

白面书誏
2026-01-24 23:31:44
马斯克最新震撼发言:人类终有一天将找到逆转衰老之法

马斯克最新震撼发言:人类终有一天将找到逆转衰老之法

闪电新闻
2026-01-24 08:51:22
2026-01-25 17:48:50
量子位 incentive-icons
量子位
追踪人工智能动态
12058文章数 176362关注度
往期回顾 全部

科技要闻

黄仁勋在上海逛菜市场,可能惦记着三件事

头条要闻

西安一道路车位紧俏 十多辆"老赖"车欠费最多者超2万

头条要闻

西安一道路车位紧俏 十多辆"老赖"车欠费最多者超2万

体育要闻

中国足球不会一夜变强,但他们已经创造历史

娱乐要闻

王玉雯方严正声明 剧方回应:涉事人员已被开除

财经要闻

隋广义等80人被公诉 千亿骗局进入末路

汽车要闻

别克至境E7内饰图曝光 新车将于一季度正式发布

态度原创

家居
房产
艺术
手机
数码

家居要闻

在家度假 160平南洋混搭宅

房产要闻

正式官宣!三亚又一所名校要来了!

艺术要闻

当代唯一能称为“大师”的人,他的字普通人看不懂,启功跟他比,就像小学生!

手机要闻

荣耀泡泡玛特联名手机今日开售:首销即引爆,线下再现排队热潮

数码要闻

华为FreeClip 2耳夹耳机确认支持Android设备豆包App唤醒

无障碍浏览 进入关怀版