网易首页 > 网易号 > 正文 申请入驻

全球权威评测榜单BIRD:蚂蚁数科超越谷歌等公司位居第一

0
分享至

9月26日,据全球权威评测基准BIRD-Bech官网,蚂蚁数科的数据分析智能体Agentar-SQL超越AT&T(美国电话电报公司)、谷歌云、腾讯云、阿里云等诸多国内外厂商,位居全球第一。这也是中国公司在该榜单上取得的最高成绩。


BIRD-Bench是公认的全球最具权威性的自然语言转SQL评测基准,要求AI大模型将自然语言查询转换为结构化查询语言(SQL),并且在真实复杂的大规模生产级数据库中稳定执行。BIRD--Bench数据集覆盖金融、电力、医疗等37个行业场景,总量33GB,包含超过1万条高复杂度查询任务,是全球顶级AI团队展示技术实力的权威平台。

值得一提的是,蚂蚁数科Agentar-SQL在BIRD榜单的执行准确率排行榜(81.67分)以及执行效率榜上(77分)上均取得第一的成绩。这意味着蚂蚁数科在智能问数领域的技术创新实现全球领先。

据介绍,Agentar-SQL智能体基于蚂蚁数科的SQL大模型Agentar-Scale-SQL构建,旨在让用户可以通过自然语言轻松完成复杂的数据查询任务。它通过GSPO(组序列策略优化)强化学习训练方法,能够增强SQL内在推理,让大模型在推理阶段,深度思考SQL框架,避免潜在的逻辑错误,提升SQL逻辑准确性;此外,Agentar-SQL具备多轮反思修正的能力,让模型对生成的SQL进行多轮次的审视和修正,提升SQL语言的精准性;Agentar-SQL还通过独创的两阶段生成法,让大模型生成多个SQL候选,再对SQL进行两两PK的“锦标赛”,筛选出最优的SQL。

蚂蚁数科持续深耕AI大模型技术与应用,此前其自研的金融推理大模型Agentar-Fin-R1,在多项主流金融基准测试实现领先。专为新能源行业定制的能源电力垂类时序大模型在行业评测集上的发电量预测准确率超越谷歌(TimesFM-V2.0)、亚马逊(Chronos-Large)等行业主流的通用时序模型。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
越南曝光中越战争真相:若中国军队晚撤5天,战争结局不敢想象

越南曝光中越战争真相:若中国军队晚撤5天,战争结局不敢想象

鉴史录
2026-01-26 22:15:16
特朗普施压伊朗:美军派遣舰队规模,“比在委内瑞拉的还大”;舆论认为伊朗回击目标涵盖美军事基地及以色列

特朗普施压伊朗:美军派遣舰队规模,“比在委内瑞拉的还大”;舆论认为伊朗回击目标涵盖美军事基地及以色列

大风新闻
2026-01-27 11:02:05
倒退千年?塔利班立法承认“奴隶”身份

倒退千年?塔利班立法承认“奴隶”身份

桂系007
2026-01-27 03:18:11
航班大量取消!超市货架拿空!不少中国网友发文称滞留日本,“简直是灾难”…...

航班大量取消!超市货架拿空!不少中国网友发文称滞留日本,“简直是灾难”…...

鲁中晨报
2026-01-27 09:19:48
国务院免去曾国卫香港特别行政区政府政制及内地事务局局长职务

国务院免去曾国卫香港特别行政区政府政制及内地事务局局长职务

新京报
2026-01-27 09:12:02
印度暴发疫情详情披露:护士或误饮蝙蝠污染的椰枣汁,传染同事,均现高烧和呼吸困难!张文宏发声→

印度暴发疫情详情披露:护士或误饮蝙蝠污染的椰枣汁,传染同事,均现高烧和呼吸困难!张文宏发声→

大风新闻
2026-01-27 09:50:04
驻日武官王庆简:为日本潜伏20年出卖军事机密,因一动作暴露身份

驻日武官王庆简:为日本潜伏20年出卖军事机密,因一动作暴露身份

古书记史
2026-01-27 00:30:48
理想员工吐槽李想全员会:一句也听不懂,找罗永浩聊就行了……

理想员工吐槽李想全员会:一句也听不懂,找罗永浩聊就行了……

柴狗夫斯基
2026-01-27 11:05:56
极限攀岩家登顶后,民进党当局竟给台北101“改名”,引发岛内网民不满

极限攀岩家登顶后,民进党当局竟给台北101“改名”,引发岛内网民不满

环球网资讯
2026-01-27 06:57:14
49条中日航线取消全部航班

49条中日航线取消全部航班

财联社
2026-01-26 17:10:34
一句“搞么哩”火遍全网!4岁重庆娃,让千万人看见家的幸福模样

一句“搞么哩”火遍全网!4岁重庆娃,让千万人看见家的幸福模样

江津融媒
2026-01-27 13:05:14
男子连杀两名19岁女子,已被枪决

男子连杀两名19岁女子,已被枪决

现代快报
2026-01-26 18:39:08
黄金的上涨是不是意味着持币者的财富被洗劫了?

黄金的上涨是不是意味着持币者的财富被洗劫了?

记忆承载
2026-01-27 11:27:41
杜兰特33分8篮板火箭击败灰熊2连胜,申京33分9板6助攻

杜兰特33分8篮板火箭击败灰熊2连胜,申京33分9板6助攻

湖人崛起
2026-01-27 11:26:19
在喧嚣中,看见另一种造车逻辑

在喧嚣中,看见另一种造车逻辑

晚点LatePost
2026-01-26 11:15:55
哈梅内伊为什么慌了

哈梅内伊为什么慌了

臧启玉律师
2026-01-26 11:13:42
DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片

DeepSeek-OCR 2重磅发布:AI学会“人类视觉逻辑”,以因果流解读图片

华尔街见闻官方
2026-01-27 14:03:13
美媒:斯塔默称,英国不必在美国和中国之间做选择,“忽视中国是不明智之举”

美媒:斯塔默称,英国不必在美国和中国之间做选择,“忽视中国是不明智之举”

环球网资讯
2026-01-27 09:58:11
是什么逼的国企干部上门打人

是什么逼的国企干部上门打人

阿亮评论
2026-01-27 12:11:01
连遭美国“极限施压”,加拿大总理卡尼为与中国经贸共识辩护

连遭美国“极限施压”,加拿大总理卡尼为与中国经贸共识辩护

环球网资讯
2026-01-27 06:46:06
2026-01-27 14:24:49
硅星Breaknews incentive-icons
硅星Breaknews
Break news
6683文章数 66关注度
往期回顾 全部

科技要闻

理想开始关店“过冬”,否认“百家”规模

头条要闻

宝马5系车主揪出汽修店一个"意外疏忽":我气得吐血

头条要闻

宝马5系车主揪出汽修店一个"意外疏忽":我气得吐血

体育要闻

带着母亲遗愿战斗12年,交易添头成了队魂

娱乐要闻

张雨绮被曝代孕,春晚被拒,代言跑路

财经要闻

金价狂飙 “牛市神话”未完待续

汽车要闻

剑指小米YU7与特斯拉Model Y 问界M6要来了?

态度原创

旅游
健康
教育
艺术
公开课

旅游要闻

除了凤翔东湖,苏东坡还在陕西修了“奇怪”的路,你去过吗

耳石脱落为何让人天旋地转+恶心?

教育要闻

为什么背单词刷题几轮,高三英语成绩还是70多?从3个方面破解

艺术要闻

日本东京国立博物馆中的100幅宋画

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版