网易首页 > 网易号 > 正文 申请入驻

92分门槛逼疯LLM:一个SQL评测引擎如何把成本砍到1/10

0
分享至


去年有个数据团队向我吐槽:他们的文本转SQL系统上线三个月,人工复核成本飙到每月4万多刀。问题不在模型——GPT-4生成的查询看着都对,一跑就崩。更糟的是,他们根本不知道崩在哪。

这像极了工厂质检。你请教授级专家逐件检查螺丝,发现90%的次品只是螺帽没拧紧。这位工程师的解法很产品经理思维:先过一道粗筛,把"螺帽问题"拦在外面,专家只处理真疑难杂症。他的双层评测框架把单次评估成本压到原来的1/10,同时给出了可落地的诊断报告。

第一层:确定性评估,0.5秒内宣判生死

核心代码用sqlglot做语法解析,对比预期结果和LLM输出。检查项很朴素——行数是否匹配、列覆盖率多少、有没有缺join。但组合起来的加权评分很刁钻:0.92分以上直接放行,低于阈值才触发第二层。

这个阈值不是拍脑袋。作者测试了数百条历史失败案例,发现0.92恰好卡在"机器能搞定"和"需要人看"的分界线上。漏过去的假阴性?后续AI层会兜底。但省下的API调用费是实打实的。


代码里有个细节很有意思:列覆盖率计算时,额外列(extra_cols)不计入惩罚,只记录备案。作者解释,业务查询里多出一两列备注字段很常见,直接判死刑会冤枉大量有效查询。这种"抓大放小"的评分策略,明显来自真实业务场景的摔打。

第二层:AI法官,被迫输出结构化JSON

通过第一层的查询,并非高枕无忧。它们拿到一个快速摘要;没通过的进入LLM深度诊断。但这里有个反常识设计:AI不直接给结论,而是填充一张预定义的诊断表格。

表格字段包括缺失元素、根因分类、建议修复方案。作者用Pydantic模型强制约束输出格式,配合litellm的acompletion做异步批量处理。这意味着你可以把失败的查询自动归档,喂给微调流水线——每一次失败都成为训练数据,而不是沉没成本

提示词工程也有讲究。作者没让模型"分析为什么错了",而是要求它扮演"资深数据工程师写代码审查意见"。角色设定带来的输出质量差异,在他之前的A/B测试里差了23个百分点。


架构的隐藏成本:没有存储,没有UI

这个框架刻意保持赤裸。没有数据库依赖,没有可视化面板,纯Python函数库。作者的理由很直接:评测引擎不该绑架你的技术栈。你可以把它塞进Airflow DAG,挂到FastAPI端点,或者直接在Jupyter里调试。

但赤裸也意味着责任。行数对比用的是pandas内存计算,万级数据量没问题,百万级就得自己改成分块处理。作者留了注释提醒,却没给实现——他认为这是使用者该做的功课,而不是框架该背的包袱

另一个未言明的假设:预期结果(expected_df)必须提前准备好。这在离线评测场景天经地义,但想做成实时在线系统,你得自己解决"正确答案从哪来"的问题。作者没碰这个雷区,他的目标用户本就是拥有黄金数据集的团队。

这套代码在GitHub上被fork了1700多次,Issue区最常见的请求是"能不能加个可视化看板"。作者的回复很一致:PR welcome,但主干保持精简。这种克制的产品观,在开源工具里反而少见。

文本转SQL的评测难题,本质是大模型应用的缩影:生成端越来越便宜,验证端越来越贵。当所有人都在卷提示词和微调时,有人回头把评测 pipeline 做成了瑞士军刀——不是最 flashy 的,但是最能帮你省钱的。你的团队现在怎么审LLM生成的代码?还是靠人眼逐行过?

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
伊朗致信联合国,谴责美国海上封锁

伊朗致信联合国,谴责美国海上封锁

第一财经资讯
2026-04-14 08:08:09
请陈芋汐正面回应:在知情的情况下,为何不退出282群?

请陈芋汐正面回应:在知情的情况下,为何不退出282群?

开成运动会
2026-04-13 20:23:15
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

另子维爱读史
2026-04-14 17:32:25
金立创始人刘立荣消失8年后现身印尼,疑转型办公家具行业

金立创始人刘立荣消失8年后现身印尼,疑转型办公家具行业

三言科技
2026-04-14 11:58:28
海关总署点名“张雪机车”:我国每出口10台内燃机摩托车中,有4台来自中西部地区

海关总署点名“张雪机车”:我国每出口10台内燃机摩托车中,有4台来自中西部地区

红星新闻
2026-04-14 12:31:12
汪宝失宠了!马筱梅回京后深夜大哭,曝张兰3大改变,筱梅妈表态

汪宝失宠了!马筱梅回京后深夜大哭,曝张兰3大改变,筱梅妈表态

好贤观史记
2026-04-14 16:35:33
希拉里发声:我坚决反对内塔尼亚胡!特朗普失控了,得有人管住他

希拉里发声:我坚决反对内塔尼亚胡!特朗普失控了,得有人管住他

黑鹰观军事
2026-04-14 18:22:45
知名国企集团,六个月没发工资了

知名国企集团,六个月没发工资了

新浪财经
2026-04-13 04:16:19
这一期《大众电影》封面,被认定低俗下流!

这一期《大众电影》封面,被认定低俗下流!

华人星光
2026-03-12 13:00:02
深圳比亚迪火灾后续:官方通报定调,知情人透露起火现场更多细节

深圳比亚迪火灾后续:官方通报定调,知情人透露起火现场更多细节

奇思妙想草叶君
2026-04-14 19:30:57
被扔燃烧瓶后,凌晨再遭枪击!知名巨头CEO在美高档社区住宅48小时内连续遭袭,其中一名嫌疑人称:人工智能将导致人类“即将灭绝”

被扔燃烧瓶后,凌晨再遭枪击!知名巨头CEO在美高档社区住宅48小时内连续遭袭,其中一名嫌疑人称:人工智能将导致人类“即将灭绝”

每日经济新闻
2026-04-14 20:48:49
中际旭创:公司光模块产品2025年度毛利率为42.61%,与2024年度的34.65%相比有明显提升

中际旭创:公司光模块产品2025年度毛利率为42.61%,与2024年度的34.65%相比有明显提升

每日经济新闻
2026-04-14 19:12:22
外媒:巴基斯坦购40架歼-35战机,单价8000万美元

外媒:巴基斯坦购40架歼-35战机,单价8000万美元

无人倾听无人倾听
2026-04-14 10:38:21
霍尔木兹海峡,突传大消息!黄金、白银飙涨!中概股爆发!原油大跳水

霍尔木兹海峡,突传大消息!黄金、白银飙涨!中概股爆发!原油大跳水

证券时报e公司
2026-04-14 22:22:32
大量中国游客滞留,航班全取消!

大量中国游客滞留,航班全取消!

吉刻新闻
2026-04-14 18:38:05
女子买10瓶五粮液8瓶假,官方罚单已出!商家:你是“职业打假”人,我不赔

女子买10瓶五粮液8瓶假,官方罚单已出!商家:你是“职业打假”人,我不赔

大风新闻
2026-04-14 10:20:06
访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

访陆成败笔?最新民调出炉,郑丽文支持率倒数,蒋万安捡了大漏?

牛锅巴小钒
2026-04-14 13:36:35
长期被冤枉的5个好东西,以为有害,其实超健康,别再被骗了!

长期被冤枉的5个好东西,以为有害,其实超健康,别再被骗了!

Home范
2026-04-14 11:14:17
广东最新速报!焦泊乔已正式归队,即将开始恢复训练!

广东最新速报!焦泊乔已正式归队,即将开始恢复训练!

多特体育说
2026-04-14 22:30:07
历史首次!单赛季8队至少输55场!难怪总裁不满,改革在所难免

历史首次!单赛季8队至少输55场!难怪总裁不满,改革在所难免

体坛小李
2026-04-14 23:18:23
2026-04-14 23:59:00
硅屿手记
硅屿手记
有态度网友ytd
1977文章数 8关注度
往期回顾 全部

科技要闻

离职同事"炼化"成AI?这届公司不需要活人了

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

头条要闻

54岁班主任带15岁女孩到宾馆开房猥亵:将她压到床上

体育要闻

带出中超最大黑马!他让球迷们“排队道歉”

娱乐要闻

网曝钟丽缇代孕要了个男孩 备孕近10年

财经要闻

许家印认罪,他和恒大还有多少欠债?

汽车要闻

售12.99万起/续航2000km 风云T9L上市

态度原创

本地
教育
游戏
公开课
军事航空

本地新闻

12吨巧克力有难,全网化身超级侦探添乱

教育要闻

他们眼里的光被点燃!中华中学首届南大班学习成果汇报

系好安全带!原作者确认《地铁2039》将比前作更黑暗

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

伊朗要求五个中东国家赔偿战争损失

无障碍浏览 进入关怀版