网易首页 > 网易号 > 正文 申请入驻

北大开源框架10小时测完V4,评测赛道藏着290亿估值生意

0
分享至

凌晨两点,你刚部署完新模型,老板的消息弹出来:"明天早会,我要看到这份模型在代码、数学、长文本上的完整评测报告。"你盯着屏幕,想起上次手工配环境花了整整三天。

这不是虚构场景。DeepSeek-V4发布10小时后,一份全量自动化评测报告已经出炉。北大团队开源的One-Eval框架,把工程师从"配环境比跑分还累"的噩梦里拽了出来。


但这件事的真正看点,藏在更深处——评测从来不是技术活,是一门估值数百亿美元的顶级生意。

一、传统评测有多反人类?三个槽点逼疯工程师

真实的AI工程界,评测流程堪称体力活。

第一步,海量开源资源里筛基准集(Benchmark)。第二步,手写下载脚本、做字段适配、调配置参数。第三步,跑完在日志海洋里排查解析异常。一位工程师的原话:「真正让模型跑分的时间,还不如搭测试管道花的多。」

传统框架的痛点可以归纳为三宗罪。

太难用。静态流水线设计,逐项手动配置。模型输出格式稍有不规矩,程序直接中断,结果误判。

太黑盒。跑完丢给你一个孤零零的量化分数。提示词怎么拼的?评分规则是什么?模型打分依据在哪?全无记录。出Bug只能抓瞎。

太容易被骗。模型训练时"偷看"考卷,这叫数据污染。当所有AI都能在基础测试里考95分,榜单公信力归零。行业被迫引入置信度检测等手段,甄别作弊行为。

这三座大山压下来,评测从"技术验证"变成了"工程债务"。

二、One-Eval的解法:自然语言驱动+人工在环

北大团队的破局思路很直接——把"写配置跑脚本"降级为自然语言对话。

你在对话框敲一句:「我想测试模型在金融、法律、医疗领域的表现,并看看幻觉情况如何。」底层调度引擎开始自主运转:意图识别→工具匹配→数据拉取→参数配置,全部静默完成。

具体匹配逻辑是:指令跟随用IFEval,医疗用MedQA,法律用LegalBench,金融用FinanceQA。不需要你记住这些缩写,系统自己认。

架构层面有两个关键设计。

全局状态(Global State)数据总线。评测完整生命周期全记录,报错时断点清晰,全链路可追溯。这解决了传统框架的"黑盒"问题。

保留"人工在环"(Human-in-the-Loop)。系统给出评测方案后,主动暂停,把上下文展示给你,等待人工审核确认后再执行。复杂主观评判场景下,这种人机协同比盲目全自动更让人安心。

但边界也很清晰。根据文档与架构特征,One-Eval目前内置基准主要覆盖纯文本能力。需要独立Docker沙盒环境的复杂真实软件工程测试,仍是能力盲区。

开源工具铺铁路,商业化服务建壁垒——这是评测赛道的基本分工。

三、评测生意的三层盈利体系:从卖工具到卖标准

这门生意的买单方,是被AI升级需求倒逼的B端企业。一边是大模型研发企业持续融资布局,一边是《财富》500强急于接入AI业务。

头部公司的盈利逻辑被精密设计为三层联动体系。

第一层,基础订阅服务,切合规刚需。企业级审计日志、权限管理,按API调用量或席位收费。这是稳定的现金流底座。

第二层,垄断定义权,卖私有化专业评测认证。开源考卷被污染、高分没人信,商业公司顺势接管标准制定权。

行业巨头Scale AI推出SEAL排行榜,不玩静态代码谜题,直接引入真实人类专家盲测比对,从机制上规避数据泄露与刷榜行为。

逻辑质变:基础模型公司要向投资人证明比竞品强,必须花重金购买这种不可篡改的私有评测认证。如同商业化落地前,必须采购专业机构的权威背书。

第三层,"诊断+卖药"的数据引擎终极闭环。这是核心护城河。

评测系统通过大规模并发,精准定位模型在细分场景的能力短板与逻辑缺陷。输出专业诊断报告,针对性改进指导。最后亮出底牌:要优化模型能力?买我们独家的高质量人工微调数据集。

指出弱点要付费,采购数据集还要付费。双层收割。

Scale AI的财务数据验证了这套模式。2024年营收约8.7亿美元,毛利率稳定在50%左右。2025年Meta出资143亿美元拿下49%股份,将其估值推至290亿美元。

大模型开发商融来的巨额资金,相当一部分以购买数据和评测服务的形式,流进这些"卖水人"的口袋。

四、为什么掌握度量衡的人掌握定价权

北大团队用自然语言交互打破繁文缛节,是开源层面的效率革新。Scale AI用数据服务闭环构建商业壁垒,是资本层面的标准垄断。

两条路径指向同一个结论:在巨头林立的技术赛道,最终定价权不属于技术迭代最快、投入最高的企业。

属于制定游戏规则的"裁判"。

评测的本质是信任中介。当所有模型都能考高分,分数本身贬值,"谁出题、谁监考、谁认证"成为稀缺资源。这正是Scale AI估值290亿美元的底层逻辑——它卖的不是评测服务,是资本市场和B端客户的决策免责权。

One-Eval的开源,短期内不会动摇这个格局。它解决的是工程师的效率痛点,而非行业的信任痛点。但当开源工具降低评测门槛,可能催生更多元的声音,倒逼商业标准迭代。

毕竟,铁路修得越宽,收费站的位置越重要。

8.7亿美元年营收,50%毛利率,290亿美元估值——这三个数字勾勒出评测赛道的真实体量。它不像大模型那样占据头条,却悄无声息地切走了产业链最稳当的利润层。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
医生提醒:早期心梗不是胸闷,而是频繁出现这5个症状,一定警惕

医生提醒:早期心梗不是胸闷,而是频繁出现这5个症状,一定警惕

垚垚分享健康
2026-04-18 12:41:45
2859.2克黄金制品被警方扣押三十年 最新进展:双方约定见面沟通赔偿事宜 代理律师:和解的可能性很大

2859.2克黄金制品被警方扣押三十年 最新进展:双方约定见面沟通赔偿事宜 代理律师:和解的可能性很大

每日经济新闻
2026-04-27 18:05:32
不好好拍电影都跑去直播PK了

不好好拍电影都跑去直播PK了

贵圈真乱
2026-04-27 12:55:24
法院《出庭通知书》上引用的司法解释,被指已废止13年;第三方律师:建议积极处置

法院《出庭通知书》上引用的司法解释,被指已废止13年;第三方律师:建议积极处置

大风新闻
2026-04-28 18:53:17
今日最惨股,3个20cm跌停后今天尾盘又20cm跳水跌停,已经跌去93%

今日最惨股,3个20cm跌停后今天尾盘又20cm跳水跌停,已经跌去93%

丁丁鲤史纪
2026-04-28 16:16:09
美国脱口秀主持人涉梅拉尼娅言论惹争议 特朗普要求ABC立即将其解雇

美国脱口秀主持人涉梅拉尼娅言论惹争议 特朗普要求ABC立即将其解雇

新浪财经
2026-04-28 06:33:45
我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

我敢说,大部分会跟我一样,选择黑色衣服那个女孩!

草莓解说体育
2026-04-12 17:05:01
G1胜广东采访!米歇尔强调针对性准备+肯定徐昕,而徐昕一针见血

G1胜广东采访!米歇尔强调针对性准备+肯定徐昕,而徐昕一针见血

篮球资讯达人
2026-04-28 22:47:06
放话了,太阳队老板在球队被雷霆队首轮横扫后称已开始筹划下一步

放话了,太阳队老板在球队被雷霆队首轮横扫后称已开始筹划下一步

好火子
2026-04-29 00:26:37
“你的岗位被AI取代了”,杭州35岁男子收到通知傻眼了,拒绝大幅降薪后被单位开除……法院:公司违法,支付2N赔偿金

“你的岗位被AI取代了”,杭州35岁男子收到通知傻眼了,拒绝大幅降薪后被单位开除……法院:公司违法,支付2N赔偿金

都市快报橙柿互动
2026-04-28 21:35:03
千年难遇的美人,太漂亮了,没有一点毛病,太完美了

千年难遇的美人,太漂亮了,没有一点毛病,太完美了

情感大头说说
2026-04-24 12:46:24
成都“牵手门”事件女主现今状况曝光,太惨了......

成都“牵手门”事件女主现今状况曝光,太惨了......

许三岁
2026-03-17 07:34:05
立讯精密:半年度净利同比预增18%~22%

立讯精密:半年度净利同比预增18%~22%

每日经济新闻
2026-04-29 00:31:46
50岁男子肌肉溶解离世,医生痛心提醒:长期吃降脂药犯了5个错误

50岁男子肌肉溶解离世,医生痛心提醒:长期吃降脂药犯了5个错误

垚垚分享健康
2026-04-28 11:15:14
“运动”和“不运动”的中年男人,看他的体态就知道了,差别太大

“运动”和“不运动”的中年男人,看他的体态就知道了,差别太大

马拉松跑步健身
2026-04-28 21:14:16
为什么失业集中发生在2026年?揭露4个扎心真相

为什么失业集中发生在2026年?揭露4个扎心真相

慧翔百科
2026-04-28 11:50:58
聚焦服务业扩能提质|我国养老服务业发展迈出新步伐

聚焦服务业扩能提质|我国养老服务业发展迈出新步伐

新华社
2026-04-27 22:04:28
238元买不到 微信15周年限量皮肤衣开卖

238元买不到 微信15周年限量皮肤衣开卖

快科技
2026-04-27 18:59:35
10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

10亿都救不了一命!京东副总裁蔡磊,生命进入倒计时

听风喃
2026-04-06 11:16:04
一个错误决定,使这个全球最幸福的国家,沦落为“强奸第一大国”

一个错误决定,使这个全球最幸福的国家,沦落为“强奸第一大国”

莫地方
2026-04-29 00:50:03
2026-04-29 01:39:00
Ping值焦虑
Ping值焦虑
有态度网友ytd
1799文章数 29关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

头条要闻

19岁中国女孩被困缅甸 交20万赎金园区仍未放人

体育要闻

魔术黑八活塞,一步之遥?!

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

中央政治局会议定调,八大看点速览!

汽车要闻

拒绝疯狂套娃!现代艾尼氪金星长在未来审美点上

态度原创

时尚
艺术
手机
亲子
军事航空

普通女性春天穿什么好看?这些穿搭值得借鉴,自然舒适

艺术要闻

京东浙江总部公示,99.99米高,中国第一民企落子民营大省!

手机要闻

三星裸眼3D屏来了,广告牌能“跳”出来

亲子要闻

有一点点近视,到底要不要戴眼镜?

军事要闻

德国总理默茨:美国正遭受伊朗领导层的羞辱

无障碍浏览 进入关怀版