网易首页 > 网易号 > 正文 申请入驻

10小时测完DeepSeek-V4!北大团队终结工程师噩梦?深扒大模型评测的“千亿生意”

0
分享至


DeepSeek-V4发布仅仅10小时后,一份全量自动化评测报告就出炉了。

操刀的是北京大学DCAI团队。

他们刚刚开源了一个面向大模型评测的新框架——One-Eval。

很多人可能会问:10个小时,很快吗?

在真实的AI工程界,这一效率提升堪称行业范式级突破。


过去,当老板扔来一个需求:“帮我测测这个新模型在代码、数学和长文本上的能力。”工程师往往面临繁重且低效的人工操作流程。


你要自己去海量开源资源中筛选适配评测基准集(Benchmark)。

你要自己写下载脚本、耗费精力做字段适配、调试各类复杂配置参数。

跑完之后还没完,你还得在繁杂运行日志中排查解析异常问题。

简单来说:真正用来让模型跑分的时间,还不如搭测试管道花的时间多。


10小时通关的背后,其实隐匿着一个长期被大众忽视,却估值高达数百亿美元的专业产业链。

真实的商业世界里,评测绝不仅仅是一份吃瓜群众爱看的跑分排行榜。

它是一门关于标准定义、数据壁垒与行业需求的顶级生意。

算力时代的评测痛点:传统评测行业积弊已久

为什么要拼了命地评测大模型?

因为千亿参数的模型训练太烧钱了。

对于底层模型厂商来说,评测分数是企业融资、获取算力资源的重要依据。

对于B端企业客户来说,分数就是决定要不要把核心业务(比如金融风控、医疗诊断)交给这个AI来处理的重要决策依据。

这催生了OpenCompass等一批优秀的传统评测框架。但随着模型越来越复杂,传统评测的静态模式弊端被彻底暴露了。


太难用。传统评测就像静态流水线,你需要逐项手动配置各类参数。一旦遇到模型输出的格式不那么规矩,程序就会直接中断,造成测评结果误判。

太黑盒。跑完只丢给你一个单一的量化分数。至于提示词是怎么拼的?评分规则、模型打分依据均无透明可查记录。一旦出了Bug,排查起来难度极大、无从溯源。


最致命的一点是:行业榜单公信力持续下滑。

模型在训练时“偷看”了考卷,这叫数据污染。

当所有的AI在基础测试里都能考出95分的高分时,榜单就失去了公信力。为了对抗这种污染,行业内甚至被迫引入检测模型对特定数据的置信度等手段,来甄别数据污染行为。


降维突围:北大One-Eval到底做对了什么?

当传统框架还停留在高度人工依赖的老旧模式时,北大团队开源的One-Eval,直接推出了 “智能体化” 的全新解法。

它完成了一次彻底的交互降维:不再是“写配置跑脚本”,而是自然语言驱动。

你只需要在对话框里敲一句大白话:“我想测试我的模型在金融、法律、医疗领域的表现,并看看幻觉情况如何。”


接下来,One-Eval的底层调度引擎会像专业调度引擎一样,自主开展工作。

它会自动识别你的意图,并匹配工具:指令跟随用IFEval,医疗用MedQA,法律用LegalBench,金融用FinanceQA。

选好之后,结构解析、参数配置、底层数据拉取,全部由系统后台静默完成。

一行配置都不用写。


更有意思的是,它打破了黑盒。

One-Eval引入了基于全局状态(Global State)的数据总线架构。评测的完整生命周期都被记录下来,一旦报错,断点清晰可见,全链路可追溯。


同时,它又展现出了严谨合理的系统设计思路——保留了“人工在环”(Human-in-the-Loop)。

在系统给出评测方案时,它会主动停下来,把上下文展示给你,等待人工审核确认后,再继续执行。


在复杂的主观评判场景下,这种人机协同远比盲目的全自动更让人安心。

当然,作为一款新生的开源工具,它也有当前的能力边界与适配局限。

根据其文档与架构特征,目前One-Eval内置的基准主要覆盖纯文本能力。

如果你需要测试非常复杂的真实软件工程能力(比如需要独立Docker沙盒环境的代码执行测试),目前依然是它的能力盲区。

行业深层收益:评测赛道的商业逻辑

如果说One-Eval是铺设铁路的修路大军,那么在铁路上建立行业服务壁垒、提供专业商业化服务,则是深谙行业商业化与资本运作逻辑。

这绝不仅是一个“卖软件授权”的单纯工具授权生意。


这门生意的买单方,是被 AI 升级需求倒逼的 B 端企业。

一边是持续融资布局的大模型研发企业,一边是急于把AI接入业务的《财富》500强企业。


在这个千亿规模的赛道里,头部公司的盈利逻辑被极其精密地设计为三个层层联动的盈利体系:

第一重:收取基础的企业服务费用

对于企业内部日常的自动化评测需求,商业平台切入了合规刚需。提供企业级的审计日志、权限管理等服务,按API调用量或席位收取合理的商业化服务费用。这构成了他们极其稳定的现金流底座。


第二重:垄断定义权,提供私有化专业评测认证服务

既然开源考卷被污染了,高分没人信了,商业公司顺势就接管了重新定义行业评测标准体系。

比如行业巨头Scale AI,他们推出了全新的SEAL排行榜。

这个榜单不玩静态代码谜题,直接引入真实人类专家进行盲测比对,从机制上规避数据泄露与刻意刷榜行为。

逻辑瞬间质变:基础模型公司如果想向投资人证明自己比竞品强,就必须花重金购买这种不可篡改的私有评测认证。

这就如同在开展商业化落地与资本市场估值前,你必须采购专业机构的权威评测认证。


第三重:“诊断+卖药”的数据引擎终极闭环

这是这门生意最核心的护城河,也是最具核心壁垒的商业闭环。

首先,评测系统通过大规模并发,精准定位模型在细分场景的能力短板与逻辑缺陷。

紧接着,它输出专业评测诊断报告向客户输出针对性改进指导。

最后,平台顺理成章地亮出底牌:若要针对性优化模型能力?买我们独家的高质量人工微调数据集吧。

你不仅要为它指出你的弱点付费,还要采购对应的专业微调数据集。


正是依托这套系统,Scale AI在2024年实现约 8.7 亿美元可观营收,毛利率稳定在50%左右。

资本给予了较高市场估值:Meta在2025年出资143亿美元,拿下了Scale AI 49%的股份,直接将其估值推向了290亿美元的巅峰。


大模型开发商融来的巨额资金中,有相当大一部分,就这样以购买数据和评测服务的形式,悄无声息地流进了这些“卖水人”的口袋。


大模型时代的淘金热远未结束。

无论是北大团队试图用自然语言交互打破繁文缛节的开源破局,还是商业巨擘用数据服务闭环构建商业壁垒的资本布局。

都在印证商业发展中一个恒久不变的规律:

在巨头林立、竞争激烈的新兴技术赛道中,掌握最终定价权的,往往不是技术迭代最快、投入最高的企业。

而是牢牢扼住底层度量衡、负责制定游戏规则的那个“裁判”。(本文首发钛媒体App,作者| AGI-Signal,编辑|林深)

声明:

本文分析基于开源库(如OpenDCAI/One-Eval)、公开财务数据及行业报告梳理。投资与创业存在极大不确定性,需留意大模型技术快速迭代及估值波动带来的行业不确定性。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
调查揭露:俄罗斯通过货运航班获取关键军工部件

调查揭露:俄罗斯通过货运航班获取关键军工部件

桂系007
2026-04-28 04:35:53
俞敏洪再遭重击

俞敏洪再遭重击

功夫财经
2026-04-28 08:18:11
64岁俞敏洪独居北京,妻儿定居加拿大原因曝光,原来他是身不由己

64岁俞敏洪独居北京,妻儿定居加拿大原因曝光,原来他是身不由己

阅微札记
2026-04-24 14:49:10
李想称理想领先大众两代?大众高管回应:仅价格与营销领先

李想称理想领先大众两代?大众高管回应:仅价格与营销领先

鞭牛士
2026-04-27 09:59:06
上海地铁2人互殴反转,原视频曝光,目击者发声,难怪女子不让座

上海地铁2人互殴反转,原视频曝光,目击者发声,难怪女子不让座

天天热点见闻
2026-04-28 03:12:13
朝鲜获赠德国“豹2”、美国M1A1坦克,这下朝鲜又有好东西山寨了

朝鲜获赠德国“豹2”、美国M1A1坦克,这下朝鲜又有好东西山寨了

蓝星杂谈
2026-04-27 17:33:21
张军被查,羽协主席谁接班?这四位大佬最有戏!

张军被查,羽协主席谁接班?这四位大佬最有戏!

林子说事
2026-04-27 15:50:12
美军最怕的事发生了:伊朗拆开炸弹和导弹,以色列的噩梦才刚开始

美军最怕的事发生了:伊朗拆开炸弹和导弹,以色列的噩梦才刚开始

旧铁皮往南开
2026-04-27 15:39:26
朱元璋的军事能力有多强悍?毛主席曾言:其是历史上第二军事家

朱元璋的军事能力有多强悍?毛主席曾言:其是历史上第二军事家

鹤羽说个事
2026-04-27 22:57:27
突然“值钱了”!很多人家里一堆!紧急提醒:别卖!

突然“值钱了”!很多人家里一堆!紧急提醒:别卖!

一口娱乐
2026-04-28 11:23:44
曼联2-1!赢球不可怕,可怕的是卡里克赛后这番话,没有满足!

曼联2-1!赢球不可怕,可怕的是卡里克赛后这番话,没有满足!

许礆很机智
2026-04-28 12:39:28
真硬汉!莫德里奇颧骨骨折脸部变形,手术前他问的却不是疼不疼

真硬汉!莫德里奇颧骨骨折脸部变形,手术前他问的却不是疼不疼

东方不败然多多
2026-04-28 12:09:14
蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

蔡少芬山姆购物,打扮超酷又瘦又高,买满三购物车太壕了

小武侃风云
2026-04-26 18:52:45
生理上能把男人喂饱的女人,是好女人

生理上能把男人喂饱的女人,是好女人

加油丁小文
2026-04-28 05:30:09
中国男篮国手王俊杰转校马塞诸塞大学 球队已长达12年未打进疯三

中国男篮国手王俊杰转校马塞诸塞大学 球队已长达12年未打进疯三

醉卧浮生
2026-04-28 10:15:54
张本智和:我不服松岛辉空!但击败中国最重要 联手夺冠+开创日本时代

张本智和:我不服松岛辉空!但击败中国最重要 联手夺冠+开创日本时代

舟望停云
2026-04-28 12:31:59
瑞幸抢先拿下“接水小猫”!怡宝痛失天选代言猫!

瑞幸抢先拿下“接水小猫”!怡宝痛失天选代言猫!

广告案例精选
2026-04-27 16:19:54
叶璇自曝父亲离世正与保姆争产,对方抢占祖坟地契,父亲仍未下葬

叶璇自曝父亲离世正与保姆争产,对方抢占祖坟地契,父亲仍未下葬

调侃国际观点
2026-04-27 23:42:11
像梁文峰一样诚实

像梁文峰一样诚实

蓝鲸新闻
2026-04-27 10:24:56
58年“将军下连”期间,毛主席当众点名一位中将:这家伙吃不了苦

58年“将军下连”期间,毛主席当众点名一位中将:这家伙吃不了苦

历史龙元阁
2026-04-27 12:20:17
2026-04-28 13:59:00
钛媒体APP incentive-icons
钛媒体APP
独立财经科技媒体
132884文章数 862119关注度
往期回顾 全部

科技要闻

10亿周活目标落空!传OpenAI爆发内部分歧

头条要闻

男子强奸大嫂出狱后又杀人 被执行死刑

头条要闻

男子强奸大嫂出狱后又杀人 被执行死刑

体育要闻

人类马拉松"破二"新纪元,一场跑鞋军备竞赛

娱乐要闻

蔡卓妍官宣结婚,老公比她小10岁

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

房产
旅游
家居
本地
公开课

房产要闻

信号!海南商业版图,迎来大变局!

旅游要闻

重庆秀山钟灵茶旅推广季迎“开门红”

家居要闻

江景风格 流动的秩序

本地新闻

用青花瓷的方式,打开西溪湿地

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版