网易首页

注册免费邮箱

网易首页 > 网易号 > 正文申请入驻

10小时测完DeepSeek-V4！北大团队终结工程师噩梦？深扒大模型评测的“千亿生意”

2026-04-28 09:43:16　来源: 钛媒体APP

北京举报

0

分享至

DeepSeek-V4发布仅仅10小时后，一份全量自动化评测报告就出炉了。

操刀的是北京大学DCAI团队。

他们刚刚开源了一个面向大模型评测的新框架——One-Eval。

很多人可能会问：10个小时，很快吗？

在真实的AI工程界，这一效率提升堪称行业范式级突破。

过去，当老板扔来一个需求：“帮我测测这个新模型在代码、数学和长文本上的能力。”工程师往往面临繁重且低效的人工操作流程。

你要自己去海量开源资源中筛选适配评测基准集（Benchmark）。

你要自己写下载脚本、耗费精力做字段适配、调试各类复杂配置参数。

跑完之后还没完，你还得在繁杂运行日志中排查解析异常问题。

简单来说：真正用来让模型跑分的时间，还不如搭测试管道花的时间多。

10小时通关的背后，其实隐匿着一个长期被大众忽视，却估值高达数百亿美元的专业产业链。

真实的商业世界里，评测绝不仅仅是一份吃瓜群众爱看的跑分排行榜。

它是一门关于标准定义、数据壁垒与行业需求的顶级生意。

算力时代的评测痛点：传统评测行业积弊已久

为什么要拼了命地评测大模型？

因为千亿参数的模型训练太烧钱了。

对于底层模型厂商来说，评测分数是企业融资、获取算力资源的重要依据。

对于B端企业客户来说，分数就是决定要不要把核心业务（比如金融风控、医疗诊断）交给这个AI来处理的重要决策依据。

这催生了OpenCompass等一批优秀的传统评测框架。但随着模型越来越复杂，传统评测的静态模式弊端被彻底暴露了。

太难用。传统评测就像静态流水线，你需要逐项手动配置各类参数。一旦遇到模型输出的格式不那么规矩，程序就会直接中断，造成测评结果误判。

太黑盒。跑完只丢给你一个单一的量化分数。至于提示词是怎么拼的？评分规则、模型打分依据均无透明可查记录。一旦出了Bug，排查起来难度极大、无从溯源。

最致命的一点是：行业榜单公信力持续下滑。

模型在训练时“偷看”了考卷，这叫数据污染。

当所有的AI在基础测试里都能考出95分的高分时，榜单就失去了公信力。为了对抗这种污染，行业内甚至被迫引入检测模型对特定数据的置信度等手段，来甄别数据污染行为。

降维突围：北大One-Eval到底做对了什么？

当传统框架还停留在高度人工依赖的老旧模式时，北大团队开源的One-Eval，直接推出了 “智能体化” 的全新解法。

它完成了一次彻底的交互降维：不再是“写配置跑脚本”，而是自然语言驱动。

你只需要在对话框里敲一句大白话：“我想测试我的模型在金融、法律、医疗领域的表现，并看看幻觉情况如何。”

接下来，One-Eval的底层调度引擎会像专业调度引擎一样，自主开展工作。

它会自动识别你的意图，并匹配工具：指令跟随用IFEval，医疗用MedQA，法律用LegalBench，金融用FinanceQA。

选好之后，结构解析、参数配置、底层数据拉取，全部由系统后台静默完成。

一行配置都不用写。

更有意思的是，它打破了黑盒。

One-Eval引入了基于全局状态（Global State）的数据总线架构。评测的完整生命周期都被记录下来，一旦报错，断点清晰可见，全链路可追溯。

同时，它又展现出了严谨合理的系统设计思路——保留了“人工在环”（Human-in-the-Loop）。

在系统给出评测方案时，它会主动停下来，把上下文展示给你，等待人工审核确认后，再继续执行。

在复杂的主观评判场景下，这种人机协同远比盲目的全自动更让人安心。

当然，作为一款新生的开源工具，它也有当前的能力边界与适配局限。

根据其文档与架构特征，目前One-Eval内置的基准主要覆盖纯文本能力。

如果你需要测试非常复杂的真实软件工程能力（比如需要独立Docker沙盒环境的代码执行测试），目前依然是它的能力盲区。

行业深层收益：评测赛道的商业逻辑

如果说One-Eval是铺设铁路的修路大军，那么在铁路上建立行业服务壁垒、提供专业商业化服务，则是深谙行业商业化与资本运作逻辑。

这绝不仅是一个“卖软件授权”的单纯工具授权生意。

这门生意的买单方，是被 AI 升级需求倒逼的 B 端企业。

一边是持续融资布局的大模型研发企业，一边是急于把AI接入业务的《财富》500强企业。

在这个千亿规模的赛道里，头部公司的盈利逻辑被极其精密地设计为三个层层联动的盈利体系：

第一重：收取基础的企业服务费用

对于企业内部日常的自动化评测需求，商业平台切入了合规刚需。提供企业级的审计日志、权限管理等服务，按API调用量或席位收取合理的商业化服务费用。这构成了他们极其稳定的现金流底座。

第二重：垄断定义权，提供私有化专业评测认证服务

既然开源考卷被污染了，高分没人信了，商业公司顺势就接管了重新定义行业评测标准体系。

比如行业巨头Scale AI，他们推出了全新的SEAL排行榜。

这个榜单不玩静态代码谜题，直接引入真实人类专家进行盲测比对，从机制上规避数据泄露与刻意刷榜行为。

逻辑瞬间质变：基础模型公司如果想向投资人证明自己比竞品强，就必须花重金购买这种不可篡改的私有评测认证。

这就如同在开展商业化落地与资本市场估值前，你必须采购专业机构的权威评测认证。

第三重：“诊断+卖药”的数据引擎终极闭环

这是这门生意最核心的护城河，也是最具核心壁垒的商业闭环。

首先，评测系统通过大规模并发，精准定位模型在细分场景的能力短板与逻辑缺陷。

紧接着，它输出专业评测诊断报告向客户输出针对性改进指导。

最后，平台顺理成章地亮出底牌：若要针对性优化模型能力？买我们独家的高质量人工微调数据集吧。

你不仅要为它指出你的弱点付费，还要采购对应的专业微调数据集。

正是依托这套系统，Scale AI在2024年实现约 8.7 亿美元可观营收，毛利率稳定在50%左右。

资本给予了较高市场估值：Meta在2025年出资143亿美元，拿下了Scale AI 49%的股份，直接将其估值推向了290亿美元的巅峰。

大模型开发商融来的巨额资金中，有相当大一部分，就这样以购买数据和评测服务的形式，悄无声息地流进了这些“卖水人”的口袋。

大模型时代的淘金热远未结束。

无论是北大团队试图用自然语言交互打破繁文缛节的开源破局，还是商业巨擘用数据服务闭环构建商业壁垒的资本布局。

都在印证商业发展中一个恒久不变的规律：

在巨头林立、竞争激烈的新兴技术赛道中，掌握最终定价权的，往往不是技术迭代最快、投入最高的企业。

而是牢牢扼住底层度量衡、负责制定游戏规则的那个“裁判”。（本文首发钛媒体App，作者｜ AGI-Signal，编辑｜林深）

声明：

本文分析基于开源库（如OpenDCAI/One-Eval）、公开财务数据及行业报告梳理。投资与创业存在极大不确定性，需留意大模型技术快速迭代及估值波动带来的行业不确定性。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐

热点推荐

ARR超3亿，这家硅谷独角兽成了全球3D生成AI热门选手

36氪 2026-04-28 12:13:59
0 跟贴 0
李飞飞引爆的3D新技术，为什么这家深圳公司两年前就“玩腻”了？

量子位 2026-04-27 17:27:09
2 跟贴 2

模型大战后，AI竞争的下半场在哪里？| Talk to The World @斯坦福

钛媒体APP 2026-04-28 10:45:06
0 跟贴 0

AI最疯狂的一周，该知道的8大共识都在这了

智东西 2026-04-26 21:57:35
0 跟贴 0
大模型的下半场，属于拥有云+AI全栈引擎的玩家

量子位 2026-01-30 03:29:45
0 跟贴 0

从仓库到工厂，具身智能产业应用的“GPT时刻”还有多远？

钛媒体APP 2026-04-27 11:12:17
0 跟贴 0

最强大模型，保质期越来越短了

钛媒体APP 2026-04-28 12:41:16
0 跟贴 0
为什么威尔·史密斯吃面是AI视频的行业标准？

beebee 2026-04-28 11:14:40
0 跟贴 0

对话芯展速李蓁：PCIe 5.0时代，Retimer为何从“配角”走向“刚需”

钛媒体APP 2026-04-28 13:36:15
0 跟贴 0
00后小哥复刻Claude最强神话模型OpenMythos

量子位 2026-04-23 11:44:18
0 跟贴 0
意大利逮捕中国高级工程师，准备送往美国！孟晚舟案翻版再现！

娱界新视野 2026-04-27 08:42:20
26 跟贴 26
硅谷华裔工程师亲历中国两周：三大差异显核心差距

雨月海星 2026-04-27 20:04:56
19 跟贴 19
DeepSeek V4大模型催化，半导体设备ETF国泰（159516）涨超1%

每日经济新闻 2026-04-28 10:56:13
0 跟贴 0
伊朗怒甩谈判方案，每一条都戳在美国“心窝”，美国想躲躲不掉 03

谷火平 2026-04-27 15:38:22
0 跟贴 0
【炸裂】印度千吨“钢铁巨兽”过桥惊魂！10天赶工桥扛住了，钢丝绳却崩了，网友：三哥这操作太离谱

太极本草 2026-04-27 20:14:16
0 跟贴 0
岁工程师突然痴呆、打老婆、找不到家门，查遍医院没结果。最

夜里看海 2026-04-28 01:08:28
0 跟贴 0
上海迪士尼回应游客劝阻吸烟被打：园区没有禁烟；被打男子发声：对方已赔钱和解

中国新闻周刊 2026-04-27 14:25:00
15043 跟贴 15043
涵林（原众智）机器人培训学院：真实项目驱动的实战型工程师培养

九州新闻 2026-04-28 12:36:32
0 跟贴 0
31岁工程师枪击特朗普，身份疑涉以色列情报机构

冷峻视角下的世界 2026-04-28 11:38:55
0 跟贴 0
比亚迪第1600万辆车下线，工程师站C位，高端MPV腾势D9进入第二代

光电科技君 2026-04-26 14:55:23
9 跟贴 9
电气工程师经常出差的原因

顺子顺子 2026-04-24 20:38:11
0 跟贴 0
重庆移通学院优秀毕业生报导之四:从专升本到美团工程师，他在移通敲开世界500强的大门

中国网 2026-04-28 12:08:06
0 跟贴 0
车展现场：外国工程师趴地量底盘，合资降价十万无人问津

深海的秘密 2026-04-27 03:12:02
0 跟贴 0
1960年代精巧绘图工具套装，工程师的心头好物

装甲铲史官 2026-03-12 10:35:44
0 跟贴 0
工程师租8张H100复现mHC架构，数据反超原论文

量子位 2026-01-30 03:29:45
0 跟贴 0
银城拍案｜手握金线，跨越底线——一名工程师的“一念之差”

同安检察 2026-04-28 11:52:41
0 跟贴 0
【热门岗位】这里有岗在招！快递分拣员、汽车工艺工程师等，速戳！

随州网 2026-04-28 11:52:07
0 跟贴 0
深度解读Deepseek-V4：注意力压缩 /1M 上下文/ MoE架构

卢菁老师 2026-04-27 02:14:19
0 跟贴 0
一大批高校，将搬迁！

吉刻新闻 2026-04-27 16:08:43
897 跟贴 897
给汽车装上大脑：火山引擎的时机、策略和卡位

晚点LatePost 2026-04-26 23:13:33
0 跟贴 0
小男孩翻出窗外玩耍，妈妈上一秒耐心劝导，下一秒一把将其拽回… 窗边安全，万不可松懈！#睡个好觉

环球网资讯 2026-04-27 22:19:39
114 跟贴 114
女子饭店包间为狗狗过生日，未打扰其他顾客

华声在线 2026-04-27 19:08:23
292 跟贴 292
“龙虾”驾到，车圈“红”了

中国企业家杂志 2026-04-28 11:30:19
0 跟贴 0
对话芯擎科技汪凯：舱驾相当于具身智能「大小脑」，舱驾一体是对性价比极致追求

新浪财经 2026-04-28 12:55:21
0 跟贴 0
神州数码：公司在CANN生态大模型服务器领域已有中标项目，具备相应的技术与交付能力

每日经济新闻 2026-04-28 12:21:04
0 跟贴 0
工信部直属中国信通院正式启动DeepSeek V4国产化适配测试工作

每日经济新闻 2026-04-28 02:41:34
0 跟贴 0
八岁小女孩和顶级狙击手比射击，技术连狙击手都自愧不如

易飞电影1 2026-04-28 03:04:33
0 跟贴 0
文旅部集中整治景区摆渡车，点名龙虎山、长白山、稻城亚丁等

南方都市报 2026-04-27 16:21:12
1907 跟贴 1907
聚飞光电：近期部分细分产品根据成本传导机制和合同约定价格有调整

每日经济新闻 2026-04-28 12:54:20
0 跟贴 0
赵心童攻防兼备的六边形战力！技术全面没有短板，被晖哥高度赞赏

左脚爆射得分 2026-04-28 11:58:14
0 跟贴 0

调查揭露：俄罗斯通过货运航班获取关键军工部件

调查揭露：俄罗斯通过货运航班获取关键军工部件

桂系007

2026-04-28 04:35:53

俞敏洪再遭重击

功夫财经

2026-04-28 08:18:11

64岁俞敏洪独居北京，妻儿定居加拿大原因曝光，原来他是身不由己

64岁俞敏洪独居北京，妻儿定居加拿大原因曝光，原来他是身不由己

阅微札记

2026-04-24 14:49:10

李想称理想领先大众两代？大众高管回应：仅价格与营销领先

李想称理想领先大众两代？大众高管回应：仅价格与营销领先

鞭牛士

2026-04-27 09:59:06

上海地铁2人互殴反转，原视频曝光，目击者发声，难怪女子不让座

上海地铁2人互殴反转，原视频曝光，目击者发声，难怪女子不让座

天天热点见闻

2026-04-28 03:12:13

朝鲜获赠德国“豹2”、美国M1A1坦克，这下朝鲜又有好东西山寨了

朝鲜获赠德国“豹2”、美国M1A1坦克，这下朝鲜又有好东西山寨了

蓝星杂谈

2026-04-27 17:33:21

张军被查，羽协主席谁接班？这四位大佬最有戏！

张军被查，羽协主席谁接班？这四位大佬最有戏！

林子说事

2026-04-27 15:50:12

美军最怕的事发生了：伊朗拆开炸弹和导弹，以色列的噩梦才刚开始

美军最怕的事发生了：伊朗拆开炸弹和导弹，以色列的噩梦才刚开始

旧铁皮往南开

2026-04-27 15:39:26

朱元璋的军事能力有多强悍？毛主席曾言：其是历史上第二军事家

朱元璋的军事能力有多强悍？毛主席曾言：其是历史上第二军事家

鹤羽说个事

2026-04-27 22:57:27

突然“值钱了”！很多人家里一堆！紧急提醒：别卖！

突然“值钱了”！很多人家里一堆！紧急提醒：别卖！

一口娱乐

2026-04-28 11:23:44

曼联2-1！赢球不可怕，可怕的是卡里克赛后这番话，没有满足！

曼联2-1！赢球不可怕，可怕的是卡里克赛后这番话，没有满足！

许礆很机智

2026-04-28 12:39:28

真硬汉！莫德里奇颧骨骨折脸部变形，手术前他问的却不是疼不疼

真硬汉！莫德里奇颧骨骨折脸部变形，手术前他问的却不是疼不疼

东方不败然多多

2026-04-28 12:09:14

蔡少芬山姆购物，打扮超酷又瘦又高，买满三购物车太壕了

蔡少芬山姆购物，打扮超酷又瘦又高，买满三购物车太壕了

小武侃风云

2026-04-26 18:52:45

生理上能把男人喂饱的女人，是好女人

生理上能把男人喂饱的女人，是好女人

加油丁小文

2026-04-28 05:30:09

中国男篮国手王俊杰转校马塞诸塞大学球队已长达12年未打进疯三

中国男篮国手王俊杰转校马塞诸塞大学球队已长达12年未打进疯三

醉卧浮生

2026-04-28 10:15:54

张本智和：我不服松岛辉空！但击败中国最重要联手夺冠+开创日本时代

张本智和：我不服松岛辉空！但击败中国最重要联手夺冠+开创日本时代

舟望停云

2026-04-28 12:31:59

瑞幸抢先拿下“接水小猫”！怡宝痛失天选代言猫！

瑞幸抢先拿下“接水小猫”！怡宝痛失天选代言猫！

广告案例精选

2026-04-27 16:19:54

叶璇自曝父亲离世正与保姆争产，对方抢占祖坟地契，父亲仍未下葬

叶璇自曝父亲离世正与保姆争产，对方抢占祖坟地契，父亲仍未下葬

调侃国际观点

2026-04-27 23:42:11

像梁文峰一样诚实

蓝鲸新闻

2026-04-27 10:24:56

58年“将军下连”期间，毛主席当众点名一位中将：这家伙吃不了苦

58年“将军下连”期间，毛主席当众点名一位中将：这家伙吃不了苦

历史龙元阁

2026-04-27 12:20:17

独立财经科技媒体

132884文章数 862119关注度

往期回顾全部

科技要闻

10亿周活目标落空！传OpenAI爆发内部分歧

头条要闻

男子强奸大嫂出狱后又杀人被执行死刑

头条要闻

男子强奸大嫂出狱后又杀人被执行死刑

体育要闻

人类马拉松"破二"新纪元，一场跑鞋军备竞赛

娱乐要闻

蔡卓妍官宣结婚，老公比她小10岁

财经要闻

俞敏洪再遭重击

汽车要闻

上汽大众“攻山头” ID.ERA 9X剑指细分前三

态度原创

+arrTaiduYuanC[i].tag+' | '+arrTaiduYuanC[i].title+'
\

房产

旅游

家居

本地

公开课

房产要闻

信号！海南商业版图，迎来大变局！

旅游要闻

重庆秀山钟灵茶旅推广季迎“开门红”

家居要闻

江景风格流动的秩序

本地新闻

用青花瓷的方式，打开西溪湿地

公开课

李玫瑾：为什么性格比能力更重要？

© 1997-2026 网易公司版权所有 About NetEase | 公司简介 | 联系方法 | 招聘信息 | 客户服务 | 隐私政策 | 不良信息举报 Complaint Center | 廉正举报 | 侵权投诉

无障碍浏览进入关怀版