网易首页 > 网易号 > 正文 申请入驻

硅基流动:关于 DeepSeek-R1 API 的评测,至少有 7 个误区

0
分享至

编辑注:关于大模型能力,以及 API 的速度等的评测,一直没有什么统一的标准,也因此出现了不少评测文章各说各话、相互矛盾的现象。 硅基流动的这篇文章,以 DeepSeek-R1 为案例,梳理了大家在api 评测时常见的误区。 总之一句话,评测看了很多,不如自己上手实际体验。

随着硅基流动的 SiliconCloud 等平台上线 DeepSeek-R1,市面上出现了不少测试各大厂商 API 服务的评测文章及反馈,不过,从我们收到的不少内容及反馈来看,其中的对比测试方式多有漏洞,内容质量参差不齐。

由于 API 服务评测的测试要素及对齐条件较多,一旦影响因子设置不一致,很容易得到有缺陷的评测数据与结论。现实测评情况也表明,这的确是一项较高门槛的工作。

我们相信,多数评测者无意给出不客观的评测报告——即使是专家级大模型评测者,如果考虑不周,出错也在所难免。然而,错误评测结果造成的客观后果是,可能误导不明真相的用户,同时给模型服务供应商造成困扰并影响品牌声誉。

考虑到要为 API 评测内容付出不小的答疑与解释成本,我们认为有必要专门做一点误区澄清工作。

本文是硅基流动“大模型 API 评测指南”系列第一篇。我们将以 DeepSeek-R1 API 评测为例,解析当下评测内容或质疑存在的误会。以下误区摘编自公开内容,为防止产生不必要争议,除硅基流动、DeepSeek 外隐去其他厂商名称。

Founder Park 正在搭建开发者社群,邀请积极尝试、测试新模型、新技术的开发者、创业者们加入,请扫码详细填写你的产品/项目信息,通过审核后工作人员会拉你入群~

进群之后,你有机会得到:

  • 高浓度的主流模型(如 DeepSeek 等)开发交流;

  • 资源对接,与 API、云厂商、模型厂商直接交流反馈的机会;

  • 好用、有趣的产品/案例,Founder Park 会主动做宣传。

01第三方 R1 降智,不是满血版?

误区:“在某应用调了硅基流动、xx 的 DeepSeek-R1 API,效果不如在 DeepSeek 官方 App / 网页版 与 xx 应用上使用,感觉不是满血版 R1。”

解析:对比 DeepSeek-R1 服务效果,不应该将 API 与 App / 网页端放在一起作混合对比,而是重点需要测试平台的 API 服务,同时确保在测试时系统提示词、超参数(Temperature、Top-p、Top-k)等指标是一致的。

可以确定的是,市面上知名的第三方平台部署的都是“满血版 R1(671B)”,之所以用户使用感受有差异,是因为模型输出的随机性、平台提供的配套功能及超参数设置等可能不一致,而非底层模型本身的差异。

市面上基本不存在“非满血版 R1”,也基本不存在所谓模型“降智”,而 R1 蒸馏版(70B、1.5B等)与满血版的效果差距很明显,一般知名服务商都会注明,如果这些平台提供所谓“非满血版 R1”,很容易测试出来,这完全是自砸招牌,所以他们没有动机“以次充好”。

02官方 R1 是原版,第三方是量化版?

误区:“国内的这些所谓满血版 R1 跟 DeepSeek 官方感觉还是有区别,xx 部署的应该是 FP8 量化。”

解析:DeepSeek 官方开源 R1 的权重本身就是 FP8(量化),且声明他们部署的也是开源版本,并没有所谓的官方特供版,所以原版的 FP8 R1 和“满血版 R1”其实指的是同一个模型。市面上还没有公开的 BF16 版 R1,如果要跑 BF16 推理,还需要通过将 FP8 反量化回 BF16,也没有证据表明 BF16 R1 比“满血版 R1(FP8)”精度更高。

另外,大模型不同的量化方案精度测试本身有很多影响因素,不同量化方案在实际场景中各有收益。不同精度的模型可能在极少数边缘案例上有差别,但也只能对比最后的测试效果。

在效果测试时,非盲评测试可能会受到主观因素影响,甚至答案的先后顺序也会影响最终评测结果,无法证明各平台所提供 DeepSeek-R1 API 能力存在明显差异。我们认为,如果在双盲测试后各家 API 效果接近(或用户在日常场景中感觉不出区别),可认为这些平台的模型精度是一致的。

03云平台 API 不能联网、上传文件?误区:“综合测评分析,xx 云平台在功能性上更胜一筹,不仅能够支持语音输入,还能够进行文件上传;仅有 xx 应用支持图片上传。”

解析:包括 DeepSeek-R1 在内的任一模型天然不支持联网搜索、文件上传等功能,而是需要平台/应用方做额外的功能开发。

大模型云服务平台与上层应用面向不同的用户群体,不应该混为一谈对比产品功能。推理云服务提供商主要提供的是面向开发者的 API 服务,一般 C 端用户需通过第三方应用调用 API。Chatbot 等应用直接面向 C 端用户,所以联网、文件上传等配套功能做得比较齐全。

目前,为方便 C 端用户直接体验 DeepSeek-R1 API 服务,多数云服务平台也开始提供联网搜索、文件上传等功能,硅基流动正在内测支持这些功能,后续也将公开发布供用户使用。

04同样的超参数,硅基流动的 R1 输出乱码?

误区:“同一篇文章大纲,相同的提示词,同一个参数温度,硅基流动输出的内容胡乱瞎说,中间还有一段居然输出中文,xx 基本上跟官方保持一致。”

解析:硅基流动 SiliconCloud 的 API 支持调整 DeepSeek-R1 的 Temperature,但包括 DeepSeek 官方在内的部分平台不支持调整 R1 的 Temperature。

因此,在测试模型输出准确率时,如果将所有平台的 Temperature 设置为 0,那么官方与其他平台的 Temperature 实际是最佳值 0.6,但硅基流动的 DeepSeek-R1 API 的 Temperature 设置为 0 会生效,输出效果可能变差,从而造成不准确的测试结果。

05第三方 API 答题准确率有显著差异?

误区:“此前,DeepSeek-R1 官方在 AIME 2024 基准测试中取得了 79.8% 的 pass@1 得分。而此次我们通过 Python 脚本进行测评 AIME 题库下,正确率由高到低依次是:xx 83.33% ;官方 Deepseek 73.33% ;xx 71.67% ;xx 58.33% 。其中 xx、 Deepseek 各网络状态下表现平稳,测试均为一遍过,30 道题全部响应,测得比较省心。”

解析:单次(或几次)测试结果充满了随机性。DeepSeek 官方测出来 79.8% 的 pass@1 得分,这里测试一次的结果是 73.33%,数据显然有出入,这肯定也不是 DeepSeek 官方给出的数据有误,而是模型输出概率所导致的不一致结果。

以某评测者的“人类头发数量的乘积是多少?“在各平台的单次测试为例,其结论是”可以看出,官方和国外平台都是良心的满分,其他的两个平台要点名批评,不知道在做什么。“事实是,多测试几次后就会发现,硅基流动等平台也能做对,且 DeepSeek 官方平台可能会做错,这证明了大模型输出的随机性以及单次测试的局限性。

也有评测者在多次测试取平均后发现,知名平台的准确率并无差异,并修正了评测结论。

(来源:https://zhuanlan.zhihu.com/p/26343102498)

我们认为,人工盲评目前是测试各平台 DeepSeek-R1 API 准确性的最优方案。在数量足够、数据的分布多样化足够的情况下,如果无法区分出各平台模型 API 的能力,可认为这些平台所提供的模型能力相同。Chatbot Anera(https://lmarena.ai/)采用的即是双盲测试,被业内视为最具代表性的模型能力评测方案。

06第三方 API 推理字数太少?

误区:“测试了四道题,xx、xx、xx 等平台的生成内容的总字数都接近三千字,其中推理字数占比分别达到 68%、69% 以及 60%,展现出更强的逻辑延展性,相较之下,部分平台仅能提供浅层推理。”

解析:再次强调,单次(或几次)测试结果充满了随机性。况且,模型输出越长不等于精度更高,好比话痨不一定更聪明。


07硅基流动的 R1 测试时无响应?

误区:“硅基流动提供了 R1 模型调用,但 90% 的调用请求都会超时 60s,只有 10% 的请求结果是正常的,计算推理速度不具有参考性,本质还是算力资源受限。”

解析:在相同的测试时点,不同平台的资源占用情况可能不一,单次(或几次) API 效果与速度测试的结果存在较大误差,较为公平的方式是测试多次取平均值。

(来源:https://mp.weixin.qq.com/s/ahSUs-zQTkMB6smVUKDzcg)

此前,为响应诸多开发者提出的更稳定 DeepSeek-R1 & V3 服务的呼声,硅基流动 SiliconCloud 平台开始提供分为普通版(可使用免费 Token)与 Pro 版(面向付费用户,更稳定)的 R1 & V3,两套模型的能力并没有区别。

不少评测仅仅测试了 SiliconCloud 平台的普通版 R1,由于该版本使用免费 Token 的用户流量非常大,尤其在白天工作时段使用高峰期较长,导致在测试时有较大概率出现模型没有输出或速度很慢,从而让不知情用户误解硅基流动 SiliconCloud 无法提供稳定的 R1 服务。

在此,恳请评测者测试时加入 Pro 版 R1,相信会有非常不错的效果。我们也在积极解决普通版 R1 资源供应的问题,建议对稳定性有较高要求的用户使用 Pro 版 DeepSeek-R1。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
欧洲下达“逐客令”,C919下调15米标准破局!西方垄断要破了

欧洲下达“逐客令”,C919下调15米标准破局!西方垄断要破了

标体
2026-04-09 11:07:07
霸凌全红婵群已解散,多个知名人士名单曝光,全是队友和朋友!

霸凌全红婵群已解散,多个知名人士名单曝光,全是队友和朋友!

眼光很亮
2026-04-08 12:25:48
美媒爆料美国未就涉伊朗临时停火协议及时与以色列协商,内塔尼亚胡否认

美媒爆料美国未就涉伊朗临时停火协议及时与以色列协商,内塔尼亚胡否认

环球网资讯
2026-04-09 08:41:50
吃完了宴席,两岸在上海谈妥,对赖清德改了称呼,郑丽文一锤定音

吃完了宴席,两岸在上海谈妥,对赖清德改了称呼,郑丽文一锤定音

小影的娱乐
2026-04-09 15:37:29
王毅突访朝鲜,不是礼节访问,是关键时刻的一次战略落子

王毅突访朝鲜,不是礼节访问,是关键时刻的一次战略落子

生活魔术专家
2026-04-09 13:01:50
重大胜利!美国高层召开新闻发布会,介绍针对伊朗行动的重大战果

重大胜利!美国高层召开新闻发布会,介绍针对伊朗行动的重大战果

小萝卜丝
2026-04-08 22:17:45
韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

韩女星朴娜莱和男性朋友在车上发生了性关系,两名经纪人被迫围观

西楼知趣杂谈
2026-04-09 09:35:17
A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

A股:2.5亿股民,今晚可能要兴奋得睡不着觉了,你知道为什么吗?

夜深爱杂谈
2026-04-09 16:37:53
黎巴嫩宣布全国哀悼

黎巴嫩宣布全国哀悼

南方都市报
2026-04-09 09:24:03
卖完80多个万达广场,个人财富缩水9成,王健林手里还剩什么?

卖完80多个万达广场,个人财富缩水9成,王健林手里还剩什么?

正经的烧杯1
2026-04-08 13:29:04
我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

我在非洲开餐馆,年入百万,娶了3个老婆,如今却很焦虑

千秋文化
2026-04-06 19:51:23
“预制菜”一上桌,人就跑光!商场餐饮的黄金时代真结束了?

“预制菜”一上桌,人就跑光!商场餐饮的黄金时代真结束了?

混沌录
2026-04-08 16:54:07
中国博士过剩!每年11万博士毕业,但高校机构坑位已经满了

中国博士过剩!每年11万博士毕业,但高校机构坑位已经满了

六子吃凉粉
2026-04-09 11:15:56
一个人顶一家公司!他光去年就结算了600亿!

一个人顶一家公司!他光去年就结算了600亿!

奋斗在韩国
2026-04-08 10:05:26
快讯!以色列宣布了!

快讯!以色列宣布了!

达文西看世界
2026-04-09 17:02:43
中国股市唯一赚钱最快的方法:持有一只股,保留50%仓位,长期做T

中国股市唯一赚钱最快的方法:持有一只股,保留50%仓位,长期做T

股经纵横谈
2026-04-09 18:01:46
农村酒席严查!2026新规落地,这3种酒坚决不能办,违者直接处罚

农村酒席严查!2026新规落地,这3种酒坚决不能办,违者直接处罚

复转这些年
2026-04-08 13:04:32
白宫打击伊朗决策内幕:拆解以方四步计划,CIA局长说“荒谬” 鲁比奥称“乱扯”

白宫打击伊朗决策内幕:拆解以方四步计划,CIA局长说“荒谬” 鲁比奥称“乱扯”

红星新闻
2026-04-09 18:24:30
星巴克中国“易主”,“新东家”亮相:将开更多新店!星巴克全球CFO:中国将继续是我们全球业务中非常重要的一部分

星巴克中国“易主”,“新东家”亮相:将开更多新店!星巴克全球CFO:中国将继续是我们全球业务中非常重要的一部分

每日经济新闻
2026-04-09 14:19:51
不声不响从7元涨到210,因为业绩概念涨了30倍,今天又快速拉板!

不声不响从7元涨到210,因为业绩概念涨了30倍,今天又快速拉板!

丁丁鲤史纪
2026-04-09 14:47:04
2026-04-09 21:16:49
FounderPark incentive-icons
FounderPark
关注AI创业,专注和创业者聊真问题
1194文章数 160关注度
往期回顾 全部

科技要闻

Meta凌晨首发闭源大模型 扎克伯格又行了?

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

头条要闻

白宫打击伊朗决策内幕披露:鲁比奥曾直言以计划乱扯

体育要闻

8万人面前心脏骤停 现在他还站在球场上

娱乐要闻

金莎官宣结婚 与老公孙丞潇相差18岁

财经要闻

停火首日,霍尔木兹仅有4艘船通过

汽车要闻

文飞掌舵,给神行者带来了什么?

态度原创

健康
教育
家居
旅游
亲子

干细胞抗衰4大误区,90%的人都中招

教育要闻

英语如何一年从90-100上到140呢,生词少了,读长句还有困难

家居要闻

清新自然 复古风尚

旅游要闻

文旅协作 | 金沙江上的“画廊”——永善桧溪农文旅融合赋能增收

亲子要闻

芬兰两岁娃被幼儿园“穷人床”卡死,好条件都在监狱里?

无障碍浏览 进入关怀版