网易首页 > 网易号 > 正文 申请入驻

科大讯飞:纯国产算力的星火X1新版本预计在3月内完成

0
分享至

IT之家 2 月 13 日消息,科大讯飞今晚发布了最新的投资者关系活动记录表,主要针对 DeepSeek 方面的问题进行解答。

科大讯飞表示,正在训练的纯国产算力的星火 X1 新版本预计在 3 月内完成,预期可以实现数学答题和过程思维链能力全面对标甚至超过 OpenAI o1。

此外,科大讯飞还表示他们正在将 X1 深度推理模型进一步结合与中国教科院等诸多教育专家的合作,通过专业知识反思及长思维链强化学习结合,生成符合教育教学需求的“教学思维链”,提高复杂场景推理的逻辑正确性、专业性、可解释性,并将率先用于教师助手、批改、辅学等全系产品创新,预计在 2025 世界数字教育大会期间发布教育专属大模型和创新应用。

IT之家摘选部分重点信息如下:

DeepSeek R1 快速对标 o1 的主要创新是其提出并实现的 R1-Zero 强化学习训练方案,即直接在 DeepSeek-V3-base 预训练模型上进行大规模强化学习训练,可在数学、代码等推理任务上得到接近 o1 模型的效果,而不依赖任何有监督微调(SFT),这是当前国内外公开已知的、在大规模任务上获得成功效果的首个发布成果,之前学术界已有相关研究,但因为预训练基座模型不够好而使得强化学习的收益不好,这一成果具有较强的创新性,大大减少了数学、代码等任务训练对人工标注推理过程数据的需求。
DeepSeek R1 并不是唯一高水平的国产深度推理大模型。2024 年 9 月 OpenAI o1-preview 发布以后,国内技术领先的大模型厂商也在快速跟进。科大讯飞基于此前在评语模型、强化学习方面的积累,在 2024 年 10 月就实现了蒙特卡洛树搜索(MCTS)等算法创新并跑通了深度推理模型训练算法,因为只能使用国产算力,我们额外花费 2 个月完成华为昇腾 910B 算力的适配和优化并大幅提升训练效率(训练效率相比 A100 从 55% 提升到 85%),于今年 1 月 15 日完成了星火深度推理模型 X1 的训练和发布。虽然当前 X1 模型很小(仅 130 亿参数),但依靠我们算法和数据优势,星火 X1 已达到可以和 OpenAI o1-preview 对标的水平;随着国产算力的逐步到位,模型参数增加后,我们完全有信心实现数学答题和过程思维链能力全面对标甚至超过 OpenAI o1。此外,结合与中国教科院等诸多教育专家的合作成果,我们将使得 X1 的思维链结果更加符合教育教学的专业要求,在教育、医疗等领域实现更大的应用赋能价值。
DeepSeek 团队围绕 DeepSeek V3 和 R1 的训练和推理降本,实现了多个有效的软硬件结合深度工程优化创新,包括 MLA(通过低秩矩阵对 KV 矩阵进行压缩显著降低 GPU 显存的消耗)、MTP(通过多帧预测提升数据利用率及训练效果和推理效率)、DualPipe(通过更底层的 PTX 指令优化英伟达 GPU 计算和通信的并行)、FP8 混合精度训练(业界首次使用 8Bit 量化浮点数方式实现超大规模模型的训练,以往都是使用 16Bit 量化),最终 DeepSeek 基于 2048 张英伟达 H800 卡,约 560 万美元就能完成 V3 模型的一次完整预训练。另外,DeepSeek R1 因为涉及基于大量数据的强化学习迭代训练,其成本未公布。
和 DeepSeek 类似,科大讯飞受限于有限的算力资源,过去几年关于星火大模型训练和推理成本效率的持续优化也做了大量投入,和 DeepSeek 直接使用英伟达 H800 卡上开展的各种工程优化不同,科大讯飞选择了更难的全国产算力路线。从 2023 年 5 月起科大讯飞就联合华为先后攻克了万卡高速互联组网、计算通信隐藏、训练推理强交互、高吞吐推理优化以及国产算子优化等一系列难题,将通用大模型、类 o1 的深度推理模型等的训练效率对标 A100 均从最初的 30%-50% 优化达到了 85%-95% 以上;以 DeepSeek 非常看重的万卡网络通信带宽的利用率为例,DeepSeek 报道的是 93%,而讯飞星火做到了 95%。训练成本也是讯飞星火大模型的竞争优势,我们单次训练成本和 DeepSeek V3 在一个层次,而且后面优化路径也很明确,目前以昇腾 910B 为代表的国产硬件还不支持 FP8 精度训练以及 DualPipe 的实现,随着国产算力在底层能力上进一步提升,讯飞星火的训练成本还有较大的下降空间。
需要特别说明的是,大模型对算力的需求为训练和推理两个方面,而训练实现的难度远大于推理。这就是虽然陆续有公司宣布可以在国产算力平台上提供 DeepSeek 在内等大模型的推理服务,但仍只有讯飞星火一家是训练和推理均在国产算力上进行的,并且仅用 1 万张 910B 国产算力卡,科大讯飞不仅用比友商少一个数量级的算力取得了大模型研发上的第一梯队成果,而且做了大量国产算力平台上的无人区的适配和效率优化,追求国产算力的极致效率,这比在英伟达上的实现更需要技术实力和战略勇气。
当前所有全民下载的通用大模型 App 中, 只有讯飞星火一家是训练和推理均在国产算力上进行的,仅用 1 万张 910B 国产算力卡,科大讯飞不仅用比友商少一个量级的算力取得了大模型研发上的一系列成果,而且做了大量国产算力平台上的无人区的适配和效率优化。虽然陆续有公司宣布可以在国产算力平台上提供 DeepSeek 在内等大模型的推理服务,但目前仍只有讯飞星火一家是训练和推理均在国产算力上进行的。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

“我用房子贷的款却进了他们口袋”,佛山一男子称遭遇套路贷;警方立案侦查,3人被批捕后取保候审

大风新闻
2026-03-26 16:56:40
迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

迟迟都等不到中企复工,巴拿马头号帮手已介入,中方加强港口管制

福建平子
2026-03-26 09:00:29
单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

单场定生死!世预赛欧附加赛半决赛:蓝衣军团救赎,黑马暗掀惊涛

侧身凌空斩
2026-03-26 13:04:09
流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

流量退去之后|南京“10元手冲咖啡”阿姨:火过,就很满足

澎湃新闻
2026-03-26 07:06:31
张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

张雪峰对苏州的综合贡献曝光!5年纳税8.5亿,间接经济拉动28亿

谈史论天地
2026-03-26 07:45:53
成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

成都世遗马拉松一女子赛道摆拍“一字马”,险绊倒后方选手!组委会:取消成绩、2027年禁赛

大象新闻
2026-03-25 17:53:10
伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

伊朗走出一步好棋 猛袭以色列中枢 思路一变天地宽 可改变战局

军评陈光文
2026-03-25 22:20:57
“中园石化”被立案调查

“中园石化”被立案调查

每日经济新闻
2026-03-25 11:13:18
12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

12年没踢世界杯了 意大利晋级2026世界杯需连赢2场 概率仅63%

智道足球
2026-03-26 18:08:45
越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

越打越出惊喜!以色列传来好消息,美军彻底歇菜:8年无法再开战

知法而形
2026-03-26 17:28:20
不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

不可错过!3月26日晚上18:00比赛!中央5套CCTV5、CCTV5+直播表

皮皮观天下
2026-03-26 15:29:55
男子查出肺癌,当场崩溃:肺癌早期不是咳嗽,而是这5种异常

男子查出肺癌,当场崩溃:肺癌早期不是咳嗽,而是这5种异常

DrX说
2026-03-26 15:00:09
张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

张雪峰猝死全过程曝光!知情人发声,本来可以活,3次机会没抓住

智慧生活笔记
2026-03-25 18:23:01
雷军晒成绩:小米SU7、YU7双双第一!

雷军晒成绩:小米SU7、YU7双双第一!

快科技
2026-03-26 13:09:04
伊朗重要人事任命,释放强烈信号!

伊朗重要人事任命,释放强烈信号!

斐君观点
2026-03-25 21:08:16
iPhone半夜自动打电话,苹果官网发文回应

iPhone半夜自动打电话,苹果官网发文回应

界面新闻
2026-03-26 15:46:22
短短1年,灵活就业者暴增4千万

短短1年,灵活就业者暴增4千万

深度报
2026-03-23 21:47:58
洛克希德·马丁:将精确打击导弹产量提升四倍

洛克希德·马丁:将精确打击导弹产量提升四倍

财联社
2026-03-25 19:18:36
14亿人集体买房,为什么最后买出了一个烂摊子?

14亿人集体买房,为什么最后买出了一个烂摊子?

流苏晚晴
2026-03-25 18:14:02
网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

网友在乌兹别克斯坦偶遇“佛山三水城巴”,佛山方面回应:车子被转卖到了国外

极目新闻
2026-03-26 17:01:19
2026-03-26 19:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336122文章数 607090关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
旅游
游戏
数码
亲子

手机要闻

狂揽307万!红米杀疯了:K90破150万、Turbo 5破百万,性价比赢麻

旅游要闻

鲁冰花开啦!快来新乡南太行八里沟 赴一场春日之约

《迷你金属2》4月开启开发版测试 军事题材战略模拟

数码要闻

1+4核,英特尔酷睿3 304处理器现身基准测试

亲子要闻

这就是引导型老师的厉害吗?

无障碍浏览 进入关怀版