网易首页 > 网易科技 > 网易科技 > 正文

从"堆参数"到"造飞轮":DeepSeek正在颠覆OpenAI的生存逻辑

0
分享至
本文为网易科技《Future Talk》直播评论节目第四期《DeepSeek搅局,企业如何接招》的精华内容,本栏目将持续跟踪AI产业,邀请企业家、投资人、创业者和学者解读热点,剖析趋势,相关直播回放视频可关注网易科技视频号观看。
观点提要
  • 01 DeepSeek实现了大模型的祛魅,开启了中美后训练时代的大门。
  • 02 DeepSeek的出现,将彻底改变未来数据生产方式。这一转变,将使整个数据行业从低附加值领域,迈向技术附加值高的新台阶。
  • 03 当前所谓枯竭的数据,主要集中在互联网图文类数据。而实际上,大量数据正以多模态或非结构化形式,隐匿于人类日常生活的各个角落。
  • 04 高质量与低质量数据,其评价标准与方式,归根结底在于AI算法。AI 模型使用的数据由其自身生成,数据飞轮正是构建模型持续迭代生长的关键方法。
  • 05 Grok 3只是马斯克AI体系中的一次技术溢出。

出品 | 网易科技《态度》栏目

对话 | 袁宁

作者 | 李姝

编辑 |丁广胜

当全球AI竞赛聚焦于千亿参数堆砌与算力军备战时,DeepSeek却以“技术平权”的姿态撕开了行业裂缝。

其推出的DeepSeek-R1模型不仅将企业级市场的深度推理能力直接赋予C端用户,更将行业长期信奉的“预训练霸权”推向瓦解边缘。

然而在技术祛魅的浪潮下,一些争议也随之涌现:当DeepSeek-R1-Zero通过强化学习自主生产数据,传统数据标注行业是否面临消亡?马斯克高调推出的Grok 3在数学推理测试中“翻车”,是否暴露了AI评测体系的深层缺陷?······

带着这些疑问,网易科技《Future Talk》邀请到了两位专家一起探讨,他们分别是星尘数据CEO章磊、天云数据CEO雷涛。(注:由于部分原因,星尘数据产品负责人张毅倜代CEO章磊参与直播讨论)

星尘数据成立于2017年,是国内首家专注于AI数据自动处理技术的标杆企业。公司以技术创新为核心驱动,自主研发全球首款AI数据全生命周期引擎MorningStar,覆盖数据采集、标注到模型迭代的全链路管理,显著提升企业数据生产效率50%以上,助力解决“数据债”难题。(类似于软件开发过程中的“技术债”,“数据债”是指在机器学习的各个环节中,由于低估了数据的重要性,在推进项目的过程中忽视了数据质量的把控,从而欠下的各种“债务”。)

而天云数据是一家国有参股企业,首批国家级专精特新小巨人企业,北京市科学技术奖厂商。是国内能够同时提供数据基础设施和数字原生全产业服务链的数据科学公司。秉承“数据+智能”的理念致力于大数据(AI-Native 数据库)和人工智能软件的研发与创新,赋能产业数智化转型。在数据供给侧和数据消费侧均获得多项权威认可。

DeepSeek搅局者还是革命者?

天云数据CEO雷涛认为,DeepSeek实现了大模型的祛魅,开启了中美后训练时代的大门。在他看来,曾经被广泛依赖的技术大模型预训练模式,如今已不再是唯一的 “金科玉律”。

进入后训练阶段,模型更多地承担起将通用世界知识向领域知识转化的重任。以DeepSeek-R1系列为例,它以强化学习为主导,并将长思维链CoT(Chain of Thought)这一原本为OpenAI等模型厂商的闭源recipe直接开放给community。这一举措,在模型交付层面,将国产和北美大厂的模型推理能力差距瞬间拉平,无疑是对传统市场格局的一次大胆挑战。

星尘数据产品负责人张毅倜进一步补充道:“DeepSeek将数据从量的问题转化成一个质的问题,将会对数据行业产生重大影响。"他分析称,以往行业多聚焦于传统的Ground Truth单模态数据训练,而DeepSeek的出现,将彻底改变未来数据生产方式。今后,我们完全可以借助强化学习生成的模型,实现数据增强。这一转变,将使整个数据行业从低附加值领域,迈向技术附加值高的新台阶。(Ground Truth即用于训练、验证和测试AI模型的经过验证的真实数据。)

数据枯竭之争:真相与出路

随着AI模型朝着高质量方向迅猛发展,不少人断言当下数据已陷入 “枯竭” 困境。对此,张毅倜认为这是一个伪概念。他解释说,当前所谓枯竭的数据,主要集中在互联网图文类数据。而实际上,大量数据正以多模态或非结构化形式,隐匿于人类日常生活的各个角落。“我们目前看到的数据,仅仅是冰山一角。”张毅倜补充道。

那么,如何将这些未被充分挖掘的数据转化为高质量数据呢?张毅倜给出了几种途径:其一,由专业团队人工手动生成,这类数据堪称高质量的专家数据;其二,受DeepSeek-R1-Zero启发,通过大规模强化学习训练模型,进而利用该模型生产数据;其三,借助专业的AI数据平台如MorningStar进行训练,在训练过程中挖掘出高质量数据。

雷涛则从另一角度解读数据质量问题,他认为数据质量的高低并非由主观认知简单判定,而是取决于所采用的AI算法。他表示,如今已有大量数据由AI生成,但这并不意味着这些数据就是 “假数据”。“所谓高质量与低质量数据,其评价标准与方式,归根结底在于AI算法。” 雷涛进一步阐释,“这就是当下热议的数据飞轮概念。AI模型使用的数据由其自身生成,数据飞轮正是构建模型持续迭代生长的关键方法。”

Grok 3:技术秀肌肉还是战略拼图?

在谈及Grok 3时,张毅倜认为它不过是马斯克AI体系中的一次技术溢出。他指出,毕竟在马斯克的宏大战略版图中,AI占据着核心地位,宛如大脑之于人体。“Grok 3更多是马斯克在各个领域展示技术实力的一种体现。他真正的目标,是将机器人、火箭、地下隧道以及特斯拉等现实世界业务与虚拟世界紧密打通,这或许也是他构建AI超算中心的最大初衷。”张毅倜进一步分析道。

对于马斯克宣称其模型在数学推理方面优于国内模型,却在 “9.9与9.11哪个大” 这类简单问题上 “翻车” 的现象,张毅倜指出,目前所有模型评测大多基于开源数据集,而这些Benchmark最早由北美主导制定,在计算层面重视程度相对不足。此外,国外通常会制定两套Benchmark,一套面向普惠大众,一套用于推理测试。而推理模型的Benchmark在逻辑上,其实是在其自行公布的数据集测试中超越了OpenAI o1系列大模型。

雷涛则表示,不能仅依据几个Benchmark,便在传统认知赛道中评判模型优劣。我们更应关注多模型之间的通用性。为实现端到端的训练合成数据,如何运用AI手段进行数据生产,已然成为行业发展的必备逻辑。

行业走向:“通用模型+专业服务”还是“行业模型主导”?

雷涛认为,行业内存在大量个性化数据,许多行业知识无法单纯依靠Transformer的排列组合进行推理。DeepSeek的架构为我们带来启示,我们可以将行业深层领域的知识,通过验证激励机制融入强化学习,从而在大模型层面,而非传统机器学习层面,更有效地获取行业科学知识体系。

他表示:“领域知识的探索之路还很漫长,绝非简单的微调、过滤与蒸馏所能涵盖。”

张毅倜则认为行业模型的概念是模糊的,它没有一个明确的边界,很难去定义。他表示,未来的模型由Personal Language Model和Lagre Language Model来划分。(Personal Language Model是大模型结合私有化知识构建出的私有化小模型。)

而在实际业务场景应用中,专业模型才是未来趋势的主导。(当Personal Language Model的训练模式用于企业私有化模型的生产,诞生的模型就是专业模型。)“一个企业往往需要多个专业模型,这些专业模型协同合作,组成一个‘专家团’,将极大提升企业生产效率,”张毅倜总结道。

延伸阅读
相关推荐
热点推荐
该取消的是中国比赛?阿根廷网球选手言论引争议:那只有5名观众

该取消的是中国比赛?阿根廷网球选手言论引争议:那只有5名观众

体育妞世界
2026-02-13 15:07:21
泰国拟将免签停留期从60天缩短至30天

泰国拟将免签停留期从60天缩短至30天

曼谷陈大叔
2026-02-13 16:19:13
心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

心梗与做家务有关?医生提醒:60岁以后,做家务时要注意这几点

医学科普汇
2026-02-11 06:30:11
一瞬间14年的数据都没了!玩家误操作烧毁14TB硬盘:只因为插错了一根SATA线

一瞬间14年的数据都没了!玩家误操作烧毁14TB硬盘:只因为插错了一根SATA线

快科技
2026-02-13 11:09:07
王濛为孙龙欢呼又蹦又跳 爆金句:改革春风吹满地 短道速滑又争气

王濛为孙龙欢呼又蹦又跳 爆金句:改革春风吹满地 短道速滑又争气

念洲
2026-02-13 07:16:22
福建平潭发生火情,浓烟滚滚半边天空都是火光;当地消防:林木和渔具等着火,无伤亡

福建平潭发生火情,浓烟滚滚半边天空都是火光;当地消防:林木和渔具等着火,无伤亡

大风新闻
2026-02-13 10:34:10
中戏表演系原主任陈刚主动投案 网传私建109亩园林敛财1.2亿

中戏表演系原主任陈刚主动投案 网传私建109亩园林敛财1.2亿

老猫观点
2026-02-13 18:12:31
谷爱凌在冬奥结束后将进入硅谷顶级vc成为投

谷爱凌在冬奥结束后将进入硅谷顶级vc成为投

邓小闲koki
2026-02-14 00:26:32
这个外国总统回中国祖籍地过年,他一路拍拍拍吃吃吃的都是什么?

这个外国总统回中国祖籍地过年,他一路拍拍拍吃吃吃的都是什么?

新民周刊
2026-02-12 20:56:16
七个姐妹凑70万开咖啡店,结果从“七仙女”变成“战国七雄”互掐

七个姐妹凑70万开咖啡店,结果从“七仙女”变成“战国七雄”互掐

达文西看世界
2026-02-12 11:31:45
33岁内马尔官宣当爷爷!4娃3母情史混乱,绯闻频登热搜引热议

33岁内马尔官宣当爷爷!4娃3母情史混乱,绯闻频登热搜引热议

罗氏八卦
2026-02-13 18:55:03
荷兰速滑名将父亲:我儿子哭着想回家,廉子文非故意犯规但很愚蠢

荷兰速滑名将父亲:我儿子哭着想回家,廉子文非故意犯规但很愚蠢

杨华评论
2026-02-13 17:24:37
浙江一名辅警退休,工作32年,退休当天返聘

浙江一名辅警退休,工作32年,退休当天返聘

风露清青
2026-02-12 16:55:07
菲律宾一美食博主为流量吃剧毒魔鬼蟹身亡,用椰奶炖煮海鲜,嘴唇呈深蓝色,食用海鲜两天后离世

菲律宾一美食博主为流量吃剧毒魔鬼蟹身亡,用椰奶炖煮海鲜,嘴唇呈深蓝色,食用海鲜两天后离世

观威海
2026-02-13 09:02:05
尼日尔正式向法国宣战,局势紧张升级!

尼日尔正式向法国宣战,局势紧张升级!

乐天派WMQ
2026-02-13 00:46:02
准备开抢!美媒晒索汉后11名买断大鱼候选:数人满足火箭补强需求

准备开抢!美媒晒索汉后11名买断大鱼候选:数人满足火箭补强需求

锅子篮球
2026-02-13 20:19:25
扎心!甘肃某设计院员工提离职,领导直言4500块的工资外面找不到

扎心!甘肃某设计院员工提离职,领导直言4500块的工资外面找不到

火山詩话
2026-02-12 18:35:50
美上将问马斯克:如何打败中国?马斯克说出答案后,全场鸦雀无声

美上将问马斯克:如何打败中国?马斯克说出答案后,全场鸦雀无声

潇湘烟雨水
2026-02-11 02:41:30
令人厌恶的汽车“自动启停”功能终于被废除!还有多少荒唐的“环保”政策

令人厌恶的汽车“自动启停”功能终于被废除!还有多少荒唐的“环保”政策

大洛杉矶LA
2026-02-14 05:39:30
3000公斤炸弹砸中大坝,俄军冰封康斯坦丁,乌军原地投降升旗白旗

3000公斤炸弹砸中大坝,俄军冰封康斯坦丁,乌军原地投降升旗白旗

策略述
2026-02-12 12:25:22
2026-02-14 06:12:49

科技要闻

独家探访蔡磊:答不完的卷子 死磕最后一程

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

头条要闻

8千元的迷你小马一夜爆火 马主:1天排泄次数达十几次

体育要闻

这张照片背后,是米兰冬奥最催泪的故事

娱乐要闻

大衣哥女儿风光出嫁,农村婚礼超朴素

财经要闻

华莱士母公司退市 疯狂扩张下的食安隐忧

汽车要闻

探秘比亚迪巴西工厂 居然是这个画风!

态度原创

本地
亲子
游戏
手机
公开课

本地新闻

下一站是嘉禾望岗,请各位乘客做好哭泣准备

亲子要闻

爸爸带的孩子是什么样的?妈妈看完沉默了,网友:活着就好!

癫疯之坐!今年年夜饭批准坐在黄金马桶上吃

手机要闻

苹果App Store国区充值加赠10%活动开启

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版
×