网易首页 > 网易号 > 正文 申请入驻

DeepSeek撕开一道裂缝

0
分享至

出品 | 虎嗅科技组

作者 | 丸都山

编辑 | 苗正卿

头图 | 电影《敦刻尔克》

毫不意外地,DeepSeek的火烧到了硬件行业。

自2月5日华为宣布“小艺智能体”接入DeepSeek-R1算起,在一周多的时间里,包括星纪魅族、荣耀、OPPO、努比亚、vivo在内的6家手机厂商宣布接入DeepSeek。

仅从功能实现来看,各手机品牌基于DeepSeek-R1模型所提供的能力大差不大,多集中于“联网搜索”、“文案生成”、“AI问答”等。本质上,这种API调用的接入方式基本相当于增加一个在线插件。

某种意义上,这也算是智能手机行业中长久以来形成的默契,即信奉短板理论,绝不让“人有我无”的情况发生。

而除了从众效应外,也有多位从业者向虎嗅表示了他们对DeepSeek的看好,其中也包括智能手机与前者的深度绑定——将DeepSeek完成本地部署。

这背后其实反映了两个问题:为什么智能手机需要一个在端侧部署的模型?还有就是端侧模型何时才能“好用”?


掌上的DeepSeek,会是个好选择吗?

实际上,虽然各手机厂商只是接入DeepSeek作为“扩展应用”,但其中也不乏有公司开始了本地化部署的验证工作,只是受限于模型尺寸与手机性能之间的矛盾,现阶段DeepSeek的小尺寸模型在端侧的表现并不理想。

这里需要解释下,在满血版DeepSeek-R1模型中,其参数达到670B,如果在本地运行,至少需要占用960Gb的内存空间,任何一种移动设备都无法满足这样的硬件配置需要。

目前DeepSeek蒸馏版本(1.5B、7B)尚可符合手机端的使用条件,比如1.5B参数版本在本地运行时,大概占用1Gb的内存,基本不会对系统流畅度和续航造成太大影响。

而在实际测试中,1.5B版本的DeepSeek无论是精度还是幻觉率都较满血版大幅下滑。

星纪魅族副总裁王炼向笔者表示,在实际测试中,DeepSeek的小尺寸模型能力还在“不断进化中”,不过在一些垂直领域,比如数学领域表现得较好。

造成这一问题的,除了模型参数导致的性能降低外,还有一个重要原因可能是端侧本就不是DeepSeek这类开源模型公司的核心赛道。

《业务驱动的推荐系统:方法与实践》作者、Shopee新加坡资深算法专家傅聪向笔者表示,开源大模型公司在模型发布后,后续都会更新一系列从大到小的蒸馏版本,算是行业惯例,一方面他们想打造生态,另一方面也是调动社会层面的协作,而对于学术机构来说,他们能动用的算力去跑一遍1.5B左右参数的模型,算是能承受的极限了。

“比如手中有十几块、几十块A100芯片,然后把1.5B的模型从0到1复现一下,把V3这个架构实践一遍,可能也需要训练三天左右的时间,这对于一般研究机构来说,算是成本较高的了”,傅聪解释道。

除去这重考量外,现在还难说DeepSeek未来会对小尺寸模型做哪些针对性的算法优化。

那么为什么手机厂商还会去探寻端侧部署的方法呢?一个重要的原因是,从用户隐私保护的角度来说,端侧模型是最优解。

前不久,云安全公司Wiz曾发布一项研究结果,表明DeepSeek数据库存在安全隐患,允许对数据库操作进行完全控制,包括访问系统日志、用户聊天提示,甚至用户的 API 身份验证令牌。

针对数据安全,有一种解决方案是将数据做向量化加密。

王炼向笔者提到,在Flyme AIOS系统中,有些功能应用无法通过本地算力解决,必须将数据上传到星魅云端,而涉及这部分数据时,首先会将用户的隐私数据筛查出去,然后再将数据做向量化加密上传,这些数据在云端也无法被解密。

而另外一种更加彻底的解决方案就是将大模型做本地化部署,从根源上减少对云端算力的依赖。

除此之外,DeepSeek对模糊意图的理解能力,也是手机厂商所看重的。

“DeepSeek在深度思考上的能力相较其他模型更具优势,在与星魅的Flyme大模型结合后,能够充分理解用户的意图,帮助用户去做一些更加精准的决策和执行,而不是让用户自己去分析,他应该在什么时候、什么地点、什么步骤上使用什么能力去解决问题”,王炼解释道。

当然,就目前来看,除了意图理解和某些特定领域外,在端侧部署小尺寸的Deepseek模型,性能比较有限,那端侧模型何时才能落地呢?


“精品小模型”,呼之欲出?

正如上文所提到的,手机、PC等移动终端在硬件配置上,基本卡死了大模型端侧部署的可能。

而在参数量较小的模型中,7-13B这个级别里,部分模型如智谱GLM4-9B在精度和幻觉上均已展现出不错的成效。

同时也有迹象表明,小模型可能会即将诞生一个“Aha Moment”。

傅聪提到,“业内有一些动手能力特别强的工程师,他们基于DeepSeek的技术报告做了些尝试,去复现小模型,比如在Llama7B、Llama38B上做强化学习引导,在很多轮后也得到了接近于可以多步思考的小推理模型,同时幻觉被大大减少。”

另外,仅就DeepSeek来说,如果将其用于端侧部署,也是个不错的技术选型。

“DeepSeek-V3的参数是6700亿,但推理的时候只会激活370亿,大概相当于总参数量的5%,如果是80亿参数的模型,相当于只需要激活4亿参数,这个框架本身就决定了它的推理成本会控制在一个很理想的范围内”,按照傅聪的推算,可能未来一年左右,行业里就会出现多个7B左右大小的“精品小模型”。

不过,这并不代表手机、PC等硬件厂商会第一时间跟进,他们还必须要考虑沉没成本。

打个比方,如果现在有厂商决定要在自家系统中做DeepSeek的本地化部署,甚至是基于DeepSeek去训练端侧模型,这其实就相当于在赌未来3-5年的技术发展方向。

“DeepSeek通过Multi-Head latent Attention(MLA)和DeepSeek MOE架构实现了底层算力高效利用以及更低成本、更出色的模型效果。但这已经不是一个典型的Transformer架构,为了适配这个架构,又为了适配硬件的底层设计,他们做了非常重的开发”,傅聪认为,对于手机厂商来说同样如此,如果押注DeepSeek,后者也需要围绕DeepSeek去做大量的生态配套。

这其实也很好地回答了,为什么过去各手机厂商高调宣布的自研大模型,普遍充满了“技术储备”的色彩,因为在行业技术路线不明确之前,以智能手机行业庞大的体量来看,谁都不敢盲目地下注。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

外交部发言人反问日媒:“你见过有人未经允许持刀进入使馆与大使交谈的先例吗?”

环球网资讯
2026-03-25 15:39:26
停炸五天的真正含义:伊朗被迫进入二选一困局

停炸五天的真正含义:伊朗被迫进入二选一困局

斌闻天下
2026-03-26 07:45:03
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
53岁宁静近况曝光!29年前嫁美国演员生一子,离婚后尽享单身生活

53岁宁静近况曝光!29年前嫁美国演员生一子,离婚后尽享单身生活

代军哥哥谈娱乐
2026-03-25 11:31:55
中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

中方驳斥“闯馆事件”日方荒谬说法:你见过未经允许持刀进入使馆同大使交谈的先例吗?

环球网资讯
2026-03-26 07:09:09
我想过Sora会死,但没想到这么快。

我想过Sora会死,但没想到这么快。

差评XPIN
2026-03-26 00:04:51
4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

4月1日医保7号令落地!1965-1985年出生的,这6件事务必抓紧办

混沌录
2026-03-25 15:50:11
张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

张雪峰去世事件升级!很多人连夜下单AED,有店铺一天销售100多台

火山詩话
2026-03-26 07:32:38
伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

伊朗议长和外长被移出美以清除名单,“时限4到5天”!专家:若达成协议最慌的是以色列!特朗普:油价涨、股市跌,我无所谓

每日经济新闻
2026-03-26 12:20:14
经济学历巴曙松被带走调查

经济学历巴曙松被带走调查

地产微资讯
2026-03-25 20:49:47
布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

布朗31分8板8助凯尔特人终结雷霆12连胜,亚历山大33分8助攻

湖人崛起
2026-03-26 10:00:59
两省省委领导班子调整

两省省委领导班子调整

上观新闻
2026-03-25 15:07:07
“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

“住宅禁放骨灰盒”新规出炉,引争议!网友:可以去化房地产库存

火山詩话
2026-03-26 11:11:22
原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

原来她是张雪峰前妻,90后历史学博士‌,两人离婚后曾一起上节目

大铁猫娱乐
2026-03-25 13:03:57
四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

四天619次进攻、6090人伤亡:俄春季攻势为何高伤亡低战果?

高博新视野
2026-03-25 08:00:28
广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

广东一男子买啤酒抽中电动车大奖,将中奖二维码发网上询问后被他人扫走核销,网友:“这下又上了一课”

洪观新闻
2026-03-26 10:56:49
“史上最惨”的成都糖酒会,彻底撕开了白酒行业的遮羞布

“史上最惨”的成都糖酒会,彻底撕开了白酒行业的遮羞布

财经早餐
2026-03-25 22:42:59
万科高管被要求退还薪酬

万科高管被要求退还薪酬

地产微资讯
2026-03-26 12:22:04
曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

曾因污言秽语被封禁的张雪峰,凭什么让郑大悼念,新华社发讣告?

观察者海风
2026-03-25 22:10:33
美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

美方提“15点计划”,伊朗称“又一个谎言”,美国“一边准备谈判一边握拳”

环球网资讯
2026-03-26 06:58:33
2026-03-26 13:56:49
虎嗅APP incentive-icons
虎嗅APP
个性化商业资讯与观点交流平台
25979文章数 687622关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

头条要闻

伊朗议长和外长暂被移出美以清除名单 时限4到5天

体育要闻

35岁替补门将,凭什么入选英格兰队?

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

黄仁勋:芯片公司的时代已经结束了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
房产
数码
亲子
军事航空

家居要闻

傍海而居 静观蝴蝶海

房产要闻

质价比标杆!三亚首创浮岛全景舱亮相,还得是万科!

数码要闻

Intel史上最先进!酷睿Ultra 300系列vPro平台发布

亲子要闻

躺平的孩子意外觉醒了,在父母学会当“乌龟”!

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版