从硬件、框架到软件生态英特尔为行业提供全域大语言模型部署方案|gpu|处理器|知名企业|英特尔酷睿

分享至

时间，是一根衡量科技的标尺。沿着这根标尺向前眺望，迎面拂来的山风，吹来的是人类对创新的渴望。而沿着这根标尺回眸凝视，我们看到的世界被不同的科学技术雕刻成了此刻的模样。

正如现在，此时，我们刚刚才被一股叫做DeepSeek的科技力量重塑了对于AI的认知。这科技发展史的无垠星河中，在星辰般的技术创新碎片里，我们似乎常常能够看到微毫来诠释盛大。当英特尔埋下那颗叫做“AI PC”的科技种子时，现在的我们再凝望着最初的凝望，这一年半时间仿佛就只是刹那。

AI PC的前瞻性与DeepSeek的革命性在今天交汇，积聚起来的化学反应甚至比ChatGPT更加强劲。引爆了包括半导体芯片技术、软件应用以及AI PC产品等在内的不同领域的再一次蓬勃发展。但事实上，穿行在这股创新浪潮之间的，是AI与PC诞生以来超过半个世纪的人类对科技的摸索与积累。

·完整、灵活、多元的包括DeepSeek在内的大模型部署硬件解决方案

当前，无论是中国还是世界范围内，所有积极拥抱AI的实体都绕不开DeepSeek，创造AI PC概念的英特尔更是如此。面对大量来自政府、企业、学界、金融界、医学、司法等诸多领域的DeepSeek大模型私有化部署需求，英特尔提供了非常完整的各种参数大模型的本地部署解决方案。

首先从底层芯片层面，英特尔酷睿Ultra系列以出色的CPU+GPU+NPU AI算力满足不同参数规模的大模型本地部署需求。同时，伴随着近期英特尔酷睿Ultra 200HX系列处理器的发布，英特尔能够为不同用户提供包括酷睿Ultra 200V、酷睿Ultra 200H、酷睿Ultra 200HX以及酷睿Ultra 200S等在内的多元化AI芯片解决方案。再加上英特尔至强、英特尔锐炫GPU等等，完整覆盖了轻薄本、AI PC、台式机、服务器、AI一体机的多样化硬件生态体系。

其次从部署场景来看，DeepSeek当前的细分部署需求有三种：

其一是671B满血版，不仅参数满血，还包含了数据精度的满血，也就是利用BF16或FP8来做满血版大模型推理，这种需求的成本非常高，所以基本是大型政企用户的需求；

其二是DeepSeek通过Llama、Qwen蒸馏出来的不同参数规模的蒸馏模型部署，如我们常说的DeepSeek-R1 70B、32B、14B、7B、1.5B等，其实都是蒸馏模型，参数量更小，部署成本更低，但是具备非常不错的推理能力。

其三则是特定客户的客制化部署需求，以DeepSeek的蒸馏模式来客制符合自身领域、行业规范和需求的私有化模型。

面对这些需求，英特尔与其生态合作伙伴给出了不同的解决方案。

首先就是AI一体机，当前很多传统PC或服务器厂商都推出了基于英特尔芯片打造的AI大模型一体机。它具备开箱即用、可做私有化部署以及与客户应用结合，通过RAG（检索增强生成）或企业AI智能体联动，满足客制化、私有化大模型的部署需求。

硬件基础之上，英特尔针对性地推出了如OpenVINO、ipex-llm等开源框架，让大模型能够更加迅捷地跑在英特尔的硬件平台之上。当然，DeepSeek等大语言模型的部署并非只是提供一个开源框架、装到一个裸服务器上就可以开跑，孙峪（英特尔中国区AI PC产品总监）说，“跟不同客户沟通的过程中发现，其实有很多要考虑的因素。举个例子如数据精度，如何在投资（成本）间和不同数据精度间找到平衡，又能实现满足客户需求的推理（Thinking）和生成速度（tokens/s），这些因素同样重要。而且这些已经是在实践DeepSeek的过程中，行业已经在思索或正在思索的问题。”

因此，除了提供底层硬件与开源框架支持之外，英特尔与合作伙伴带来了不同的产品解决方案。比如先前提到的AI一体机就是其中之一。而轻薄本、AI PC、台式机等终端设备，得益于英特尔酷睿Ultra 200系列处理器AI算力的翻倍式提升，则能够为用户带来更加多样化、适配不同成本需求的部署方案。

当前，基于酷睿Ultra 200系列处理器的AI PC已经能够在本地轻松运行14B甚至32B参数规模的大语言模型。接下来的这个案例演示或许能够让大家更为直观的get到这一点。

DeepSeek在代码生成和数学计算方面有着卓越的表现。利用14B蒸馏模型，就可以极为快速地让AI帮我们制作一个经典的《俄罗斯方块》游戏。同时它可以根据不同要求，生成简单的基础版或更加复杂的高阶版游戏。

这段演示使用了英特尔生态合作伙伴Flowy的AI助手软件，它是一个便捷的.exe安装程序，同时支持在线大模型和本地大模型环境，并集成了如翻译、合同审核、文本续写、会议纪要等不同细分领域的AI助手，它可以被便捷地安装在轻薄本、AI PC、台式机之上，同时满足用户经济且高效的本地和云端大模型部署需求。

32B是目前AI PC能够支持并正常使用的相对而言规模比较大的大语言模型，英特尔也在不断探索32B蒸馏模型在AI PC端侧的表现。当然，32B参数大模型对于内存和显存的要求更高，因此将内存升级到64GB，且让GPU共享显存扩容到36GB以上才会有更好的体验。

利用32B大模型以及投机解码机制，仅用一句提示词即可让AI快速生成《五子棋》或《打砖块》这样的游戏代码。在这个过程中，投机解码机制可以保持32B模型的生成质量，同时利用小模型托举，让生成速度得到保障。在一台酷睿Ultra AI PC终端上，32B大模型生成五子棋游戏代码的速度最高能达到14 tokens/s，已经能够满足正常的使用需求。

此外通过生成规律可以看到，正常情况下token是一个接一个去生成，而利用投机解码机制后，代码生成有时会变成同时生成一行的模式，这就是投机解码的作用，它可以显著加快大规模参数模型的生成速度。而这也意味着即便是4-6000元主流价位的AI PC，亦能够支持32B参数大语言模型的本地化部署与应用。英特尔解决方案的灵活性、多元化与经济性凸显出来。

就在数年以前，程序员们想要编写一段简单的游戏代码，也需要耗费不少的时间、精力与脑力，而结果却并不一定理想。现在，AI大语言模型超凡的代码编写能力让不懂编程的人也能通过一句提示词完成简单游戏的制作，这种天翻地覆的变化让人震撼。而英特尔与其生态伙伴通过不同的硬件产品组合，为个人用户、企业用户、特定领域用户提供了多元化、客制化、更具经济性的解决方案，从而在短短一年半时间里，推动AI PC行业完成了从0到1的飞跃，这在整个人类社会、科技发展历史上也是极其罕见的壮举。

·多种大模型框架让AI生成速度跨越硬件桎梏

从CNN到Transformer，人工智能技术经历了从单点识别到链式推理的蜕变，也谱写出了今天人工智能时代、AI PC时代的基调。

而仔细追踪英特尔近五年来的研发路径就会发现，从Tiger Lake也就是第十一代酷睿处理器首次引入DP4a，VNNI以及GNA(Gaussian&Neural Accelerator)三大AI加速引擎，到酷睿Ultra平台正式支持NPU计算单元，并不断强化CPU与GPU的AI算力，再到Intel OpenVINO、ipex-llm等框架层面，英特尔AI硬件、软件的发展路径其实与AI架构的发展路径是高度吻合的。

此前，笔者体验了Ollama+ipex-llm框架本地部署DeepSeek-R1:32B蒸馏模型之后的性能表现，借助英特尔酷睿Ultra 5 225H的锐炫130T核显，生成速度如下图所示，可以说是达到相当可用的状态。

更加安全、私密的单机本地化大模型部署是当前不少企业的核心诉求。在满足基础硬件的要求之后，如何让大模型在本地运行的速度更快、更高效，就需要专门的加速框架来支持。OpenVINO、ipex-llm正是为此而生。

目前，业界有100个左右的开源框架，这些框架可以上联应用、下联硬件，同时又可以跟不同的大模型做联系。比如DeepSeek带火的Ollama就是其中之一，但如果单独使用Ollama的话会有诸多不便。此时，英特尔ipex-llm解决方案与Ollama适配之后的优势就显现出来。同时，不少其它开源框架都能与英特尔AI PC结合，提供很好的算力支持，为大模型的本地运行提速。

目前，英特尔已经将Ollama+ipex-llm的方案制作成整合包，总容量只有200多MB，在Github和魔搭社区都有提供下载，方便用户的使用。

此外，英特尔也与行业内几乎所有的ISV生态开发者合作，将其框架内置到端侧应用之中，用户无需特意部署就能享受这些框架带来的出色体验。比如英特尔与神州数码合作的爱问学这款端侧AI PC应用就是如此，它解决了三个核心问题：

其一，开发者不需要再管底层硬件迭代更新；

其二，从大模型市场获取大模型以及更新大模型更加爱方便，无需科学上网；

其三，通过框架帮助AI PC应用进一步“瘦身”，为最终用户提供更轻便、更轻量化的安装包。

神州数码AI生态总监莫晶晶介绍爱问学时表示，“整个爱问学端侧应用AI开发框架的技术架构，以及英特尔底层计算引擎方面，我们做了很多优化工作。力求为开发者提供更好的开发体验，包括云端模型还有本地模型的获取、端侧小模型的获取。并提供给开发者‘开箱即用’的服务，以便通过SDK或者API的方式进行快速接入，不用操心过多框架依赖的问题，而是更专注于AI PC开发本身。”

其实无论是直接借助英特尔框架加速AI大模型本地运行，还是将框架与应用侧相结合，最终目的都是为了提升大模型本地化部署和使用体验。而坚决拥抱开源的英特尔，在大模型框架层面的解决方案上自然有着极为丰富的布局。

·极为丰富的AI PC应用生态

从硬件到框架，英特尔构建了相当扎实的底层AI基石。但仅有这些显然还不够，毕竟最终落地到应用端、有丰富的应用生态才能支撑起整个生态的健康发展。

从AI PC概念诞生到现在，短短一年半时间里，英特尔携手ISV合作伙伴，带来了非常丰富的应用，尤其是在AI PC五大核心应用场景：知识助手、办公助手、娱乐助手、创作助手以及垂类助手方面，用户可以从Intel.cn/aipc网站很轻松地获取到大量的相关应用。

接下来我们不妨看一些实际案例。

字节跳动：扣子

首先是英特尔基于开源生态与字节旗下扣子的合作。

英特尔联合扣子推出了扣子AI PC APP，在开发过程中英特尔利用扣子本身的开放端插件能力，将本地的AI PC功能，如PC系统设定、RAG、语音功能等等，融入到扣子本身的Agent Flow开发流程中，从而带来了全新的端云结合体验。

在此基础之上诞生的AI PC会议助手，可以帮助用户实时记录会议内容，并将其从云端转录到本地，同时还可提供图片入库功能，将会议关键信息截图存储到数据库中，使图片向量化，使AI能够理解图片内容并进行批注，后续可以让用户很方便的通过关键词搜索到对应图片。此外，会议纪要功能也体现了端云结合，通过云端快速生成，服务用户的本地化需求。

神州数码：爱问学

神州数码的爱问学前面我们已经进行了简单介绍，但实际上它可以说是把百度百科搬到了本地，有着非常强大的AI助手能力。

爱问学英特尔酷睿Ultra版本集成了31个大语言模型，包括Qwen、DeepSeek家族，模型的参数量从0.5B到14B都一应俱全。同时还有三个模型可以被用于RAG文档解读，此外还引入了搜索和API对接，以便从网络上获取最新的大模型更新信息。

这款应用借助英特尔锐炫GPU来进行快速推理和生成。利用爱问学，用户可以非常方便地生成旅游攻略、演讲文稿、年终总结等内容，高效便捷。

面壁智能:MiniCPM v2.6多模态

面壁智能利用MiniCPM v2.6这一8B参数的视觉大模型，对图像和视频实现更好的内容理解和分析。它运行在英特尔锐炫核显上，能够生成较为准确的视频内容理解和分析结果。

下面的演示内容就展现了面壁智能利用MiniCPM v2.6大模型对熊猫元素的视频内容进行分析时，GPU的工作状态。

爱奇艺智能助手

从英特尔AI PC上市至今，爱奇艺一直是生态的重要组成部分。借助大语言模型，爱奇艺既可以了解用户的观影偏好，又知道最新的影片信息，它可以成为陪伴用户观影的搭子或伴侣。同时还可以让爱奇艺根据观众喜好来智能推荐影片，并且可以通过简单到一句话的问题来了解影片剧情的后续走向。这些功能同样基于英特尔酷睿Ultra平台强大的锐炫GPU来实现。

·亦心科技：AI闪绘

亦心科技带来的AI闪绘可以说是将AIGC应用展示的相当全面的一款应用。可以看到，下图左侧用户绘画的同时，右侧在短时间内就能自动生成预测的画稿，经过不停迭代之后，最终同步为用户想要绘制的画稿，可以说是大大提升了绘画效率，而且能够让非专业的用户也能创作出质量出色的画稿。

此外，演示时所用的产品是联想YOGA AI PC，它支持手写笔，有着4096级细腻的压感，讽刺航适合绘画创作。而英特尔酷睿Ultra平台出色的性能得以支持画稿的同步生成。

当然，除了这些演示之外，其实英特尔酷睿Ultra平台还有很多基于AI，符合AI PC应用的软件，如QQ音乐、万兴喵影、无涯问知、AiPPT等等，这些丰富的AI或支持AI功能的应用进一步放大了英特尔酷睿Ultra生态硬件与框架的优势。

·结语

2019年英特尔率先提出AI PC概念之后，加速硬件与软件生态构建就成为了最重要的事情。一年半的时间里，英特尔通过两代酷睿Ultra平台构建了坚实的AI PC硬件基础；通过大力拥抱开源为AI PC提供了丰富的框架支持；通过人工智能创新应用大赛、通过积极与ISV合作，打造易用、便捷的AI创新应用。三条赛道同步发力，进而让算力、框架、应用成为英特尔AI PC的三大优势。

特别声明：以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布，本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.