网易首页 > 网易号 > 正文 申请入驻

本地大语言模型崛起:为何用户开始选择自主部署AI

0
分享至

在经历了十多年的云计算时代后,我们已经习惯了按使用量付费的计算模式。随着AI技术的兴起,这一循环模式再次上演。虽然AI服务目前看起来相对便宜,但这种情况可能不会持续太久。

基础AI模型即服务公司按Token收费,但它们目前处于亏损状态。利润迟早要实现,无论是直接从用户口袋里赚取,还是通过用户数据获利。在这种情况下,越来越多的人开始寻找其他获得AI益处的方式,而不必受制于大公司。

**本地化趋势兴起**

推动本地大语言模型普及的背后有一股文化转变力量,其中一部分源于对大型科技公司的不信任。皮尤研究中心发现,81%的美国人担心AI公司会滥用他们的数据。联邦贸易委员会认为有必要警告AI模型公司要履行其在客户数据方面的承诺。

OpenAI表示如果用户要求,它会"忘记"用户的聊天记录,但这并不意味着它会清除这些数据。事实上,它做不到。法院已下令该公司保留其聊天日志,作为其目前与《纽约时报》等出版物法律纠纷的一部分。

即使是那些最初专注于道德和隐私的公司也会屈服于市场动态。Anthropic在8月底将其数据保留规则从30天延长到5年,这距离它宣布为其AI模型增加记忆功能仅几天时间。它还开始使用用户数据训练其模型。虽然用户可以关闭此功能,但这些都是选择退出政策,而不是选择加入。

隐私论证还延伸到主权问题,特别是在美国放松AI监管的背景下。欧洲公司正在考虑制作自己的替代方案。例如,德国工程公司Makandra构建了自己的本地运行AI,以确保其使用符合GDPR规则。

倡导本地大语言模型的公司还将技术民主化视为驱动因素。"AI是人类有史以来最大的杠杆来源之一,"Jan项目的增长工程师兼负责人Emre Can Kartal说道,Jan是Menlo Research构建本地运行模型及其管理工具的项目。"我们的使命是确保它保持开放并掌握在人们手中,而不是集中在少数科技巨头那里。"

成本也是一个因素。以亏损状态销售计算能力的AI公司往往会限制用户使用频率。任何每月向基础模型供应商支付超过100美元却在AI驱动的编程马拉松中被切断服务的人都会理解这个问题。

**环境影响考量**

美国数据中心到2030年将消耗该国9%以上的电力,根据研究公司EPRI的数据。许多数据中心使用蒸发冷却技术,消耗大量水资源。一般计算是每次对话约消耗半升水。

自己运行大语言模型的环境优势不在于训练的碳成本,而在于推理过程。如果你使用的是开源权重基础模型,训练已经完成。但你越多地将其用于本地推理,就越能产生环境影响。你的PC冷却可能使用的唯一液体是在封闭循环中,所以不会浪费水资源。

**模型压缩技术**

一般来说,你越多地使用生成式AI,本地模型就越有吸引力。那么你需要什么来有效运行它呢?很大程度上取决于你运行模型的精度,你可以使用大语言模型中的一个关键概念——量化来调整精度。

量化减少了从神经网络节点派生的权重值的精度。这减少了处理它们所需的存储和计算能力。你可以通过降低浮点数的精度来增加量化,甚至可能用纯整数值替换它们。

虽然量化会降低支撑生成式AI的基于神经网络算法的准确性,但这种影响并不显著。而且从中获得的功率/性能增益为在服务器机房、边缘设备或家庭中更易处理的系统上运行它开辟了可能性。

**软件技术进步**

仅有硬件是不够的。如今,在各种设备上运行大语言模型之所以成为可能,是因为底层软件栈的发展。

"在我看来,ggml栈(例如llama.cpp和whisper.cpp)在使本地AI成为可能方面产生了最大的影响,"Georgi Gerganov说道。如果你现在在做任何客户端推理,他很可能负责其中至少一部分工作。Ggml是他的低级机器学习模型库,用于在不同类型的硬件上运行机器学习模型。

Ollama是运行自己大语言模型的最受欢迎的CLI平台之一,它是构建在llama.cpp之上的开发者层。它提供了200多个预配置大语言模型的单行安装,使大语言模型开发者能够轻松启动和运行自己的本地生成式AI。

**适合每个人的模型**

似乎每个人都有适合的模型,基于他们的使用案例和硬件能力。像Llama和Mistral这样的通用模型提供从小到大的各种参数计数。Google Gemma 2缩减到20亿参数用于设备上工作。

还有专门用于特定任务的模型,例如编程,如Qwen 2.5 Coder 7B和DeepSeek Coder V2。一些模型可以变得非常具体。例如,我们听说像Mythomax这样的故事讲述大语言模型很适合角色扮演游戏。

**本地大语言模型是否足够好?**

问题是所有这些模型是否比在云中运行的重量级模型更好,或者它们是否需要如此。

AI公司Nomic的创始人Andriy Mulyar最初试图制作本地AI模型。他的公司开发了一个开源模型GPT4All,设计为本地运行。但他在向潜在客户销售基于此的服务时没有取得成功。

"对于个人和爱好者使用案例,它很棒。你可以获得价值。你可以写邮件。你可以演示编程,"他谈到本地大语言模型时说。但对他来说,就到此为止了。

有两个因素使云模型领先于本地模型。首先是规模。较大的模型总是更具通用智能。较小的模型往往专门化,通过微调和强化学习更快地适应你不断变化的需求。

检索增强生成(RAG)是另一个有用的工具。那些有特定兴趣的人为大语言模型构建自己的知识库,可以在狭义定义的领域产生令人印象深刻的结果。

保持基础云模型提供商领先的第二个因素是保密性。像OpenAI这样的公司严密保护其旗舰模型以保持市场领先地位。然而,这种领先优势是微小的。"质量差异正在迅速缩小,"Gerganov说。"今天,本地质量等于或优于一年前的云质量。它将继续改进。"

无论你是寻求私人系统来管理敏感工作的律师事务所,还是试图构建个人知识图谱的爱好者,你的本地大语言模型之旅都应该从将你的雄心与现实相匹配开始。从明确的使用案例开始,在这些案例中,你的隐私、成本和性能需求证明本地部署是合理的。选择适合你技术专业水平的适当工具,并使用与你的硬件配置匹配的通用模型。

Q&A

Q1:为什么越来越多的人选择本地部署大语言模型?

A:主要原因包括:对大型科技公司数据滥用的担忧(81%的美国人担心此问题)、成本考虑(避免云服务的使用限制和持续费用)、环境影响(减少数据中心的电力和水资源消耗)以及技术主权需求(如欧洲公司为符合GDPR规则而选择本地部署)。

Q2:运行本地大语言模型需要什么样的硬件配置?

A:硬件需求主要取决于模型精度。按照半精度(16位)计算,每十亿参数需要约2GB显存。可以通过增加显存(如Nvidia RTX 5090 GPU有32GB显存)或提高量化程度来支持更多参数。二手企业级硬件如Quadro RTX卡在显存性价比上往往优于新消费级GPU,M2 MacBook Pro的24GB统一内存也能很好运行200亿以上参数的模型。

Q3:本地大语言模型的质量能否媲美云端模型?

A:目前云端大型模型在通用智能方面仍有优势,但差距正在快速缩小。本地模型在特定领域通过检索增强生成(RAG)和专业化调优可以产生出色结果。虽然本地模型需要更精确的提示和上下文管理,但今天的本地模型质量已经等于或超过一年前的云端模型质量,且还在持续改进。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
沉迷养猪的丁磊,去年赚了338亿

沉迷养猪的丁磊,去年赚了338亿

大佬灼见
2026-03-13 12:21:50
宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

宋美龄书法对比:钢笔字似小学生,英文手稿如中学生!

书画相约
2026-03-26 07:49:18
新消息!伊朗突然宣布了!

新消息!伊朗突然宣布了!

达文西看世界
2026-03-23 20:29:16
国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

国际原子能机构总干事:美伊或将在巴基斯坦举行会谈

界面新闻
2026-03-25 22:29:47
航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

航天少帅谭瑞松被判死缓 不执行死刑和终身监禁

小鹿姐姐情感说
2026-03-26 02:23:54
多名医生建议:血糖不超过这个值,该吃吃该喝喝,吃点甜的更健康

多名医生建议:血糖不超过这个值,该吃吃该喝喝,吃点甜的更健康

健康之光
2026-03-24 22:20:04
上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

上海VS天津胜券在握!李花三兄弟无法阻挡,卢伟全力冲击十二连胜

老叶评球
2026-03-26 17:04:22
你见过哪些员工因为作死被开除的事情?网友:去副总院里偷石榴

你见过哪些员工因为作死被开除的事情?网友:去副总院里偷石榴

另子维爱读史
2026-03-24 21:35:06
暗杀逼退卡塔尔,以色列打错算盘!巴铁核武镇场,给伊朗免死金牌

暗杀逼退卡塔尔,以色列打错算盘!巴铁核武镇场,给伊朗免死金牌

起喜电影
2026-03-26 15:40:09
重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

重磅实锤!瓜帅即将告别曼城,下一站彻底跳出英超

澜归序
2026-03-26 06:02:38
伊朗挂断王毅电话后发全球照会,萨勒曼震怒

伊朗挂断王毅电话后发全球照会,萨勒曼震怒

空间展示知识
2026-03-26 07:06:58
内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

内塔尼亚胡:对恶绝不手软,才是对和平最大的负责

老马拉车莫少装
2026-03-22 23:24:28
瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

瞒天过海40年!李嘉诚成最大赢家,日产百万桶,把石油全卖给中国

阿凫爱吐槽
2026-03-24 00:54:18
2-0!3-1!意大利背水一战 法国志在复仇巴西 熊皇姆巴佩皇马内战

2-0!3-1!意大利背水一战 法国志在复仇巴西 熊皇姆巴佩皇马内战

万花筒体育球球
2026-03-26 17:12:13
美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

美国总统特朗普表示将于5月中旬访华,外交部:元首外交对中美关系发挥着不可替代的战略引领作用,中美双方就特朗普总统访华事保持着沟通

潇湘晨报
2026-03-26 16:25:20
捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

捡漏成功!广州市一栋三层别墅拍卖,被人捡漏170.6万就竞得,还要啥套间

阿离家居
2026-03-26 16:52:37
有没有人敢爆自己的瓜?网友:确定玩这么大吗?

有没有人敢爆自己的瓜?网友:确定玩这么大吗?

夜深爱杂谈
2026-02-18 20:55:58
美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

美议员喊话特朗普:如果北京不答应美国要求,就不准中国做一件事

让心灵得以栖息
2026-03-26 05:03:07
世人最尊敬的清华校长携巨款去了美国,真相令所有人沉默…

世人最尊敬的清华校长携巨款去了美国,真相令所有人沉默…

背包旅行
2026-03-25 15:05:36
火箭108-110森林狼!杜兰特看清现实,申京也迷茫,一人该被重用

火箭108-110森林狼!杜兰特看清现实,申京也迷茫,一人该被重用

鱼崖大话篮球
2026-03-26 15:37:49
2026-03-26 18:35:00
科技行者 incentive-icons
科技行者
科技正在如何变革商业世界
7746文章数 556关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

头条要闻

男子从四家公司贷出共计356万元 实际到手却仅8万多元

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

张雪峰家人首发声 不设追思会丧事从简

财经要闻

长护险谁能享受?享受多少?解答来了

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

手机
教育
时尚
游戏
公开课

手机要闻

顶配Ultra旗舰!vivo X300 Ultra配置公布:骁龙8E5+2K/144Hz直屏、8.19mm机身

教育要闻

中小学家长必看数据,看与不看都会后悔

皮衣+裙,高级到炸

又一经典最终幻想游戏将停运!开服至今已六年有余

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版