对于个人玩家而言,虽然现在相当多的云端大模型都可以免费使用,而且接口涵盖了PC端和移动端,调用起来相当方便,但如果你比较在意隐私,想要在离线状态下使用AI大模型作为自己的私人助理,那么本地部署就成为了唯一的方法。今天就用未来人类X911游戏本作为基础,体验一下本地部署大模型的过程并分享我们的想法吧。
01
GPU算力与显存是本地部署的大前提
和Stable Diffusion一样,本地部署的大模型需要运行在显存上,所以对电脑的显存容量有较高要求,与此同时,算力的高低也决定了内容输出的效率,考虑到消费级GPU的算力和显存容量往往是正相关的,所以我们才选择了未来人类X911这种旗舰笔记本,它搭载的RTX 4090 GPU配备16GB GDDR6显存,与此同时还有英特尔Core i9 14900HX处理器和64GB DDR5内存,这个配置已经是目前笔记本的天花板,那么具体来说它可以在本地运行哪些大模型呢?
需要最先确认的就是模型的尺寸,以谷歌的Gemma2为例,它有9B和27B这两个版本,分别代表它们采用了90亿参数量和270亿参数量。
显然,在算法一致的情况下,较大的参数量往往意味着更好的性能,但较大的参数量也代表着模型的尺寸更大,Gemma2 9B参数版只有5.4GB,而27B参数版则有16GB,因为模型需要运行在显存上,所以我们在选择模型时就需要按照自己电脑的显存大小来匹配,而且需要留出一定的冗余,比如未来人类X911的RTX 4090就不能直接运行Gemma2 27B版本,但运行针对编程能力特别强化的8.9GB容量deepseek-coder-v2 16B就没有问题。
如果你的显卡性能没有这么强怎么办?别慌,事实上很多大模型厂商都考虑到了这个问题,比如通义千问就有0.5B/1.5B参数量的版本,微软的phi-3也有3.8B参数量的版本,最低甚至只需要350多MB的显存空间就能运行,对低算力GPU而言十分友好。
02
使用Ollama部署大模型
对于大多数新手而言,Ollama是最适合上手的部署框架,而且前段时间也推出了Windows预览版,使用门槛大幅降低。在官网下载并安装完成后就会自动弹出命令提示符,因为Ollama官方就有很多开源大模型的镜像文件,所以只需要输入对应的指令,它就会自动下载对应的大模型,完成后就能进入推理界面开始对话了,整个过程非常直观简单。
以通义千问qwen2 7B大模型为例,它的体积只有4.4GB,截至发稿日时该模型的更新时间显示为四周前,根据官方资料显示应该就是对应的2024年6月6日发布的未微调版本。我们只需要在Ollama的命令提示符下输入“ollama run qwen2”就会自动开始下载,而且国内IP也可以全速下载,这一点非常友好,下载完成后就可以直接在命令提示符界面进行对话了。
在断掉笔记本的互联网之后,我们对qwen2 7B大模型进行了测试,在未来人类X911上它的响应速度很快,几乎可以说是即问即答,输出时整机显存占用量在6.3GB左右,对于这台电脑来说是绰绰有余了,接下来我们又对其性能进行了测试,比如让它回答下面这道小学四年级的奥数题目:
有7个数,它们的平均数是18,去掉一个数后,剩下6个数的平均数是19,再去掉一个数后,剩下的5个数的平均数是20,求去掉的两个数的乘积。
qwen2 7B大模型可以很快速地给出解题思路并得到正确的答案:168。然后我们又让它帮忙做了一篇《三月桃花水》的散文阅读理解,可以得到还算符合标准答案的回答,所以在中文和数学能力上,离线AI的性能下限还是相当高的。后续如果大家感兴趣的话,我们还会在《端侧AI开发板》系列文章里继续为大家体验更小尺寸的模型,到时候再看看它们的性能表现究竟如何吧!
邮发代号:77-19
单价:8元,年价:408元
编辑|张毅
审核|吴新
爆料联系:cpcfan1874(微信)
壹零社:用图文、视频记录科技互联网新鲜事、电商生活、云计算、ICT领域、消费电子,商业故事。《中国知网》每周全文收录;中国科技报刊100强;2021年微博百万粉丝俱乐部成员;2022年抖音优质科技内容创作者
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.