本地跑大模型曾经是极客的专利——显卡要够猛,显存要够大,还得折腾CUDA环境。现在有人把整套方案塞进了一个可执行文件,双击就能跑,连网都不用连。
这个项目叫llamafile,Mozilla旗下团队出品。核心思路简单粗暴:把模型权重和运行环境打包成单个文件,Windows、Mac、Linux通吃。你甚至可以用十年前的笔记本跑7B参数的模型, albeit慢一点。
创始人Justine Tunney的原话很直接:「我们的目标是让本地LLM像打开PDF一样简单。」她之前是Google的SRE,搞过Cosmopolitan Libc——就是那个能让C程序一次编译、到处运行的怪东西。
技术细节有点意思。llamafile用了AVX2指令集做加速,纯CPU跑也能到每秒几个token。没有N卡的用户终于不用被拒之门外,Apple Silicon用户更是意外受益——M系列芯片的内存带宽反而成了优势。
不过别指望它能替代ChatGPT。7B模型写代码还行,复杂推理明显吃力。真正吸引人的是隐私场景:病历、合同、日记本,这些你永远不会往云端传的东西,现在可以关起门来自己处理了。
GitHub Release页面的下载量已经破了百万。有用户在Issue区留言,说他在飞机上用这个写完了季度报告——邻座还在付费买Wi-Fi。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.