AI圈有个潜规则:想跑大模型,要么氪金买显卡,要么把数据喂给云厂商。Llamafile的作者Justine Tunney偏不信邪——这位前苹果、Google工程师,花了3年时间把LLM塞进单个可执行文件。
她的解法简单粗暴:把模型权重和运行环境打包成一个文件,双击就能跑。不需要Docker,不需要Python环境,甚至不需要联网。「我们的目标是让AI像MP3一样随处可运行」,Tunney在GitHub文档里写道。
实测数据有点意思。M3 MacBook Air上跑Llama 3.1 8B,速度约15 token/秒;Intel老机器也能凑合用,只是慢到像拨号上网。最狠的是离线场景——飞机、地下室、断网会议室,照样能写代码、改简历、编周报。
代价当然存在。7B模型吃8G内存,70B版本直接劝退16G以下设备。Tunney自己也承认,这玩意儿更适合「不想把聊天记录发给OpenAI的偏执狂」,而非追求性能的发烧友。
GitHub星标数已经冲到1.7万。有用户反馈说,拿它给奶奶装了个离线问答机,「终于不用解释为什么AI要连WiFi才能说话」。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.