作者:伯衡君
![]()
让我帮你打开新世界的大门
![]()
开篇寄语
今天刷到一个叫 FreeLLMAPI 的项目。作者一句话介绍自己:一个 OpenAI 兼容的端点。十六个免费 LLM 提供商。每月大约 17 亿 token。
伯衡君第一反应:又一个画饼的。现在 AI 圈的项目,张嘴就是聚合全网,闭嘴就是改变世界,真正能跑起来的没几个。
结果伯衡君花了十分钟把它跑起来。然后……
就愣住了。
这玩意是真的能跑。而且跑得还挺稳。
说点背景。
现在每一个正经的 AI 实验室都提供 free tier——Google 的 Gemini、Groq、Cerebras、NVIDIA、Mistral、OpenRouter、GitHub Models、Cohere、Cloudflare、HuggingFace、智谱 AI、Ollama Cloud……光伯衡君数出来的就有 17 家。
每家都给你塞几百万 token,几万次请求。单个看,确实是个玩具。你拿 Gemini 2.5 Flash 写个摘要还行,拿它跑个长对话,速率限制直接教你做人。
但是!把它们摞在一起呢?
十七个 provider,一百多个模型,每月大约 17 亿 token 的推理容量。
这不是玩具了。这是一个仓库。
问题的关键从来不是免费额度够不够,而是把这些免费额度组织起来太麻烦了。十七个不同的 SDK、十七套不同的速率限制、十七个地方一个请求就可能翻车。
FreeLLMAPI 解决的就是这个麻烦。它把这些接口全部塞到一个统一的 /v1/chat/completions 端点后面。你拿任何 OpenAI 兼容的客户端连上去,它自动帮你路由到当前可用的那个 provider。
一个接口。十六个免费模型。剩下的,交给它。
内容详情
![]()
它到底支持多少家?
![]()
伯衡君逐一数过,目前支持以下 16 家 provider。
- Google:Gemini 2.5 Flash、3.x 预览版
- Groq:Llama 3.3、Llama 4、Qwen3
- Cerebras:Qwen3 235B
- Mistral:Large 3、Medium 3.5、Codestral
- OpenRouter:21 个 free-tier 模型
- GitHub Models:GPT-4.1、GPT-4o
- Cloudflare:Kimi K2、GLM-4.7、GPT-OSS
- Cohere:Command R+
- Z.ai 智谱:GLM-4.5、GLM-4.7 Flash
- NVIDIA:NIM(40 RPM 免费)
- HuggingFace:Router、DeepSeek V4、Kimi K2.6
- Ollama Cloud:GLM-4.7、Kimi K2
- Kilo Gateway:免费路由
- Pollinations:GPT-OSS 20B
- LLM7:GPT-OSS、Llama 3.1
- OVH AI Endpoints:Qwen3.5 397B
再加上一个自定义 provider——你可以指向任意 OpenAI 兼容的 endpoint,比如你本地跑的 llama.cpp、LM Studio、vLLM,都行。
伯衡君觉得最厉害的是 Cloudflare Workers AI。Kimi K2、GLM-4.7 这些模型通过 Cloudflare 的边缘网络分发,延迟低得离谱。
场景一:开发调试
伯衡君把我本地的 OpenAI base_url 改成了 FreeLLMAPI 的地址。然后在本地开发一个 LLM 功能的时候,底层自动路由到不同 provider 的免费模型。开发效率翻倍,费用清零。
说实话,以前我调试一个多轮对话功能,来回调 API,一天下来 token 花了几百万。现在?免费池子随便造。
场景二:模型横向对比
我用同一个 prompt,让 FreeLLMAPI 里的不同模型分别回答,然后人工打分。这个过程挺上头的,像在给一群不同的实习生出同一套题,看谁答得好。
最让我意外的是 Groq 上的 Llama 3.3——那个推理速度,给我惊到了。它不是在生成文本,它是在喷射文本。
架构设计——用心想过的东西
伯衡君仔细看了它的代码,发现有几个设计是真正用心的。
自动故障转移。如果选中的 provider 返回 429 或者超时,router 直接跳过它,把这个 key 标记为冷却状态,然后重试链中的下一个模型。最多尝试 20 次。这意味着你的应用基本感知不到底层任何一个 provider 挂了。
密钥加密存储。API key 用 AES-256-GCM 加密后写进 SQLite,解密只在内存里发生。你的 key 不会被明文躺在磁盘上。
统一 API Key。客户端只跟 FreeLLMAPI 通信,用唯一的 freellmapi- 开头的 bearer token。上游 provider 的 key 永远不会暴露给你的应用。
Sticky Sessions。多轮对话会保持在同一个模型上 30 分钟,避免中途切换模型导致幻觉率飙升。这个细节很关键,很多人做多路由的时候忽略了这一点。
我始终坚信,一个好的技术产品,不在于它功能有多炫酷,而在于它把哪些复杂藏起来了,把哪些简单留给了你。FreeLLMAPI 在这点上做得很好。
我查了各家 ToS——放心,但有限制
伯衡君最担心的部分,是免费的东西往往有一个但是。逐个过了一遍各家 provider 的 ToS:
大多数 provider 的 free tier 允许 API 调用后的正常使用。Google、Groq、Mistral、OpenRouter 这些都没有明确禁止你通过代理聚合他们的免费额度。
有一个例外是 NVIDIA——它的 free tier 明确写了 eval-only(仅用于评估)。这意味着生产环境不能用。但 FreeLLMAPI 的作者很诚实,文档里标注了。没有藏着掖着。
总结一句话:这个项目的设计定位很清晰——"Personal experimentation only"(仅个人实验使用)。它不是用来替你跑生产流量的。但如果你是一个开发者,想在一个统一接口后面探索 16 个不同模型的差异、做个 POC、或者只是不想被任何一个 provider 锁死,那它完全够用。
跑起来有多简单?
真的,就一行命令:
curl -fsSL https://freellmapi.co/install.sh | bash
是的你没看错。就一行。Docker 会自动拉镜像、生成加密 key、启动容器。整个流程大概 2 分钟搞定。
它还有桌面版——macOS 的 dmg 和 Windows 的 exe,直接下载安装。Windows 版第一次跑可能会被 SmartScreen 警告,点更多信息、仍然运行就行了。
支持的语言也很良心:English、中文(简体)、Francais、Espanol、Portugues、Italiano。中文翻译质量不错,没有机翻的味儿。
除了基本的 chat completion,它还支持:
- Responses API(Codex CLI 的 wire format)
- Anthropic Messages API(Claude Code 和 Anthropic SDK 也能跑)
- 图片生成(/v1/images/generations)
- 语音合成(/v1/audio/speech)
- Tool calling(OpenAI 风格的工具调用)
- Embeddings(向量路由,同模型家族内故障转移)
我认为,最值得关注的是它支持 Anthropic Messages API。这意味着你可以用 Claude Code 直接连到你的免费模型池。
Claude Code 是 Anthropic 推出的 CLI 编程工具,现在通过 FreeLLMAPI,你可以让它调用免费的 Claude 替代模型。这对开发者来说,等于零成本接入一套完整的 AI 编程助手。
篇后寄语
聊到这儿,伯衡君想说说更宏观的感受。
FreeLLMAPI 这个项目,本质上是在做一件很有时代感的事:它证明了免费不再等于玩具。
五年前,你说我用免费 LLM 跑生产,别人会笑你。今天呢?16 个 provider 的免费额度加起来就是每月 17 亿 token。这已经不是一个数量级的小打小闹了。
更有趣的是,它降低了 LLM 的准入门槛。你不需要理解分布式路由、不需要写 17 个 SDK 适配、不需要处理 17 种不同的速率限制策略。把这些全部抽象掉之后,剩下的就一个 /v1/chat/completions。
这跟当年 Docker 把容器底层细节抽象掉、让一个 docker run 解决所有环境问题的思路,是一脉相承的。
基础设施的终点,就是把复杂藏起来,把简单留给你。
当然,它不是万能的。如果你需要的是生产级 SLA、按用户计费、或者更复杂的编排能力,那它不适合你。
但是!如果你是一个对世界保持好奇的开发者,想在一个统一的接口后面薅遍所有能薅的免费 LLM,想看看 100 多个模型到底各有什么脾气——那这个项目的价值,我觉得可以用两个字概括:
真香。
体验地址
在线模型目录浏览:freellmapi.co
可以浏览所有支持的模型、查看实时额度信息。
项目地址
- GitHub:https://github.com/tashfeenahmed/freellmapi
- Docker 镜像:ghcr.io/tashfeenahmed/freellmapi:latest
桌面版安装:GitHub 对应的Releases 页面可以
概念释义
OpenAI 兼容 API:想象它是快递中转站。OpenAI 定了一套快递标准(API 格式),任何快递公司(LLM provider)只要按这个标准打包货物(模型能力),你的客户(开发者)就不需要分别去每家快递点寄件——直接交给中转站,中转站自动帮你分发到最近的、最合适的快递公司。FreeLLMAPI 就是这个中转站。
Sticky Sessions:就像你去了一家理发店,理了一个满意的发型。下次去的时候,如果换了另一个理发师,可能就不太习惯。Sticky Sessions 就是确保你在 30 分钟内一直和同一个理发师(模型)对话,避免因为中途切换导致的体验下降。
Fallback Chain:就像你上班有多条路线可以选择。如果 A 路堵车了,自动切换到 B 路;B 路也堵,再切 C 路。FreeLLMAPI 就是那个实时导航,确保你的请求始终能找到畅通的道路。
以上,既然看到这里了,如果觉得不错,随手点个赞、在看、转发三连吧,如果想第一时间收到推送黑科技,敬请关注行运设计师⭐~
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.