网易首页 > 网易号 > 正文 申请入驻

【教程】大模型量化界翘楚:unsloth

0
分享至

大家好,我是 Ai 学习的老章

Unsloth Github 项目:https://github.com/unslothai/unsloth

Unsloth

Unsloth 秘密武器是动态量化,核心思路是:对模型的少数关键层进行高质量的 4-6bit 量化,而对大部分相对没那么关键的混合专家层(MoE)进行大刀阔斧的 1-2bit 量化。

另外

Unsloth 无缝兼容 HuggingFace Transformers、vLLM 和 LoRA 等生态工具。例如,直接调用FastLanguageModel接口即可加载 4 位量化模型,并通过SFTTrainer快速配置微调参数

GGUF

Unsloth 深度集成GGUF(GPT-Generated Unified Format),这一由 Llama.cpp 推出的高效量化格式专为边缘计算与本地部署设计。其核心优势包括:

  • 动态量化策略:支持 Q2_K、Q4_K_M、Q5_K_S 等多级量化方案,例如对注意力层采用 Q4_K_M(4 位混合精度),而对关键输出层保留 Q5_K_S(5 位稀疏量化),在精度与压缩率间实现最优平衡。

  • 硬件适配性:GGUF 通过预计算张量维度与内存对齐策略,显著提升 CPU/GPU 推理速度。实测显示,Unsloth 导出的 GGUF 模型在 Llama.cpp 上推理速度比原始 PyTorch 模型快 2.3 倍。

  • 跨平台兼容:支持 Windows/Linux/macOS 原生运行,甚至可在树莓派 5 等嵌入式设备部署。例如,Q4 量化后的 Llama-3-8B 模型仅需 8GB 内存即可流畅推理。

Use it

Huggingface 和 modelscope 上都可以找到 unsloth 开放的量化模型

比如

https://huggingface.co/unsloth/gemma-3-27b-it-GGUF/blob/main/gemma-3-27b-it-Q4_K_M.gguf

HF Hub 提供了一个查看 GGUF 文件的工具,可以检查元数据及张量信息(名称、形状、精度)。该工具可在模型页面(示例)和文件页面(示例)上使用。

apt-get update apt-get install pciutils build-essential cmake curl libcurl4-openssl-dev -y git clone https://github.com/ggerganov/llama.cpp cmake llama.cpp -B llama.cpp/build \     -DBUILD_SHARED_LIBS=ON -DGGML_CUDA=ON -DLLAMA_CURL=ON cmake --build llama.cpp/build --config Release -j --clean-first --target llama-quantize llama-cli llama-gguf-split cp llama.cpp/build/bin/llama-* llama.cpp ## 下载模型 # pip install huggingface_hub hf_transfer # import os # Optional for faster downloading # os.environ["HF_HUB_ENABLE_HF_TRANSFER"] = "1" from huggingface_hub import snapshot_download snapshot_download(   repo_id = "unsloth/gemma-3-4b-it-GGUF",   local_dir = "gemma-3-4b-it-GGUF",   allow_patterns = ["*Q4_K_M*"],  ) ## 启动模型 ./llama.cpp/llama-cli \     --model /unsloth/gemma-3-4b-it-GGUF/blob/main/gemma-3-4b-it-Q4_K_M.gguf \     --cache-type-k q4_0 \     --threads 12 -no-cnv --prio 2 \     --temp 0.6 \     --ctx-size 8192 \     --seed 3407 \     --prompt "<|User|>What is 1+1?<|Assistant|>"
Mac

我用丐版 mac mini 跑起

# 安装 brew install llama.cpp # 下载运行模型、注意格式!! llama-cli -hf unsloth/gemma-3-4b-it-GGUF:Q4_K_M

模型大小 2.5GB,运行起来仅使用了 Swap 内存

输出性能

llama_perf_sampler_print:    sampling time =       7.01 ms /    30 runs   (    0.23 ms per token,  4280.21 tokens per second) llama_perf_context_print:        load time =   20638.18 ms llama_perf_context_print: prompt eval time =     320.99 ms /    13 tokens (   24.69 ms per token,    40.50 tokens per second) llama_perf_context_print:        eval time =   50693.96 ms /  1044 runs   (   48.56 ms per token,    20.59 tokens per second) llama_perf_context_print:       total time =  347782.12 ms /  1057 tokens

采样阶段吞吐量 4280t/s,提示词处理 40.5t/s,生成阶段 20.59t/s

unsloth 量化模型也支持 ollama,不再细说

也支持 vLLM,我之前详细介绍演示过:

制作不易,如果这篇文章觉得对你有用,可否点个关注。给我个三连击:点赞、转发和在看。若可以再给我加个,谢谢你看我的文章,我们下篇再见!

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
陈慧琳演唱会穿三角裤衩,五十多了合适吗?不愧是女神

陈慧琳演唱会穿三角裤衩,五十多了合适吗?不愧是女神

西楼知趣杂谈
2026-05-01 22:23:05
佩雷拉:安德森具备跻身顶级豪门的实力;球队想留住现有班底

佩雷拉:安德森具备跻身顶级豪门的实力;球队想留住现有班底

懂球帝
2026-05-25 01:58:32
朝鲜突然大规模裁军,平壤这场全军师旅级指挥员会议一散场

朝鲜突然大规模裁军,平壤这场全军师旅级指挥员会议一散场

小马姨
2026-05-23 17:27:23
我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

我年过六十岁才恍然大悟:为什么大多数女人都对六十岁以上的男人敬而远之,甚至会主动回避,两个原因

心理观察局
2026-05-04 08:51:10
红军切尔西,切尔西单赛季吃到11张红牌打破队史纪录

红军切尔西,切尔西单赛季吃到11张红牌打破队史纪录

懂球帝
2026-05-25 00:53:18
伊朗终于服软?同意放弃高浓缩铀!美媒曝光细节,果然没那么简单

伊朗终于服软?同意放弃高浓缩铀!美媒曝光细节,果然没那么简单

健身狂人
2026-05-25 01:11:34
“干到5点上来才知道出事了”:留神峪煤矿爆炸后,有晚班工人仍下井作业

“干到5点上来才知道出事了”:留神峪煤矿爆炸后,有晚班工人仍下井作业

新京报
2026-05-24 14:15:43
抓了那么多贪官,钱呢?跟我们有关系吗?

抓了那么多贪官,钱呢?跟我们有关系吗?

细说职场
2026-05-08 22:15:45
救人反而被全网重罚!河南3支蓝天救援队被严厉通报:真不冤!

救人反而被全网重罚!河南3支蓝天救援队被严厉通报:真不冤!

起喜电影
2026-05-24 15:13:23
张奔斗:不再驼背的王曦雨,精气神也跟着起来了

张奔斗:不再驼背的王曦雨,精气神也跟着起来了

体坛周报
2026-05-24 23:48:31
1999 年,鞠萍向丈夫提出了离婚,丈夫同意离婚

1999 年,鞠萍向丈夫提出了离婚,丈夫同意离婚

东方不败然多多
2026-05-25 00:39:55
认知越低,人越犟

认知越低,人越犟

细说职场
2026-05-19 15:44:21
2384亿小贷帝国崩塌!重庆教父落马,八部门铁拳砸下

2384亿小贷帝国崩塌!重庆教父落马,八部门铁拳砸下

呼呼历史论
2026-05-23 13:12:42
悄悄告诉你个秘密:尽量吃便宜的蔬菜、便宜的水果、便宜的粮食

悄悄告诉你个秘密:尽量吃便宜的蔬菜、便宜的水果、便宜的粮食

三农雷哥
2026-05-24 12:35:49
斯洛特:很多比赛习惯我希望球队能改掉;我们会签新人

斯洛特:很多比赛习惯我希望球队能改掉;我们会签新人

懂球帝
2026-05-25 02:30:16
2026年纪委再出重拳,公职人员违规吃喝标准定了!

2026年纪委再出重拳,公职人员违规吃喝标准定了!

职场资深秘书
2026-05-24 21:03:29
整个文明将在今晚消亡,特朗普这句核威胁把全世界的胆都吓破了

整个文明将在今晚消亡,特朗普这句核威胁把全世界的胆都吓破了

浪子的烟火人间
2026-05-24 00:05:14
若我们这代人不收复台湾,下代人统一时,或会直接将台湾打成废墟

若我们这代人不收复台湾,下代人统一时,或会直接将台湾打成废墟

小兰聊历史
2026-05-23 11:24:45
有事苏提达,无事欧拉弄!泰王和欧拉弄在私宅待客,穿情侣拖鞋

有事苏提达,无事欧拉弄!泰王和欧拉弄在私宅待客,穿情侣拖鞋

毒舌小红帽
2026-05-24 20:17:47
集中爆发!宁波多地惊现罕见景观!有人半夜11点刷到立马起床出发,连夜奔赴

集中爆发!宁波多地惊现罕见景观!有人半夜11点刷到立马起床出发,连夜奔赴

上观新闻
2026-05-23 11:46:10
2026-05-25 02:40:49
Ai学习的老章 incentive-icons
Ai学习的老章
Ai学习的老章
3422文章数 11159关注度
往期回顾 全部

科技要闻

我戴着摄像头上班,正在帮AI抢走我饭碗

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

头条要闻

山西矿难遇难者家属:父亲年过半百 我们一直劝他别干了

体育要闻

唐斯发牌,大头逆袭:骑士跌向残忍夏季

娱乐要闻

王鹤棣掉粉超20万!代言和作品遭抵制

财经要闻

什么情况下,本轮AI大行情会结束?

汽车要闻

国民家轿再上新 帝豪向上系列限时5.59万起

态度原创

教育
亲子
家居
时尚
本地

教育要闻

养女儿一定要懂的道理!

亲子要闻

六一儿童节,用贴纸给女儿化妆,和化妆师的手法一样!

家居要闻

低调传承 温润沉静

《低智商犯罪》一半惊喜,一半可惜

本地新闻

用云锦的方式,打开江苏南京

无障碍浏览 进入关怀版