网易首页 > 网易号 > 正文 申请入驻

不可思议!400B大模型在iPhone上跑起来了

0
分享至

来源:市场资讯

编辑|冷猫

有时候看到一些大模型项目,总会怀疑是不是真的有外星人在干预地球科技。

就比如今天这个。

刚看到这个 Demo 的时候着实有些想笑,很久没有见过吐词如此之慢的大模型了。观感上就像「闪电」老师。


尽管只有每秒 0.6 个 tokens 的输出速率,这依旧是一个令人不可思议的工作。因为这是一个跑在 iPhone 17 Pro 上的 400B 大模型!


准确的来说,这是在 iPhone 17 Pro 的 A19 Pro 芯片上运行的 MoE 模型 Qwen3.5-397B-A17B。

由于苹果芯片的统一架构设计,在 Mac 芯片上运行和在 iPhone 芯片上运行大模型本质上区别并不大。因此,该项目可以说是由来已久。

我们发现,以上演示是来自于「Flash-MoE:在 Apple Silicon 上运行的 Qwen3.5-397B-A17B」的开源项目。

  • 项目链接:https://github.com/Anemll/flash-moe/tree/iOS-App

Flash-MoE 极简主义的胜利

那 Flash-MoE 是什么呢?

Flash-MoE 引擎是开源社区大名鼎鼎的项目,是拜登的前首席技术官 Daniel Woods,与人工智能大模型 Claude Code 4.6 共同研究开发,,标志着 「端侧大模型」 进入了一个近乎荒诞但极具突破性的新阶段。


  • 原始论文:《Flash-MoE: Streaming a 397B Parameter Mixture-of-Experts Model from NVMe at 5.7 Tokens/Second on Consumer Hardware》

  • 论文链接:https://github.com/danveloper/flash-moe/blob/main/paper/flash_moe.pdf

  • 开源链接:https://github.com/danveloper/flash-moe?tab=readme-ov-file

Flash-MoE 摒弃了所有现代 AI 框架的 「重装甲」,回归了极致的底层开发:

  • 零 Python 依赖: 整个引擎使用 Objective-C 和 C 编写,没有任何 Python 运行时或重量级框架(如 PyTorch)。

  • 定制化 Metal 流水线: 开发者手写了 Metal Shader(着色器),构建了一个三指令缓存(Three-command-buffer)的 GPU 并行流水线,消除了 CPU 和 GPU 之间的同步等待。

  • GCD 并行读取: 利用 Apple 的 Grand Central Dispatch (GCD) 启动大量并发 pread () 调用,压榨 SSD 的顺序读取速度(在 M3 Max 上测得约 17.5 GB/s)。

整个模型体积为 209 GB(在 2-bit 专家重量化后为 120 GB),通过并行的 pread () 调用从磁盘流式读入,且在任何时刻仅有 5.5 GB 的权重驻留在内存中。

关键创新点包括:

1. 融合三指令缓存(Three-command-buffer)GPU 流水线: 消除了 CPU 与 GPU 之间的同步开销。

2. BLAS 加速线性注意力机制: 用于 Gated-DeltaNet 层。

3. 反直觉的缓存策略: 移除了所有应用层缓存,完全交由 macOS 页面缓存(page cache) 独占管理专家数据;通过消除内存压缩器的频繁抖动(thrashing),实现了 38% 的速度提升。

这一工作在 Apple M3 Max 芯片上实现了 5.74 tok/s 的持续速度和 7+ tok/s 的峰值速度。这是首次证明在消费级硬件上,模型规模超过 DRAM 容量 4 倍以上仍能以交互级速度运行的研究工作。

不过,原作者 Dan Woods 显然并没有预料到 400B 大模型能够在 iPhone 上运行。


LLM in a Flash 的遗产

最初,这个项目的灵感源于 Apple 的研究报告。其核心逻辑很像当年英特尔傲腾的思路:既然内存装不下,那就把 SSD 当作内存用。

Dan Woods 在开发该项目的时候就使用了苹果在 2023 年的论文《LLM in a flash:具有有限内存的高效大型语言模型推理》中描述的技术。


  • 论文标题:LLM in a flash: Efficient Large Language Model Inference with Limited Memory

  • 论文链接:https://arxiv.org/abs/2312.11514

该论文解决了在 DRAM 容量不足的情况下,如何高效运行大语言模型的挑战。

方法是将模型参数存储在闪存中,并根据需求将其调入 DRAM。研究团队构建了一个结合闪存特性的推理成本模型,并据此在两个关键领域进行了优化:一是减少从闪存传输的数据总量,二是确保以更大、更连续的数据块进行读取。

这一方法受到了广泛的讨论。尤其是利用 MoE 模型的活跃专家的特性,是让一个超大参数体积的模型运行在本地的消费级芯片的重要原因。

虽然 iPhone Pro 的 RAM 非常有限(总共 12GB),但仍然需要它来运行模型的活跃部分。



此外,模型的量化设计也引发了一定的讨论。


但不论如何,400B 大模型的确在移动端设备跑起来了,哪怕又慢又卡又不完整,但始终是向人手一个本地大模型的美好愿景更进一步。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
准度不及赵心童,沉稳不及丁俊晖,吴宜泽靠什么赢墨菲?

准度不及赵心童,沉稳不及丁俊晖,吴宜泽靠什么赢墨菲?

第五小强
2026-05-05 00:04:57
大佬!梅西受邀坐进安东内利的座驾!世界罕见!

大佬!梅西受邀坐进安东内利的座驾!世界罕见!

历史第一人梅西
2026-05-04 18:26:03
郭焱:国乒男队问题不是一天两天了!封训练的啥?林诗栋被牵着走

郭焱:国乒男队问题不是一天两天了!封训练的啥?林诗栋被牵着走

念洲
2026-05-04 13:13:42
美军中将:伊朗战争是代价更高的对华战争的预演,后果不堪设想

美军中将:伊朗战争是代价更高的对华战争的预演,后果不堪设想

潋滟晴方DAY
2026-05-05 00:50:03
请大家做好准备:地方因为缺钱,正在发生很明显的变化

请大家做好准备:地方因为缺钱,正在发生很明显的变化

财经保探长
2026-05-02 21:23:41
赵继伟深夜12字发言,话里有话!球迷:要离队吗?

赵继伟深夜12字发言,话里有话!球迷:要离队吗?

体育哲人
2026-05-04 11:12:36
伊朗作出关键让步,竟然软成这样

伊朗作出关键让步,竟然软成这样

名人苟或
2026-05-03 11:26:00
李嫣港岛现身被偶遇!背影一出,王菲老粉集体愣住…

李嫣港岛现身被偶遇!背影一出,王菲老粉集体愣住…

人间娱事集
2026-05-03 14:12:11
北京二手房:井喷了

北京二手房:井喷了

林子说事
2026-05-04 14:51:05
出军力但不护航 海峡疏导行动背后美国另有盘算

出军力但不护航 海峡疏导行动背后美国另有盘算

看看新闻Knews
2026-05-04 20:00:09
八成丢冠?曼城不仅落后6分,还将面对阿森纳的难题

八成丢冠?曼城不仅落后6分,还将面对阿森纳的难题

嗨皮看球
2026-05-04 10:59:47
全美爆发大规模游行混乱,特朗普或将被迫下台

全美爆发大规模游行混乱,特朗普或将被迫下台

大鱼简科
2026-05-04 17:11:59
特朗普访华行程有变化!

特朗普访华行程有变化!

果妈聊娱乐
2026-05-04 20:56:13
1分钟抢光!发售价5999元被炒到9.99万元,网友:到底谁在买……

1分钟抢光!发售价5999元被炒到9.99万元,网友:到底谁在买……

晋江电视台
2026-05-02 12:01:08
回不来了!美国一句话,赖清德被架在火上烤,还想“顺”到美国?

回不来了!美国一句话,赖清德被架在火上烤,还想“顺”到美国?

知法而形
2026-05-04 17:45:49
小米鸿蒙智行4月双双破3万!但海报那行小字,真当用户瞎?

小米鸿蒙智行4月双双破3万!但海报那行小字,真当用户瞎?

趣味萌宠的日常
2026-05-02 13:33:51
首相出访,委员长访华!日本也没想到中国连基本的面子都不给

首相出访,委员长访华!日本也没想到中国连基本的面子都不给

兰妮搞笑分享
2026-05-05 00:17:55
安徽铜陵万达广场,女子表演天女散花时从高空坠落;工作人员:没有受伤

安徽铜陵万达广场,女子表演天女散花时从高空坠落;工作人员:没有受伤

大风新闻
2026-05-04 14:57:35
法国媒体表示,随着输给韩国队和瑞典队,中国队不再是不可战胜的

法国媒体表示,随着输给韩国队和瑞典队,中国队不再是不可战胜的

凤幻洋
2026-05-04 16:32:23
孙杨扛起撒贝宁扔泳池:你不会死了吧?岳云鹏惊呆 浙江卫视发声

孙杨扛起撒贝宁扔泳池:你不会死了吧?岳云鹏惊呆 浙江卫视发声

念洲
2026-05-02 21:54:13
2026-05-05 05:47:00
新浪财经 incentive-icons
新浪财经
新浪财经是一家创建于1999年8月的财经平台
3101572文章数 7139关注度
往期回顾 全部

数码要闻

苹果发布2026年Pride特别版表带及配套表盘与壁纸

头条要闻

视频:特朗普出席活动前传枪声 特勤局出动封锁白宫

头条要闻

视频:特朗普出席活动前传枪声 特勤局出动封锁白宫

体育要闻

骑士破猛龙:加雷特·阿伦的活力

娱乐要闻

张敬轩还是站上了英皇25周年舞台

财经要闻

魔幻的韩国股市,父母给婴儿开户买股票

科技要闻

在中国市场搞「付费订阅」,豆包咋想的?

汽车要闻

同比大涨190% 方程豹4月销量29138台

态度原创

艺术
家居
数码
教育
军事航空

艺术要闻

震惊!43岁妈妈晒女儿合影,30万网友猜测身份!

家居要闻

灵动实用 生活艺术场

数码要闻

华硕推出ZenScreen OLED MQ16FC便携显示器:16英寸,280欧元起

教育要闻

初三女生经常反胃恶心,妈妈误以为装病,真相竟是孩子的心理求救

军事要闻

特朗普回绝伊朗新方案

无障碍浏览 进入关怀版