网易首页 > 网易号 > 正文 申请入驻

寻找AI算力的“第二出口”:高额Token时代下的端侧解法

0
分享至

6月1日,微软旗下 GitHub Copilot 宣布全面废除原有的固定月费制,转向基于 Token 实际用量的计费模式。这一举措,被业内普遍视为大模型行业“包月低价时代”终结的信号。

在过去两年里,企业沉浸在大模型赋能业务、降低成本的乐观叙事中,但许多企业核算报表时却迎来了残酷的财务审计:实际支出不降反升。这种成本悖论的背后,是 AI 技术正从“一问一答”的对话框,加速跨入全天候自主规划、循环调用的智能体(Agent)时代。当智能体在后台默默进行着全天候的屏幕扫描、日志解析和长文本轮询时,每一次自动化决策都是千万级 Token 的高频吞吐。

这场由技术演进引发的“推理成本危机”,正在将大模型的落地推向一个全新的思考节点:当云端的无限智能变成供不起的奢侈品,企业究竟该去哪里寻找算力的“第二出口”?

一、 消失的“免费续杯”:当AI从吞噬软件转向吞噬账单

“市场对智能的需求几乎是无限的,但能源与算力将成为真正的瓶颈。”Coinbase 首席执行官 Brian Armstrong 的这番话,点出了 AI 行业生产力逻辑的剧烈转变。

一个行业共识是:过去企业经营 AI 的重心集中在训练端,赌的是参数的“涌现”;而到了2026年,根据 FinOps 基金会发布的最新数据,AI 推理成本在企业 AI 总预算中的占比已经超过八成。大模型正在从“吞噬参数”的研发怪兽,变成“吞噬账单”的推理老虎。

Gartner 高级分析师 Arun Chandrasekaran 接受 Business Insider 采访时也一针见血地指出,GitHub Copilot 的案例只是冰山一角。随着高级推理模型和智能体工作流的普及,AI 进入了全天候的运行状态。每一次自动化决策背后,都是千万级 Token 的高频交互,这必然倒逼市场转向更严苛的按量计费模式。

在智能体时代,技术可行性不再是唯一的终点,企业投资回报率(ROI)才是真正的试金石。如果推理成本找不到更优的解法,AI 很难真正作为核心生产力嵌入到企业经营的骨干网络中。

二、 重返边缘:未来八成工作任务或由端侧智能完成

面对高昂的云端 API 开销,行业的非共识正在迅速凝聚成新的共识,即逃离单一的云端中心化大模型,走向更具弹性的分布式端侧算力。

斯坦福大学的研究数据指出,本地化小模型在真实对话与复杂推理查询中的准确率,已经从前两年的低谷期,大幅提升至如今的 71.3% 左右,与此同时,其运行能耗与单次推理成本则下降了数个数量级。有业内人士推测,未来大约有八成的工作负载将迁移至本地化、开源且成本更低的小模型上,而剩余两成触及智能上限的极限任务,才需要调用前沿的云端 API。

这种将算力向端侧收拢的趋势,本质上是企业在经济、安全与效率之间重新寻找平衡点的过程:在经济账上: 它将不可控的“云端流量计费”,转变为可预测的“本地硬件资产投入”,大幅消解了企业的 Token 账单焦虑;在安全账上: 企业最核心的敏感数据与用户图形界面(GUI)交互流能够完全留在终端处理,从物理底层降低了机密外泄的风险;在效率账上: 它规避了网络延迟与带宽吞吐的限制,让设备端的毫秒级实时反馈成为可能。

英伟达首席执行官黄仁勋在 GTC 大会上也表达了类似的观点,他认为数以亿计的智能体需要自主观察屏幕并理解图形界面,将这些高频运行的数字员工完全放在云端在工程上并不现实,端侧基础设施正成为智能体规模化落地的温床。

走向端侧不是技术的倒退,而是一场算力红利的物理级分流。企业通过押注端侧,正在将数字化成本从“变动费用”重构为“固定资产”。

三、 从“压缩模型”到“买断智能”:基础设施层的自救

当前,全球科技力量正在加速往端侧设备塞入更强劲的“大模型引擎”。在海外,微软与芯片厂商联合强推 Copilot+ PC 标准,在端侧直接消化日常的语义搜索与文本摘要;谷歌则通过 Gemini Nano 将轻量大模型直接内嵌至操作系统底层。放眼国内,腾讯混元推出的极小端侧模型将内存占用压缩至 600MB 以内,智谱 AI 的端侧智能体产品也开始走入智能座舱。

在这场拼命将大模型“做小、塞进设备”的红海竞争中,明略科技(2718.HK)则试图走一条面向基础设施层面的范式创新之路。明略科技创始人吴明辉此前曾提出一个行业洞察,他认为把单个大模型做大的集中式路线(Scaling Up)正在逼近其边际效应和成本的天花板,未来的真正解法是分布式协同(Scaling Out)——让多个专精的智能体在端侧与私有网络中进行网状协作。

在这个技术判断下,明略科技通过对硬件终端与端侧软件的闭环改造,提供了一种可落地的参考。

首先是攻克从“文本对话”到“视觉交互”的门槛。真实的办公场景大多由密密麻麻的图形界面(GUI)构成。明略科技开源自研的 Mano-P 是一款端侧视觉-语言-动作智能体模型,其轻量化版本能够以纯视觉的方式直接理解并操作复杂的桌面软件与网页系统。在 Apple M5和M5 Pro 芯片上实测,其预填充速度表现出色,而峰值内存仅占 4.3GB 左右。这意味着,跨系统、跨 App 的自动化办公操作,完全有可能在员工的本地终端上运行,从而在特定环节让云端大模型的接口费用回归到零。

其次是打通端侧推理引擎的底层重构。为了让模型在 Apple Silicon 生态上跑得更省、更高效,明略科技自研了专为 macOS 优化的推理加速 SDK —— Cider。该框架直接切入计算算子与硬件调用机制的底层,在相关量化模式下,其算子运行速度相比部分原生框架表现出明显的加速优势,不仅降低了权重内存占用,也大幅提升了多模态小模型的端侧预填充速度。

最终,这种成本与安全的解法,沉淀为组织形态的重构。明略科技打造了 Octo 开源可信智能体协作网络,将其作为组织运转的底层网络。目前在其内部的实际工作流中,正运行着数千个 AI Agent,智能体的数量已经是人类员工的两倍。这不再是一个人机对话的孤立场景,而是多个专精智能体在同一个私有网络中实时协作、互相纠错的分布式架构。

未来的解法已经很清晰,当大家还在卷云端参数时,像明略科技这样切入端侧基础设施、倡导“分布式协作(Scaling Out)”的探索,给行业指出了一条非常聪明的活路:高频、具体的日常办公交互,都将由端侧视觉智能体在本地就地消化。

这不仅是帮企业省下了昂贵的云端账单,更是一次商业模式的重构——把 AI 从一种“随时在计费、停不下来”的变动成本,变成了企业自己可以握在手里、一次性买断的“数字固定资产”。把智能赋给终端,技术才能真正轻盈、踏实地走入每一家企业的日常。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
G奶天后演唱会出现“多人运动”?窦骁宋慧乔的瓜!

G奶天后演唱会出现“多人运动”?窦骁宋慧乔的瓜!

八卦疯叔
2026-06-21 09:09:18
菲防长彻底完蛋!中方制裁不到十天,又被国内质疑:你是哪国防长

菲防长彻底完蛋!中方制裁不到十天,又被国内质疑:你是哪国防长

诗里寻那个他
2026-06-22 03:46:52
无伤亡!北京著名商业街大栅栏发生火灾!原因正在调查中

无伤亡!北京著名商业街大栅栏发生火灾!原因正在调查中

声情专递
2026-06-22 20:52:21
紧追梅西!27岁姆巴佩再轰世界波:2场3球挡不住 世界杯16场轰15球

紧追梅西!27岁姆巴佩再轰世界波:2场3球挡不住 世界杯16场轰15球

风过乡
2026-06-23 05:43:27
人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

人民日报怒批机关事业单位的三大怪状,引基层人员共鸣!

职场资深秘书
2026-06-22 14:38:13
刷爆纪录!梅西六届世界杯28场17球封王,20年书写GOAT传奇

刷爆纪录!梅西六届世界杯28场17球封王,20年书写GOAT传奇

林小湜体育频道
2026-06-23 02:59:03
低密度脂蛋白高于这个数,必须立刻重视,你的血管已经严重失控

低密度脂蛋白高于这个数,必须立刻重视,你的血管已经严重失控

垚垚分享健康
2026-06-22 20:15:11
申裕斌说,有很多教练都在帮助我研究孙颖莎,可孙颖莎只有邱贻可一个教练

申裕斌说,有很多教练都在帮助我研究孙颖莎,可孙颖莎只有邱贻可一个教练

乒乓助手
2026-06-23 02:30:57
五种动力全覆盖!全新宝马X5将于6月30日全球首发:配141kWh超大电池

五种动力全覆盖!全新宝马X5将于6月30日全球首发:配141kWh超大电池

快科技
2026-06-22 11:49:00
人到晚年,一定要在还能走动时,把这五件事办了,一旦卧床就晚了

人到晚年,一定要在还能走动时,把这五件事办了,一旦卧床就晚了

王二哥老搞笑
2026-06-21 09:50:17
把政绩刻在群众心坎上(树立和践行正确政绩观)

把政绩刻在群众心坎上(树立和践行正确政绩观)

海外网
2026-06-22 09:44:04
我在工地搬砖,女包工头走过来:你力气这么大,跟我干,工钱翻倍

我在工地搬砖,女包工头走过来:你力气这么大,跟我干,工钱翻倍

千秋文化
2026-06-20 19:40:37
外交部:中国政府已决定再次向刚果(金)等提供紧急人道主义援助

外交部:中国政府已决定再次向刚果(金)等提供紧急人道主义援助

国际在线
2026-06-22 19:23:03
地球真的生病了!塔克拉玛干沙漠边缘发洪,当地人:这辈子没见过

地球真的生病了!塔克拉玛干沙漠边缘发洪,当地人:这辈子没见过

哄动一时啊
2026-06-22 19:28:35
不负传奇!梅西18球登顶世界杯历史射手王!一战刷新九大纪录!

不负传奇!梅西18球登顶世界杯历史射手王!一战刷新九大纪录!

海浪星体育
2026-06-23 03:31:17
2亿王者级肉签公布中签结果,人数仅1.92万个,股民中到即大赚!

2亿王者级肉签公布中签结果,人数仅1.92万个,股民中到即大赚!

数据挖掘分析
2026-06-22 05:55:14
NBA历史前20,特雷·杨凭借与奇才队新合同,在榜单上创造了历史

NBA历史前20,特雷·杨凭借与奇才队新合同,在榜单上创造了历史

好火子
2026-06-23 04:11:31
世界杯最大浪费!阿森纳王牌枯坐冷板凳,本可去英格兰当主力

世界杯最大浪费!阿森纳王牌枯坐冷板凳,本可去英格兰当主力

澜归序
2026-06-22 06:43:35
马宁下场比赛定了?日本球迷提前担心,希望不要执法日本比赛

马宁下场比赛定了?日本球迷提前担心,希望不要执法日本比赛

十点体坛
2026-06-22 21:45:17
莫斯科再遭大规模空袭!俄四大机场全部关闭

莫斯科再遭大规模空袭!俄四大机场全部关闭

项鹏飞
2026-06-22 20:13:48
2026-06-23 06:00:49
界面新闻 incentive-icons
界面新闻
只服务于独立思考的人群
1111683文章数 1336235关注度
往期回顾 全部

科技要闻

马云与阿里巴巴众高管下田插秧

头条要闻

阿根廷2-0奥地利 卫冕冠军2连胜提前晋级32强

头条要闻

阿根廷2-0奥地利 卫冕冠军2连胜提前晋级32强

体育要闻

法国球星祝中国队下届世界杯取得好成绩

娱乐要闻

陪睡陪玩是皮毛,向佐揭内娱暗规则

财经要闻

前美联储主席格林斯潘去世 享年100岁

汽车要闻

华为智驾ADS限时优惠月底结束 7月1日前下订立省3000元

态度原创

房产
教育
亲子
家居
时尚

房产要闻

一年时间,36个盘“消失”!海口楼市,罕见“大收缩”!

教育要闻

高考志愿填报临近,关于海南洛桑旅游大学,家长最关心的几个问题

亲子要闻

何猷君儿子幼儿园毕业!这场面,我等普通父母看傻了

家居要闻

绿意盎然 自然之境

羞辱妈妈的烂梗,越来越歹毒了

无障碍浏览 进入关怀版