网易首页 > 网易科技 > 网易科技 > 正文

硅谷人工智能公司Nexa AI发布端侧AI部署新思路

0
分享至

(原标题:硅谷人工智能公司Nexa AI发布端侧AI部署新思路)

2025年,是AI硬件的全面爆发之年:AI手机、AIPC、AI陪伴、AI眼镜、AI智慧座舱……然而,云端大模型主导的AI硬件正在显露隐忧:高昂的 API 调用成本让中小企业望而却步,隐私数据上传云端的安全风险如影随形,网络延迟与垂域适配不足更是制约着端侧的场景创新

开源端侧小模型崛起正在改写游戏规则:英伟达也在论文《Small Language Models are the Future of Agentic AI》宣告:小模型才是Agentic AI的未来。

1. 部署难、表现差?端侧AI发展仍面临痛点

当开发者们摩拳擦掌,想要用先进小模型打造创新应用时,现实又浇了一盆冷水:

• 部署门槛高:端侧平台的推理框架并不像云端那样容易适配:工具链有CUDA、 QNN、ANE、ROCm、Openvino, openCL, metal, vulkan等等五花八门……耗费数月踩坑仍难跑通最新模型;

• 性能表现差:即使顺利通过部署,由于推理引擎适配不当导致精度下降、输出缓慢、能耗飙升,让端侧应用体验大打折扣

• 跨平台噩梦:不同硬件(PC,手机,车机,IoT)、芯片(高通、Intel、AMD、苹果)间的适配壁垒,让跨设备应用开发重复 “踩坑”,效率极低。例如可以在高通PC上运行的多模态模型无法自动移植到高通车载端。

• 最新的模型支持差:NPU上普遍只能跑1年以前发布的模型,无法使用最新的模型(如Mistral3, Qwen3-VL),模型需要等待非常久的时间才能得到支持。

2. 端侧AI部署的新思路

最近美国硅谷明星端侧AI Startup Nexa AI公司在github上发布的Nexa SDK,为全球开发者带来了破局新思路。这个项目致力于解决长期存在于端侧模型部署中的共性问题,让 AI 模型在手机、PC、汽车、IoT 等边缘设备上的落地变得前所未有的简单。

github可搜索:nexa-sdk  (如果认为对您工作有帮助,欢迎为开源作者star)

Nexa SDK 构建了4大核心优势,解决端侧 AI 部署的核心痛点:

• 跨平台统一推理框架:NexaSDK 由 NexaML 引擎提供支持,该引擎是从芯片Kernel层打造的跨硬件平台统一推理引擎(支持电脑,手机,车,IoT,机器人,以及AR眼镜等设备),并支持三种端侧模型格式:GGUF 格式、MLX 格式以及 Nexa AI 自主研发的 .nexa 格式。

• NPU, GPU, CPU深度适配:NexaSDK 可在多种算力平台的NPU、GPU、CPU上本地运行各类人工智能模型 —— 它不仅使用简单、灵活性高,而且性能佳。特别是支持各大算力平台的NPU芯片(覆盖高通Hexagon NPU, 苹果NPU,AMD Ryzen AI NPU,以及Intel NPU),充分利用NPU性能,可以解决过往端侧模型在CPU/GPU上运行带来的输出速度慢、能耗高的问题,能效比是CPU和GPU的9倍以上。

• 任意多模态模型Day-0支持:面对快速更新的开源模型市场,Nexa SDK能够做到在新模型推出的第一时间适配各个硬件后端(NPU, GPU, CPU),并且支持多种模态 Vision, Text, Audio, 以及 CV模型;

• 低代码极致易用:使用一行代码即可调用本地模型,OpenAI API 兼容设计让开发者无缝衔接代码,大大降低了端侧AI的应用门槛。

NEXA SDK一经发布也获得了包括AMD/高通的诸多行业认可:

3. 快速上手:快速解锁端侧AI能力

根据使用方式和平台,Nexa SDK提供不同的工具包:

Nexa CLI:可在MacOS/Windows/Linux 使用命令行终端速测试模型及运行本地服务器;同时支持在Linux 系统的容器化环境中运行 AI 模型;

Nexa SDK Python开发工具:可在MacOS/Windows/Linux平台使用Python完整运行SDK

Nexa SDK Android/iOS开发工具: 支持在移动端设备跨NPU/GPU/CPU推理的安卓/iOS开发工具包

Nexa SDK实现了全平台支持,全球首次统一支持苹果NPU、Intel NPU、AMD NPU、高通 NPU 等4类NPU推理加速芯片,让端侧模型边缘推理拥有了更广泛的实现和应用场景。

3.1 Nexa SDK CLI快速体验

下载路径:

可以从Nexa AI官网或者github nexa-sdk项目下载Nexa CLI。

一行代码运行模型

Nexa SDK支持LLM、多模态、音频(ASRTTS)、CV、生图等多种端侧模型。例如:

多模态模型

NexaSDK在Qwen3VL发布当天 Day-0跨平台支持,领先 llama.cpp/ollama 三周,并得到Qwen官方认可

车载多模态模型(适配高通SA8295P芯片NPU)

相比于其他框架,NexaSDK对于新模型的支持速度还是非常迅速,可以访问Nexa AI官网和Nexa AI huggingface官方模型仓库查看使用更多精选的模型。

目前Nexa CLI支持 MacOS、Windows、Linux(并支持Docker运行),同时提供Python API, IOS Swift API、Android Kotlin/JAVA API开发工具包。

兼容OpenAI API

NEXA CLI还提供 OpenAI 兼容的 REST API ,一行命令即可访问服务接口,无缝覆盖对话生成、文本嵌入、文档重排序、图像生成等核心场景,满足多样化开发需求。

/v1/chat/completions

- 用于 LLM 和 VLM 的对话生成

/v1/embeddings

- 为文本生成向量嵌入

/v1/reranking

- 根据查询相关性对文档重新排序

/v1/images/generations

- 根据提示生成图像

更多命令可以查看官方文档

3.2 Nexa SDK Python 开发工具包

Nexa SDK Python工具包,适配 MacOS、Windows、Linux等全平台优化后端,无论是本地开发还是企业级应用,都能使用Python更高效落地。可以使用Python API一键运行LLM、VLM、OCR、ASR、TTS、图像生成、说话人分离、键值缓存、采样配置、对话模板以及错误处理等。

3.3 Nexa SDK Android/iOS开发工具包

下载地址:

Nexa SDK Android工具包:可直接从 Maven 中央仓库获取,或访问github nexa-sdk项目

Nexa SDK iOS工具包可以从github nexasdk-mobile-iOS-framework项目获取。

Android 设备上支持直接运行的包括LLM、VLM、Embedding模型、OCR模型、CV模型、ASR模型、rerank模型以及生图模型,且支持通过 NPU、GPU和 CPU进行推理。通过 Kotlin/Java API 轻松集成,性能提升2倍,能效比优化9倍,重塑移动智能体验。

使用简洁的 Swift API,开发者可在 iOS/macOS 设备上直接运行LLM、VLM、Embedding模型、ASR模型以及rerank模型。目前,ASR模型与Embedding模型已支持 苹果神经网络引擎(ANE)加速,其他模型则基于图形处理器(GPU)与中央处理器(CPU)运行,同时可以达到性能提升2倍,能效比优化9倍的惊艳体验。

4. 为开发者带来丝滑体验:创意无需妥协

一行命令跑通:nexa infer 极简操作,告别复杂配置;

OpenAI API 无缝兼容 :现有代码零修改,直接迁移端侧运行;

95% NPU 利用率:性能优于 Qualcomm GENIE,极致发挥硬件潜力;

首发支持前沿模型: Qwen3、Granite、Liquid、Gemma 3n、Parakeet等最新模型快速适配;

结构化输出 :天然适配 AI Agent 工作流,加速应用创新;

持续更新的前沿端侧模型库:Nexa Model Hub不断扩充,让最先进端侧小模型触手可及。

5.结束语:从个人到产业 —— 端侧AI想象力不再设限

当部署不再是难题,当性能不再妥协,端侧 AI 的革命,正在每一个场景悄然发生:

手机:离线助手,日程提醒、生活助理……

PC:文件管理、个人知识库构建、Agent协作……

汽车:车内 AI 助手,实时路况提醒,安全监测……

IoT & 机器人:工厂巡检、缺陷检测……

端侧 AI 的低成本、高隐私、低延迟特性,正在重构产品形态,催生全新商业模式。

希望今天分享的Nexa SDK能让每一位热爱端侧AI的人都能参与到端侧 AI 的浪潮中,无需复杂的工具链,消解沉重的技术壁垒,赋能每一位开发者,解锁端侧AI落地的无限可能!

github项目:nexa-sdk (如果认为对您工作有帮助,欢迎为开源作者star)

相关推荐
热点推荐
女生9个不堪入目的行为

女生9个不堪入目的行为

匡北北
2026-04-03 22:46:13
金价要重现历史了!要有心理准备,月初金价可能将重现2015年历史

金价要重现历史了!要有心理准备,月初金价可能将重现2015年历史

次元君情感
2026-04-04 00:47:52
苹果新品突然官降:4月3日,暴降3000元!

苹果新品突然官降:4月3日,暴降3000元!

科技堡垒
2026-04-03 09:54:43
王祖贤献花悼念张国荣,坐纪念长椅凝视旧照,一待就是大半天

王祖贤献花悼念张国荣,坐纪念长椅凝视旧照,一待就是大半天

观察鉴娱
2026-04-02 10:36:48
理想被大货车拖行20米后全员毫发无伤 车主:下辆车还选理想

理想被大货车拖行20米后全员毫发无伤 车主:下辆车还选理想

快科技
2026-04-04 16:16:05
高速匝道限速40开60,到底罚不罚?2026后这3件事碰了直接扣12分

高速匝道限速40开60,到底罚不罚?2026后这3件事碰了直接扣12分

我不叫阿哏
2026-04-04 17:18:29
广东媳妇晒家公做的晚餐,在朋友圈火了,网友:看馋了,想去蹭饭

广东媳妇晒家公做的晚餐,在朋友圈火了,网友:看馋了,想去蹭饭

阿天爱旅行
2026-04-04 20:38:19
烂队找了个好外援!首秀29分3板10助攻,球迷:希望他能拿到工资

烂队找了个好外援!首秀29分3板10助攻,球迷:希望他能拿到工资

金山话体育
2026-04-04 09:42:04
随着北京国安1-2,青岛海牛1-0,中超最新积分榜出炉

随着北京国安1-2,青岛海牛1-0,中超最新积分榜出炉

凌空倒钩
2026-04-04 18:11:44
民进党分化策略落空!郑丽文大陆行前夕蓝军实现大团结

民进党分化策略落空!郑丽文大陆行前夕蓝军实现大团结

海峡导报社
2026-04-04 07:41:02
大量GPS定位器流入闲鱼!自带无限流量,全新才九块九

大量GPS定位器流入闲鱼!自带无限流量,全新才九块九

闲搞机
2026-04-04 11:00:09
雄鹿故意不让字母哥比赛被联盟抓现行,双方矛盾巨大!

雄鹿故意不让字母哥比赛被联盟抓现行,双方矛盾巨大!

爱体育
2026-04-04 22:23:42
明天阵风7-8级!北京清明假期天气提醒!外出必看→

明天阵风7-8级!北京清明假期天气提醒!外出必看→

BRTV新闻
2026-04-04 18:53:09
离谱!34岁武磊半场3度吐饼 2次空门吊射踢偏 单刀滑倒后坐地尬笑

离谱!34岁武磊半场3度吐饼 2次空门吊射踢偏 单刀滑倒后坐地尬笑

我爱英超
2026-04-04 22:25:40
CBA刺激剧情:里勒关键上篮2分晚安庆祝 深圳小外援踩线三分反绝杀

CBA刺激剧情:里勒关键上篮2分晚安庆祝 深圳小外援踩线三分反绝杀

狼叔评论
2026-04-04 22:18:09
“原来身份证不是全国统一的”话题冲上热搜,网友晒双语身份证,多地派出所:民族自治地方可同时使用民族文字

“原来身份证不是全国统一的”话题冲上热搜,网友晒双语身份证,多地派出所:民族自治地方可同时使用民族文字

极目新闻
2026-04-03 19:34:47
重磅!广东队,白捡第一中锋!朱芳雨赌对了…

重磅!广东队,白捡第一中锋!朱芳雨赌对了…

林子说事
2026-04-04 00:43:31
教练全责,韩鹏比老崔还保守 泰山首发平均年龄30+ 落后仍在倒脚

教练全责,韩鹏比老崔还保守 泰山首发平均年龄30+ 落后仍在倒脚

替补席看球
2026-04-04 21:37:14
小米股价腰斩 私募大佬怒怼

小米股价腰斩 私募大佬怒怼

中国能源网
2026-04-04 09:44:04
春天,吃它胜过“十只鸡”,一补蛋白、二强免疫、三补气血,好吃

春天,吃它胜过“十只鸡”,一补蛋白、二强免疫、三补气血,好吃

阿龙美食记
2026-04-03 11:53:16
2026-04-04 23:00:49

科技要闻

内存一年涨四倍!国产手机厂商集体涨价

头条要闻

媒体:美军上演现实版"拯救大兵" 特朗普"赢学"被打脸

头条要闻

媒体:美军上演现实版"拯救大兵" 特朗普"赢学"被打脸

体育要闻

刹不住的泰格·伍兹,口袋里的两粒药丸

娱乐要闻

Q女士反击,否认逼宋宁峰张婉婷离婚

财经要闻

中微董事长,给半导体泼点冷水

汽车要闻

17万级海豹07EV 不仅续航长还有9分钟满电的快乐

态度原创

艺术
旅游
本地
公开课
军事航空

艺术要闻

高4000米,造价9000亿!日本为什么抛出“钢铁山脉”摩天楼?

旅游要闻

山东清明首日文旅市场火爆,多元活动激发出游热情

本地新闻

跟着歌声游安徽,听古村回响

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

美军又一架战机坠毁 此前F-15E被击落

无障碍浏览 进入关怀版
×