1
你是否注意到,最近人们谈论AI大模型时,话题总绕不开海外的几款热门产品,或是那些依赖高性能服务器、必须连上云端才能运行的庞然大物?
2
想在手机上体验真正流畅的多模态智能,往往事与愿违——响应迟缓、功能受限,几乎成了端侧AI的常态。而这一领域的话语权,长期以来被欧美科技巨头牢牢掌控。
![]()
3
但现在局面彻底改写。OPPO最新发布的AndesVL端侧多模态大模型,在超过30项权威测试中全面超越国际同级别对手,一举打破西方企业在该技术方向上的长期主导地位。
4
这究竟是一款怎样的模型?为何能让国产AI在移动端实现历史性突破,真正挺起脊梁?
5
事实上,几年前多模态大模型已在云平台展现出强大能力,国外主流模型在图像识别和语义理解方面表现亮眼,广泛应用落地。
6
可一旦迁移到智能手机这类资源受限的终端设备,问题接踵而至:运算性能不足,处理图文任务频频卡顿;隐私机制薄弱,用户数据不得不上传云端;兼容性差,换一台机型就无法正常使用。
![]()
7
这些问题严重制约了AI手机向大众日常生活的渗透,让“下一代智能终端”的愿景迟迟难以兑现。
8
尽管不少国内企业试图突围,但欧美公司在算法积累、硬件协同和生态布局上早已形成壁垒,追赶之路充满挑战。
9
正是在这种背景下,OPPO果断出手,不仅投入大量研发资源组建AI中心大模型团队,更携手联发科等本土芯片厂商联合攻关,目标明确:打造一款专为端侧场景优化的高性能多模态大模型。
![]()
10
他们深知,移动端AI不能只追求参数规模,更要兼顾效率与稳定性——用户需要的是即开即用、响应迅速、低耗省电的真实体验。
11
因此,AndesVL从设计之初就摒弃了“堆参数”的粗放路径,转而在架构层面深度创新。其最突出的特点,就是将通用能力与端侧专项优势实现了高度融合。
12
许多人可能不了解,多数国际同类模型要么专注单一模态,要么偏重通用能力,一旦部署到手机环境便出现明显“水土不服”现象。
![]()
13
而AndesVL却完全不同。它具备SOTA级别的通用多模态理解与推理能力,在数学推导、OCR识别、图文关联分析等核心指标上,于30多个公开评测集中均位列榜首,综合表现优于同等参数量级的开源模型。
14
同时针对手机使用场景进行了深度调优,特别是在多语言支持和GUI界面理解两方面,达到了业界领先水平。
15
举例来说,当你浏览外文资讯时,它能精准解析跨语种图文内容;面对复杂的APP操作界面,也能快速识别按钮、菜单等功能组件,这对频繁处理外语信息或依赖高频交互应用的用户而言,无疑是极大便利。
![]()
16
更贴心的是,AndesVL推出了0.6B、1B、2B、4B四种不同体量的模型套件,并细分为Instruct版(高效执行)和Thinking版(深度推理),满足多样化终端需求。
17
如果你使用的是旧款机型,内存和算力有限,选择0.6B版本即可顺畅完成基础图文识别与问答任务。
18
若你手持旗舰设备,希望进行复杂逻辑推理或多图对比分析,4B规模的Thinking版本则能提供强劲支撑。
![]()
19
这种“按需匹配”的设计理念,远比国外许多“一刀切”式模型更具人性化考量。部分海外模型仅提供单一规格,导致老设备无法运行;另一些则功能冗余,即便高端手机也负担沉重,完全忽视了真实用户的设备差异。
20
在技术细节上,AndesVL的匠心处处可见。视觉编码器根据不同版本分别采用AimV2-300M(适用于1-4B版本)和SigLIP-2-base(适配0.6B版本)。
21
这两类编码器相比国际常用的Qwen2VL-ViT结构更紧凑、能耗更低,却依然保持出色的图像解析精度。
22
尤其引入二维旋转位置嵌入机制与Native Resolution ViT策略后,无论是高清大图还是小尺寸图像,无论画面宽高比如何变化,都能高效准确处理,避免了某些国外模型因非标准分辨率而导致识别失败的问题。
23
语言模型部分基于成熟的Qwen3系列构建,支持Instruct与Thinking双模式切换:日常指令响应快如闪电,复杂推理结果精准可靠,这种灵活性在当前端侧模型中极为罕见。
24
训练过程同样不走捷径,预训练阶段分三步推进:首先进行视觉-语言对齐,利用低分辨率数据夯实基础;随后通过高分辨率样本微调,充分发挥位置编码潜力。
![]()
25
接着开展视觉-语言联合预训练,将LLM上下文窗口从2048扩展至8192,同时混入纯文本数据,确保语言能力不退化。
26
最后进入多任务预训练阶段,将ViT图像块输入长度提升至16384,LLM序列长度延展到32768,重点强化高分辨率图像处理与复杂任务推理能力。
27
后训练阶段进一步引入监督微调、混合偏好优化(MPO)以及GRPO训练方法。其中MPO有效缓解了多模态偏好数据稀缺、单回答质量难评估的难题;GRPO则借助数据蒸馏与课程学习,使小型模型也能具备卓越推理性能。
![]()
28
这套层层递进、精细打磨的训练体系,相较部分国外模型“一锅炖”的粗粒度做法,效果显著提升,也正因如此,AndesVL在数学推演、多图关联等关键挑战任务中遥遥领先。
29
尤为关键的是,OPPO成功攻克了端侧部署的长期瓶颈。
30
过去许多模型虽在实验室表现优异,但移植到手机后常出现内存占用过高、推理延迟严重等问题。
![]()
31
AndesVL通过稀疏化技术将模型权重稀疏度提升至75%以上,平均每参数比特数(BPW)控制在1.8bit以内,结合联发科天玑9500芯片的硬件压缩能力,内存占用降低30.9%,推理速度提升45%。
32
量化感知训练也做到极致:基模型支持权重与激活值的细粒度混合精度配置,并建立静态QAT训练到端侧PTQ部署的无缝映射机制,杜绝了国外部分模型“一量化就崩”的精度滑坡现象。
33
为解决场景迭代难题,OPPO联合联发科开发出QALFT框架,实现LoRA模块独立更新,无需反复重训量化主干模型,大幅提高部署敏捷性。
![]()
34
在编解码优化方面也有实质性突破。
35
针对长文本输入导致KV缓存急剧膨胀的问题,OPPO自主研发的OKV方案仅保留25%缓存容量,即可达到全量缓存的效果,同时还支持高达128K的上下文长度。这意味着你在手机撰写报告、生成会议纪要时,再也不用担心模型“忘记前文”。
36
解码加速方面采用改进版EAGLE-2与HASS算法,峰值解码加速比达6.7倍。无论是生成图文摘要还是应对复杂提问,均可实现秒级反馈,响应速度较多数国际端侧模型提升不止一倍。
![]()
37
实测成绩更是令人信服。在学术基准测试中,AndesVL-4B-Thinking取得70.9分,领先第二名InternVL3.5-4B达3.2分,六大垂直领域全部登顶;2B、1B、0.6B各型号在其对应参数级别中均位居前列,特别是0.6B版本,性能甚至媲美部分国外1B级模型。
38
数学推理方面,4B-Thinking综合得分58.3,在MathVista、MathVerse等多项测试中优势显著。
39
视觉文本理解表现同样抢眼,ChartQA测试得分90.4,超出国际最佳模型4.4分;多语言处理、GUI识别、幻觉抑制等能力也全面超越同级竞品。
![]()
40
端侧实测显示,量化后的模型精度损失极小,OKV方案在25%压缩率下仍接近全缓存效果,投机解码加速比高达6.7倍。这些数据充分证明,AndesVL并非纸上谈兵的技术展示,而是真正可在真实设备上稳定运行的实用型AI。
41
目前AndesVL已全面开源,此举意味着国内开发者不再受制于国外模型授权限制,可基于该框架快速孵化各类端侧AI应用,推动整个行业技术迭代提速。
42
未来我们或将迎来更智能的摄影助手:不仅能实时感知拍摄场景、自动优化构图建议,还能即时生成多语言图文说明。
![]()
43
语音助手也将更加聪明,不仅能听懂多种语言指令,还可理解APP界面并代为操作;办公工具则能在手机端高效处理跨国文档、解析专业图表,生产力大幅提升。
44
OPPO还计划持续深耕视觉编码器优化、后训练策略及知识蒸馏技术,未来有望推出整合文本、视觉与语音的三模态统一模型,进一步拉升端侧AI的整体体验层级。
45
曾经提起端侧多模态大模型,人们第一反应总是欧美品牌,普遍认为国产技术难以企及。而AndesVL的横空出世,不仅扭转了这一认知偏差,更在30余项测试中以硬核实力证明:中国AI已具备全球竞争力。
![]()
46
它让我们看到,中国企业正在从“追随者”转变为“引领者”;普通消费者也不必再等待海外模型适配中国市场,家门口就能享受顶尖性能与贴心体验的本土化AI服务。
47
这或许只是国产AI崛起的一个起点,未来还将有更多技术创新涌现。你是否也开始期待,用这部搭载AndesVL的新机,解锁前所未有的智能生活新方式?
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.