网易首页 > 网易号 > 正文 申请入驻

苹果探索自研多模态 AI 大模型 Manzano:兼具理解与生成能力

0
分享至

IT之家 9 月 27 日消息,苹果正在研发一款名为 Manzano 的新图像模型,旨在同时具备图像理解与图像生成两大能力。

不过目前 Manzano 尚未正式发布,也没有演示 Demo,只有一篇作者绝大多数都是华人的预印本论文(包括已经跳槽到 Meta 的庞若鸣),还展示了部分低分辨率图像样例,涵盖较复杂的提示场景。


苹果表示,这一双重功能长期以来是技术难点,使得大多数开源模型在综合表现上落后于 OpenAI 和 Google 等商业系统。

苹果将其与 DeepSeek Janus Pro 等 AI 模型进行了对比,结果显示 Manzano 不弱于 OpenAI GPT-4o 和谷歌的 Gemini 2.5 Flash Image Generation(IT之家注:原代号 Nano Banana)。


苹果指出,大多数开源模型在图像处理上存在取舍:要么擅长图像分析,要么擅长图像生成,而商业系统通常能兼顾。尤其在涉及大量文本的任务(如文档阅读、图表解读)时,现有模型表现不佳。问题根源在于图像处理方式:连续数据流更适合理解,而离散符号则更适合生成,多数模型为这两类任务分配不同工具,易引发冲突。

为此,Manzano 采用了混合图像分词器。其共享编码器可输出两类标记:连续标记(用于图像理解,以浮点数形式表达)和离散标记(用于图像生成,按固定类别划分)。由于二者源自同一编码器,因此其任务冲突显著减少。


Manzano 的整体架构包括三部分:混合分词器、统一语言模型,以及独立的图像解码器。苹果为解码器构建了三个版本,参数规模分别为 9 亿、17.5 亿和 35.2 亿,支持 256 像素至 2048 像素分辨率。

训练过程分为三个阶段,使用 23 亿对图像-文本样本(来自公开和内部数据),以及 10 亿对文本-图像样本,总计处理 1.6 万亿标记。部分训练数据来自合成生成,如 DALL-E3 和 ShareGPT-4o。

在内部测试中,Manzano 在 ScienceQA、MMMU 和 MathVista 等基准上表现优异,尤其在图表和文档分析等文字密集型任务中,300 亿参数版本成绩突出。扩展测试显示,模型性能随规模提升而持续改善,例如 30 亿参数版本在部分任务中比最小模型高出 10 分以上。


苹果还将统一模型与专业化系统对比,差距仅为个位数分值:在 30 亿参数版本中,差距不到 1 分。在图像生成测试中,Manzano 亦接近前列,可执行复杂指令、风格迁移、图像叠加与深度估计等任务。

苹果认为,Manzano 是现有模型的有力替代方案,其模块化设计可支持各部分独立更新,并借鉴不同研究领域的训练方法,有潜力推动未来多模态 AI 的发展。

不过,目前苹果的基础模型整体仍落后于行业领先者。即便推出新的端侧 AI 框架,苹果仍计划在 iOS 26 的 Apple Intelligence 中引入 OpenAI GPT-5。Manzano 展示了技术上的进展,但是否能减少对外部模型的依赖,还需未来版本进一步验证。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

心源性猝死人数逐渐增多,医生建议:少吃鸡肉,多喝7样增强免疫

垚垚分享健康
2026-03-26 16:09:56
张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

张雪峰去世真相!网友:偌大的公司靠他个人ip养活,早死是必然的

火山詩话
2026-03-25 09:18:58
张雪峰亲手把自己送上了死路

张雪峰亲手把自己送上了死路

名人苟或
2026-03-25 06:02:57
日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

日本网民真怕了,呼吁严惩闯入中国使馆的暴徒,防止226事件再现

知法而形
2026-03-25 18:38:56
跌光2500亿!泡泡玛特,股价崩塌

跌光2500亿!泡泡玛特,股价崩塌

财经锐眼
2026-03-26 18:54:18
张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

张雪峰去世仅两天!公司宣布重大决定:收回他所有肖像使用权

娱乐圈圈圆
2026-03-26 21:47:07
岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

岛上设陷阱,海上堵两头!伊朗布下天罗地网,曼德海峡将成美国经济新“放血点”?

红星新闻
2026-03-26 18:34:31
张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

张雪峰前女友哭红眼,喊话不要给他泼脏水,曝两人分手原因

茶韵浮生
2026-03-26 20:26:51
刚刚,《柳叶刀》杀人诛心:你每天灌再多的水,也防不了肾结石!

刚刚,《柳叶刀》杀人诛心:你每天灌再多的水,也防不了肾结石!

徐德文科学频道
2026-03-26 19:03:36
盲目的大学扩招,正在反噬整个社会

盲目的大学扩招,正在反噬整个社会

凡人志
2026-03-25 01:34:53
美团:2025年营收3,648.5亿元人民币 同比增长8.1%

美团:2025年营收3,648.5亿元人民币 同比增长8.1%

财联社
2026-03-26 17:40:04
尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

尺度大到曾下架!模特冠军泳装大雷出演影游即将发售

游民星空
2026-03-26 11:58:13
中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

中方拒收道歉,日本自卫官被转移,小泉进次郎沉默24小时后发声

何氽简史
2026-03-26 15:40:58
禁止将居民住宅专门用于安放骨灰!

禁止将居民住宅专门用于安放骨灰!

北青网-北京青年报
2026-03-26 16:11:05
网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

网友曝张雪峰抢救细节:倒地30分钟才被发现,用ECMO全力抢救无效

半窗疏影
2026-03-26 20:17:36
内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

内塔尼亚胡妻子:我儿子就因是以总理孩子被羞辱

看看新闻Knews
2026-03-26 14:21:02
引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

引而不发才是王道,封锁霍尔木兹海峡,伊朗打完了最后一张牌……

家传编辑部
2026-03-26 10:34:27
俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

俄军北极最强战舰,被击沉!乌军集中390架自杀机饱和突破成功

沧海旅行家
2026-03-26 18:23:44
到底有多无知,才能做出这样的判决!

到底有多无知,才能做出这样的判决!

槽三刀
2026-03-25 22:01:04
广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

广东报告梅大高速“5·1”塌方灾害整改落实情况:发现公路隐患1.6万余处

封面新闻
2026-03-26 15:36:07
2026-03-27 00:55:00
IT之家
IT之家
爱科技,爱这里 - 前沿科技人气平台
336161文章数 607091关注度
往期回顾 全部

科技要闻

美团发布外卖大战后成绩单:亏损超200亿

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

健康
艺术
数码
公开课
军事航空

转头就晕的耳石症,能开车上班吗?

艺术要闻

都说乌克兰美女多,看完摄影师贝格玛 的作品我信了!

数码要闻

英特尔发Q1.26版Arc Pro专业显卡驱动,支持B70 / B65显卡

公开课

李玫瑾:为什么性格比能力更重要?

军事要闻

担心特朗普突然停战 以总理下令48小时尽力摧毁伊设施

无障碍浏览 进入关怀版