网易首页 > 网易号 > 正文 申请入驻

昨夜,阿里版GPT-4o登场,一句话精准P图,免费可用

0
分享至

智东西6月28日报道,昨日深夜,阿里推出多模态统一理解与生成模型Qwen VLo。该模型不仅能够“看懂”世界,更能基于理解进行高质量的再创造,具有三大亮点:理解和生成更准确,支持开放指令编辑修改图片,多语言指令支持

用户即日起可以通过Qwen Chat访问该模型(预览版),比如直接发送类似“生成一张可爱猫咪的图片”的提示来生成图像,或者上传一张猫咪的图片并要求“给猫咪头上加顶帽子”来修改图像。

Qwen VLo以一种渐进式生成方式生成图片。在生成过程中,模型会对预测的内容不断调整和优化,从而确保最终结果更加和谐一致,在提升视觉效果同时带来更灵活和可控的创作体验。

体验地址:
https://chat.qwenlm.ai/

一、理解和生成更准确,支持开放指令修改图片

从最初的QwenVL到Qwen2.5 VL ,阿里本次推出的Qwen VLo在原始多模态理解与生成能力上进行了全面升级。

以下是Qwen VLo的核心亮点:

1、更精准的内容理解与再创造

以往的多模态模型在生成过程中容易出现语义不一致的问题,例如将汽车误生成其他类型的物体,或者无法保留原图的关键结构特征。而Qwen VLo通过更强大的细节捕捉能力,能够在生成过程中保持高度的语义一致性。

2、支持开放指令编辑修改生成

用户可以通过自然语言提出各种创意性指令,如“将这张画风改为梵高风格”、“让这张照片看起来像19世纪的老照片”或“给这张图片添加一个晴朗的天空”。Qwen VLo能够灵活响应这些开放性指令,并生成符合用户预期的结果。


无论是艺术风格迁移、场景重构还是细节修饰,模型都能应对。甚至一些传统的视觉感知人物如预测深度图、分割图、检测图以及边缘信息等也可以通过编辑指令轻松完成。

更进一步,像很多更复杂的指令,比如一条指令中同时包含修改物体、修改文字、更换背景,模型也能完成。

3、多语言指令支持

Qwen VLo支持包括中文、英文在内的多种语言指令,打破了语言壁垒,为全球用户提供了统一且便捷的交互体验。

二、像人类画师一样精细创作,一句话“指哪改哪”

Qwen VLo更像一个人类画师, 根据自己的理解再进行创作,下面是一些具体的例子。

1、该模型能够直接生成图像,并对其进行修改,例如替换背景、添加主体、进行风格迁移,甚至可以完成基于开放指令的大幅修改,包括检测和分割等视觉感知任务。

用户:生成一个可爱的柴犬

Qwen VLo:

用户:背景改成草原

Qwen VLo:

用户:给它带上红色帽子和黑色透明墨镜,帽子上写着“QwenVLo”

Qwen VLo:

用户:变成吉卜力风格

Qwen VLo:

用户:变成3d Q版风格

Qwen VLo:

用户:把它放到水晶球里

Qwen VLo:

用户:桌面上摆着这个水晶球,生成以一个人的第一视角在公园的圆形咖啡桌上在笔记本上画画

Qwen VLo:

用户:用蓝色的蒙版检测框框出图中的笔

Qwen VLo:

用户:用粉色的mask分割出图中的狗狗边缘

Qwen VLo:

2、Qwen VLo会根据自己的理解进行重新创作,这意味着在风格转换和迁移方面拥有更大的发挥空间,比如将卡通变为写实、将形象变成气球等有趣的生成效果。

用户:变成真实照片

Qwen VLo:

用户:背景换成埃菲尔铁塔

Qwen VLo:

用户:变成气球飘到空中

Qwen VLo:

用户:把西瓜换成榴莲

Qwen VLo:

3、Qwen VLo在图像与指令理解上的优势使其能够更好地解析复杂指令,一条指令中可以包含多个操作和修改,从而一次性完成多重任务,例如生成海报、组合物体等。

4、Qwen VLo除了能对图像的编辑和再创作,还可以完成一些对已有信息的标注,比如检测、分割、边缘检测等。

用户:生成摆满水果的桌面

Qwen VLo:

用户:预测边缘检测图

Qwen VLo:

用户:用红色mask分割图中香蕉的边缘

Qwen VLo:

5、Qwen VLo可以支持多张图像的输入理解和生成。(多图输入的功能还没有正式上线)

用户:把这些洗浴用品,放到这个红色的篮子里面

Qwen VLo:

6、除了图文同时输入的情况,Qwen VLo也支持文本到图像的直接生成,包括通用图像和中英文海报等。

用户:Epic anime artwork of a wizard atop a mountain at night casting a cosmic spell into the dark sky that says “Qwen VLo!” made out of colorful energy

(一幅史诗级的动漫艺术作品:夜晚,一位巫师立于山顶,向黑暗的天空施展宇宙咒语,由彩色能量构成的“Qwen VLo!”字样在夜空中显现。)

Qwen VLo:

7、Qwen VLo支持动态长宽比的图像生成,对于长宽比高达4:1,1:3等细长类型图像也能轻松掌握。(极端长宽比图像生成功能还没有正式上线。)

用户:动漫插画;水彩手绘;前景是草坡,草坡上有个人在奔跑,动态感,然后是厚重的白云;蓝色背景;颜色层次多渐变;过渡自然和谐

Qwen VLo:

8、作为统一的理解与生成模型,Qwen VLo还可以对生成的内容进行再分析和理解,例如识别生成图片中的狗和猫的品种。

用户:Generate a puppy and a kitten.

Qwen VLo:

用户:What breed of cat and dog is this?

Qwen VLo:

结语:统一理解与生成,看图说话再升级

Qwen VLo还创新性地引入了一种全新的渐进式生成机制,这一机制不仅提升了生成效率,还适用于需要精细控制的长段落文字生成任务。

同时,Qwen VLo还属于预览阶段,在生成的过程可能存在不符合事实、不完全和原图一致、指令不遵循、在识别生图和理解的意图不够稳定的问题。

未来,模型不仅可以用文本回答问题,还可以用图像来传递想法和含义。例如,生成示意图、添加辅助线、标注关键区域等功能,都将为用户提供更多元化的交流手段。

与此同时,具备输出能力的多模态模型也为研发者提供了新的监督方式。通过生成任务,他们们可以更好地帮助模型理解世界。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
“慰安椅”根本不是椅子,是把十七岁姑娘活生生碾碎的吃人机器!

“慰安椅”根本不是椅子,是把十七岁姑娘活生生碾碎的吃人机器!

非虚构人间
2026-05-16 15:47:00
央国企降薪第一刀:取消证书补贴

央国企降薪第一刀:取消证书补贴

新浪财经
2026-06-01 23:44:29
七旬老太去北京看病,发现医生竟是她在云南当知青时生下的孩子

七旬老太去北京看病,发现医生竟是她在云南当知青时生下的孩子

兰姐说故事
2025-01-16 05:05:03
影片《给阿嬷的情书》总票房达14.4847亿,暂列年度票房亚军

影片《给阿嬷的情书》总票房达14.4847亿,暂列年度票房亚军

齐鲁壹点
2026-06-01 20:43:14
有关荷兰军机侵闯中国领空事件,中方代表团成员当面质问荷兰国防大臣

有关荷兰军机侵闯中国领空事件,中方代表团成员当面质问荷兰国防大臣

每日经济新闻
2026-05-31 21:57:47
哭了!王少杰离队内幕:在北控坐冷板凳,在广东被杜锋当宝!

哭了!王少杰离队内幕:在北控坐冷板凳,在广东被杜锋当宝!

冷桂零落
2026-06-01 04:20:12
重庆明晚将迎来一次较强降雨!主要集中在这些地区→

重庆明晚将迎来一次较强降雨!主要集中在这些地区→

鲁中晨报
2026-06-01 21:23:44
两性关系:75岁以上男人,这10条达到一半,就是人群中宝藏老伴

两性关系:75岁以上男人,这10条达到一半,就是人群中宝藏老伴

匹夫来搞笑
2026-06-02 00:17:40
C罗2030世界杯?葡足协主席:除非大惊喜

C罗2030世界杯?葡足协主席:除非大惊喜

日常碎碎念啊
2026-06-02 01:04:38
凡是从不参加同学聚会、不爱发动态、不混圈子的人,十有八九在这两个方面远超常人,观察了身边上百人屡试不爽

凡是从不参加同学聚会、不爱发动态、不混圈子的人,十有八九在这两个方面远超常人,观察了身边上百人屡试不爽

心理观察局
2026-05-21 07:58:32
普通人最大的消费陷阱之一:换车

普通人最大的消费陷阱之一:换车

新浪财经
2026-05-28 12:55:02
1986年,戴安娜穿高跟鞋坐查尔斯车头,查尔斯一脸嫌弃的让她起来

1986年,戴安娜穿高跟鞋坐查尔斯车头,查尔斯一脸嫌弃的让她起来

笑傲春秋
2026-05-29 17:05:03
既不是正处,也不是副厅,却能坐主席台:高校“校长助理”到底是什么级别?

既不是正处,也不是副厅,却能坐主席台:高校“校长助理”到底是什么级别?

教育放大镜
2026-06-01 22:37:12
6月1日27股成交额超过百亿,包括中际旭创、东山精密、兆易创新、长电科技、工业富联等

6月1日27股成交额超过百亿,包括中际旭创、东山精密、兆易创新、长电科技、工业富联等

金融界
2026-06-01 16:10:41
罕见!土伦杯U19国足以小打大还赢球,不解:多打1人反而不会踢了

罕见!土伦杯U19国足以小打大还赢球,不解:多打1人反而不会踢了

足球大腕
2026-06-01 00:01:18
空调开到27度,一晚上会耗多少电?终于有师傅说出实话!

空调开到27度,一晚上会耗多少电?终于有师傅说出实话!

小柱解说游戏
2026-06-01 10:00:20
比新能源车更猛!中国最意想不到的行业,彻底爆发!

比新能源车更猛!中国最意想不到的行业,彻底爆发!

前瞻网
2026-04-22 09:38:38
世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

世界首富押注的火箭发动机:折腾了60年,终于变成了流水线产品

平流层散步者
2026-05-27 08:04:47
王爷帽子上面的“大冰糖”,竟是古代最大蓝宝石!

王爷帽子上面的“大冰糖”,竟是古代最大蓝宝石!

收藏大视界
2026-06-01 21:14:37
蒙古国现在有多厉害?蒙古国:全世界敢打我的国家,只有两个

蒙古国现在有多厉害?蒙古国:全世界敢打我的国家,只有两个

张鼋卤说体育
2026-06-01 13:05:11
2026-06-02 01:55:00
智东西 incentive-icons
智东西
智东西,AI产业新媒体,专注报道人工智能的前沿技术发展,和技术应用带来的千行百业产业变革。
11946文章数 117089关注度
往期回顾 全部

科技要闻

黄仁勋演讲实录|40年来PC首次重设计!

头条要闻

特朗普:是时候查金库了

头条要闻

特朗普:是时候查金库了

体育要闻

杰威:如果我没受伤,我们能击败马刺

娱乐要闻

奚梦瑶婚礼现场图!一双儿女当花童

财经要闻

宇树过会,杭州赢麻了

汽车要闻

奇瑞集团5月销量24.8万辆 同比增长20.5% 出口18.2万辆再创新高

态度原创

本地
亲子
数码
房产
公开课

本地新闻

用剪纸的方式,打开江苏扬州

亲子要闻

向太坦言给孙女买衣服从不超100块:真的豪门从不靠名牌养娃

数码要闻

惠普推OmniDesk迷你主机:配英特尔新U支持AI加速

房产要闻

100亿!1371亩!海口城市更新,再爆超级项目!

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版