网易首页 > 网易号 > 正文 申请入驻

自家萌宠拜年都能生成?百度生图技术突破“准确性”最后一公里

0
分享至


智东西
作者 陈骏达
编辑 漠影

农历新年将至,各大互联网平台纷纷上线了春节营销活动。除了集“五福”、集卡等经典玩法之外,今年也有不少与AI结合的新玩法出现,百度搜索就推出了“AI拜年”活动。

现在,只需要在百度搜索“祝福语”,再点击“做贺卡”,按照自己的需求调整文案后,选择“创意照片”,就能定制各种脑洞大开、趣味十足的新年祝福卡片。


比如,你可以将自己的证件照上传,制作成一张在天坛前的专属的拜年海报。


在文心一言4.0中,你还可以将家里的宠物照上传,生成一张年味儿十足的“萌宠贺岁图”。


可以看到,AI不仅理解并准确呈现了文字提示词中涉及的“福字”、“农家院”等文化元素,还将用户上传的宠物照、人像自然地融合进生成结果,生成效果与实际照片的契合度也很高。

这一生成效果得益于百度研发的iRAG(检索增强的文生图技术)。这项技术给大模型装上了一个亿级的“视觉外挂知识库”,在生成图片时根据提示词等信息给大模型查找相关图片资源,作为参考数据,进而提升图像生成的准确性,还可降低制作成本。

接下来,就让我们来看看,这一充满节日氛围的AI营销背后,究竟蕴藏着什么样的技术实力?

一、大模型深入理解中华文化,精准生成名胜古迹与文化元素

在文心4.0中,我们进一步体验了“AI拜年”背后强大的生图能力。让人最眼前一亮的是,它展现出了对各种文化要素的精确理解。

例如,用户可以让文心4.0生成一幅“天坛雪景图”,要求体现蓝瓦屋顶和精美木结构的建筑风格,以及雪后静谧的氛围。

仅需等上几秒,文心4.0就完成了图像的生成。图像内容与天坛的实际形象基本符合,准确度较高。


而当其它的生图模型接到这一任务时,却出现了较为明显的幻觉问题。下图左侧的ideogram-v2将天坛的层数生成错了,而右侧的imagen-3.0生成的天坛与周边建筑和景观的比例不符合实际情况。


同样的,我们还能让文心4.0生成一幅“春节庙会”的场景,并指定其体现红灯笼、舞龙舞狮、糖画等传统元素。


对于中国传统的民俗艺术,文心4.0也能准确把握到其风格特点。这副剪纸画从颜色到风格上,都符合中国传统审美。


相同的提示词到了其它生图模型上,生成的风格完全不符合预期。左侧的结果虽然尝试还原传统剪纸艺术,但鱼的线条显得生硬,缺乏灵动感。而右侧的画面则过于现代,颜色选择也失去了剪纸艺术的精髓。


除此之外,AI拜年功能和文心4.0都支持图生图的定制化玩法,可玩性很强,用户几乎可以将任意照片上传,生成专属的图像。

将这只高冷的雪鸮交给文心4.0,它就能让雪鸮穿上年味十足的服饰。

用户也能把自己随手拍的白塔,搬到江南水乡。文心的融合结果毫无违和感,白塔的细节全都得到保留。


二、iRAG给大模型加装知识库,无缝衔接现实世界

上方案例中,文心4.0在生图任务中实现的高准确性、几乎无幻觉的表现,与背后百度自研的iRAG技术密不可分。

传统文生图模型在生成图像时,往往依赖于模型自身的生成能力和有限的训练数据,缺乏对特定文化元素和现实细节的精准把握,很容易生成不符合事实或逻辑的图像,也无法覆盖丰富的现实世界和多样化的场景需求。

百度则将已经在文字生成领域经受住可行性验证的RAG(检索增强生成)技术,引入图像领域,发展出iRAG技术,显著提升生成内容的可靠性和准确性。

iRAG技术就仿佛给大模型加装了一个“视觉外挂知识库”,让大模型能更好地理解用户在指令中提及的“天坛”、“白塔”、“庙会”到底应该是一副怎样的画面。

百度搜索收录了海量特定事物的可信图片资源,这些资源通过iRAG技术,与文心4.0模型的能力结合,用丰富的参考数据确保生成图像的真实可靠。

此外,这种生成与检索结合的技术路径,也能从多方面节省成本。iRAG让模型不需要完全依靠自身知识生成图像,减少了对大规模训练数据的需求。同时,使用了iRAG技术的图像生成“命中率”更高,从而减少修正和重新生成的需求,提高了整体效率。

同时,由于外部的数据库可以实现更为及时的更新,iRAG能让大模型始终保持对最新信息的敏感性和准确性,进一步提升成本效益和用户体验。

这种在准确性、成本效益方面实现的显著进展,标志着AI生图从娱乐工具向实用工具的本质转变。

三、iRAG技术潜力显现,或将推动AI生图广泛落地

自生成式AI浪潮兴起后,图像生成就一直是各大AI玩家发力的重点方向。这一赛道中既有Stable Diffusion这样的开源模型,也有DALL·E、Imagen等来自巨头的专有模型。这些模型凭借高度定制化的体验和解放用户视觉创意表达的潜力,吸引了不少个人与企业用户的使用。

然而,在众多生图模型落地具体生产场景时,准确性是困扰用户的关键问题。不准确的图像需要反复修改或重新生成,不仅耗费时间和资源,还会降低生产效率;AI生成的错误产品图片,还可能会影响客户的购买意愿;更严重的是,错误或不当的图像可能损害企业品牌形象,甚至引发法律纠纷,给企业带来额外的风险。

而iRAG在准确性、成本效益上的优势,恰好回应了专业用户使用生图模型时的种种痛点。这意味着这项技术不仅能应用于“AI拜年”这种娱乐性较强的营销场景中,还具备影视制作、广告设计、电子商务等更为广阔的想象空间。

在去年的百度世界大会上,百度创始人李彦宏便展示了一张大众汽车飞跃长城的画面。图中汽车的细节与真车别无二致,甚至还生成了汽车腾空而起时的烟尘。


过去拍摄这样一组汽车在特定场景的高质量宣传海报,成本往往高达一二十万甚至更多,而现在借助iRAG技术,创作成本几乎可以忽略不计。

在电子商务场景中,iRAG可以用于提升产品展示的效果和用户体验。通过生成高质量、逼真的产品图像,iRAG能够帮助商家快速创建吸引眼球的商品展示页面。

例如,商家上传一张普通的产品照片,便可利用iRAG生成多场景的产品展示图,甚至可以根据用户需求添加节日元素或个性化背景。


iRAG让商家无需实地拍摄,或是进行复杂的后期工作,也能获取制作精良的宣传物料。对中小商家来说,这项技术有望成为提高购买转化率,带来更高的流量和销售额的利器。

在漫画作品、连续画本等视觉创意工作中,iRAG在一致性上的优势,也能将创意人员从繁琐的工作中解放出来,不必再花费大量时间在重复性的绘制和修改上,而是可以将大部分精力都投入到故事构思、角色塑造和艺术表达等更具创造性的核心环节中。

结语:iRAG技术有望开启视觉创作新时代

具备低成本、低门槛、高准确性等优势的iRAG生图技术,有望为各行各业的视觉创作流程带来重大变化。

想象一下,卖煎饼的老板也能轻松设计出高级感十足的菜单,小型企业无需依赖专业设计师即可打造品牌形象,教育机构可以快速生成生动的教学素材……

iRAG技术的潜力不仅限于提升效率,更在于让创意和设计变得触手可及,赋能每一个普通人和行业从业者。

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

A股:今天跌破3900点了,做好准备,明天周五走势提前分析!

明心
2026-03-26 15:15:16
生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

生育大局已定:不出意外的话,从2026年起新生人口将迎来3大变化

江江食研社
2026-03-24 03:30:08
纳指重回22000点,美股超3800只个股上涨

纳指重回22000点,美股超3800只个股上涨

21世纪经济报道
2026-03-26 18:02:22
5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

5月起生效!俄罗斯关闸,8000吨黄金不卖了,全球金市变天

瑛派儿老黄
2026-03-26 10:43:45
小姑子用我地址买12000帝王蟹拒付款关机,我让快递联系她公司

小姑子用我地址买12000帝王蟹拒付款关机,我让快递联系她公司

周哥一影视
2026-03-26 12:56:32
FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

FCC一纸禁令:60%家用路由器将被断供,你的Wi-Fi要涨价了

赛博兰博
2026-03-25 14:31:11
1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

1958年周恩来突然提出辞去总理职务,毛主席听后只说了一句话,全场沉默

文史明鉴
2026-03-24 18:49:17
美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

美媒评中国演员谢苗新片《火遮眼》“或成动作影史经典”,该片5月29日北美上映,李连杰说很期待,听说“超级牛”

极目新闻
2026-03-26 20:16:01
小米把这套系统藏了15年,今天终于拔了插头

小米把这套系统藏了15年,今天终于拔了插头

我是一个粉刷匠2
2026-03-26 10:29:50
中国军事专家送日本3句话,太绝了,真不是吓唬他们

中国军事专家送日本3句话,太绝了,真不是吓唬他们

安安说
2026-03-26 11:21:19
曼城115项指控迎大结局?专家预测扣分在40到60分之间

曼城115项指控迎大结局?专家预测扣分在40到60分之间

乐道足球
2026-03-26 19:55:49
很多被奉为经典的古文,很难说有多少教育意义

很多被奉为经典的古文,很难说有多少教育意义

小院之观
2026-03-24 08:30:13
基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

基辛格坦言:如果爆发核战争,中国可能只有5个地方可以躲避危险

鹤羽说个事
2026-03-25 22:21:29
马尔蒂尼一席话点破所谓双骄,耽误了梅西多少金球?

马尔蒂尼一席话点破所谓双骄,耽误了梅西多少金球?

耀阳体育
2026-03-25 16:14:41
史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

史前大洪水掩盖什么真相?所有文明都曾记录,是人类共同的记忆?

历史甄有趣
2026-03-20 15:40:07
《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

《奔跑吧14》录制:孟子义的腰比名牌还细,和李昀锐同框避嫌

椰黄娱乐
2026-03-26 15:45:32
唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

唯一不含草酸的蔬菜!比荠菜、韭菜还鲜嫩,鲜嫩营养正当时,好吃

阿龙美食记
2026-03-24 09:50:48
以色列人哭了:这不是该发生在劣等民族身上的吗?

以色列人哭了:这不是该发生在劣等民族身上的吗?

李荣茂
2026-03-23 18:59:00
不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈谈

不能光让特朗普出风头,俄罗斯宣布重大消息:和中国有大事要谈谈

犟种美食
2026-03-26 16:36:47
人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

人老了,搞垮自己最快的方式就是:胡思乱想、过度操心、情绪失控

风起见你
2026-03-16 11:07:25
2026-03-26 20:51:00
智东西 incentive-icons
智东西
聚焦智能变革,服务产业升级。
11437文章数 117016关注度
往期回顾 全部

科技要闻

Meta高管狂分百亿期权,700名员工却下岗

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

头条要闻

张雪峰留巨额遗产:二婚妻子或拿50% 剩下的女儿占1/3

体育要闻

申京努力了,然而杜兰特啊

娱乐要闻

刘晓庆妹妹发声!称姐姐受身边人挑拨

财经要闻

油价"驯服"特朗普?一到100美元就TACO

汽车要闻

一汽奥迪A6L e-tron开启预售 CLTC最大续航815km

态度原创

家居
旅游
手机
游戏
公开课

家居要闻

傍海而居 静观蝴蝶海

旅游要闻

20元人民币背景观景台乱收费?景区通报:不存在封闭管控、强制收费等

手机要闻

OPPO K15 Pro系列突然官宣:天玑9500s+主动散热,4月1日发布

10万奖池!2026 KKCS1.6 巅峰之路传奇联赛(春季赛)正式开赛!——KK官方对战平台

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版