就在这周,谷歌发布了最新的图片生成模型:Banana AI,这款模型最大的特点就是一致性SOTA。
即使是AI生成图的开山鼻祖里,Midjourney也是会存在第二张图以及视频第二帧数与前面不相同的情况。
幻觉问题是AI生成图的一致性是几乎AI界的难题,而这次Google的banana的AI模型几乎把这个提到了新的高度。
第一次一个把作为我作为一名AI产品经理从业者也欺骗的高度
下图是我曾经在腾讯健身房社区团的老大在朋友圈分享了一张图,在我看到之后,我被以假乱真的以为是他在做3D打印了,因为我在健身也希望有这样的手伴。
于是去微信好友求教如何付费获得,结果是来自NANO BANANA 的出品,这让我感到吃惊
因为这个AI生成图片的清晰度还是对光线的处理程度,几乎一致性都和现实世界无差别,和人类认知一致。
要知道现在最火的3D世界模型,就是存在清晰度与幻觉不一致问题,要是这个图片再用到视频生成上,那几乎我们就可以看到一场生成图片、视频的歌名。
后面找到了Google BANANA的入口,需要进入Google AI studio的找到Gemini Naitive Image,付费充值之后就可使用,免费用户使用次数有限制,用不到几次就无法使用了。
从这个BANANA的AI模型之后,我相信接下来就是全民人人都是电影从业者的时代,只不过主角是自己而不是明星。
真人版火影忍者
真人版七龙珠
现在在AI视频都存在2个问题:每一段视频时间短,短大概就5-10秒,第二就是一致性,同一个故事分开生成的2段,拼凑在一起就导致视频里面的人物进行幻觉不一致。
AI视频生成长度受限于模型的参数长度,以及算力和用户的等待时间,要是让用户生成一个视频要等待几个小时,那显然用户是不会用这个模型的。
而现在解决了一致性之后,就可用进行分批量处理再通过后期的视频剪辑与合成技术,就可以完成一个长效的片段了,那么几乎就是一个本质的飞跃。
一个AI模型的算法是其他模型的SOTA
现在生成图的模型,BANAN可以说是生成图的SOTA,后续其他模型也会生成这样的图片,可以看到后续一旦这类模型开源,那么就会有非常多的创作者加入了。
顶尖模型生态代表着未来AI的发展
从Gork4到ChatGPT5,美国的闭源模型的发展方向和中国的AI模型走的是不同方向,而在大模型能力上大家都会走到一样
而中国选择开源的方式做AI模型,不仅因为底层的电费成本会比美国更加便宜,而是因为在中国开源的AI模型可以带来更多的经济效益与生态,因为中国有非常多的开发者与企业。
通过AI模型开源生态,来构建基础的AI模型能力,从而形成弯道超车,打造自己的生态链,从底层的AI模型再到模型工具再到配到的软件与硬件设施,这是典型的通过科技推向全国的方式。
比如在抱抱脸社区上,你看到了国内社区的开原模型成为主流,并且在最多喜欢上,DEEPSEEK成了最大欢迎程度。
而现在国内的开原模型都选择和国内的GPU进行强强联合绑定,比如华为昇腾GPU以及寒武纪,随着开源生态的AI模型输出,接下来就是绑定的硬件配置套餐。
这也就带上了GPU的收入了,也就间接的带来制造业以及收入的提升。
今天的分享就在这里。
“关注我,一个产品经理的创业故事”
最近我的原创
每日案例拆解库,AI等产品打卡群
我创建的产品设计打卡社群,加入后365天,每天体验一款APP。提升产品设计能力,同时有1300份体验报告帮助你找到竞品。
在这里你可以随时查询到你想找的各类竞品行业APP,无须自己亲自下载就可以马上得到APP的一手产品优化、交互设计、功能描述信息。
从优化&建议、商业模式、运营、功能描述、交互设计、产品定位至少6个维度,体验一款应用。
平均1天1块钱,扫码购买即可加入
连续体验48款应用,通过后原路退回
报名后添加星球助理
PMTalk123
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.