网易首页 > 网易号 > 正文 申请入驻

使用扩散模型从文本生成图像

0
分享至

1代的DALLE使用VQ-VAE 的改进版,2代的DALLE2 通过使用扩散模型将图片的生成提升到了一个新的高度,但是由于其计算量很大而且没有开源,我们普通用户并没有办法使用,但是Stable Diffusion 的出现改变现状,可以让我们普通用户也可以直接使用,并且以前相对于 Disco Diffusion, Stable Diffusion 生成的图片更加实用;相对于 DALLE 2,Stable Diffusion 需要占用的资源更少,这样我们也可以在自己的电脑中使用它生成高质量的图片。

在这篇文章中,将展示如何使用抱脸的扩散包通过文本生成图像,还有就一个一个不好的消息,因为这个模型的出现google的colab可能又要增加一些限制了。

从 DALLE 到Stable Diffusion

我们前面的文章也介绍过 OpenAI 的 DALLE-2 模型还有他的开源实现,它可以让我们从文本中创建高质量的图像。

但是DALLE2是收费的用户只有一些免费的额度,如果免费额度使用完毕就需要付费了,所以我决定寻找替代方案,并偶然发现了 Hugging Face 的一条新闻,他们发布了一个扩散模型的包diffusers ,可以让我们直接使用。

使用diffusers 从文本生成图像

首先,使用扩散器包从文本生成图像我们首先要有一个GPU,这里就是用google 的colab,但是可能colab以后会对这样的应用进行限制了,这个我们在最后加以说明。

有了gpu下面就是要安装包:

  • diffusers==0.2.4 — 这是我们主要的包
  • transformers — 这个是抱脸的成名的基础包
  • scipy — 科学计算的
  • ftfy — 处理一些文本编码问题
  • ipywidgets>=7,<8 — notebook的一个小组件的基础包
  • torch —这个就不用说了 colab也已经安装了
  • pillow — 处理图片的 colab也带了

所以我们只要用下面命令安装就可以了:

!pip install diffusers==0.2.4
!pip install transformers scipy ftfy
!pip install "ipywidgets>=7,<8"

我们安装ipywidgets的目的是在 Google Colab 上启用外部的小部件

# enabling widgets (to be able to login to hugging face)
from google.colab import output
output.enable_custom_widget_manager()

然后需要用token登录Hugging Face

from huggingface_hub import notebook_login
notebook_login()

如果执行成功会出现一个小部件,在其中输入来自 Hugging Face 的token后会看到如下内容:

Login successful Your token has been saved to /root/.huggingface/token Authenticated through git-credential store but this isn't the helper defined on your machine. You might have to re-authenticate when pushing to the Hugging Face Hub. Run the following command in your terminal in case you want to set this credential helper as the default git config --global credential.helper store

这就说明我们的环境已经准备完毕了,下面开始创建我们的流程:

import torchfrom diffusers import StableDiffusionPipeline
pipe = StableDiffusionPipeline.from_pretrained("CompVis/stable-diffusion-v1-4", revision="fp16", torch_dtype=torch.float16, use_auth_token=True)

在这里我们使用的是 v1-4 模型,然后将其放入GPU中(还有很多其他模型,可以随意使用)

pipe = pipe.to("cuda")

使用 Pytorch 的 autocast 运行推理

from torch import autocast
prompt = "photo of a panda surfing"
with autocast("cuda"):
image = pipe(prompt)["sample"][0]
image.save(f"panda_surfer.png")
image

结果如下:

结果非常不错。 我们也可以调整一些参数,例如 guide_scale、step和设置随机种子(用于确定性输出),来控制我们的模型输出,具体的更详细的使用方式请看:

https://huggingface.co/blog/stable_diffusion

Google Colab 的 GPU 资源可能要撑不住了

最后说下我们上面提到的问题,Colab 有 Pro 和 Pro Plus 服务,如果你付费,那么获得 GPU 资源更有保障,可以使用更大的显存,占用资源时间可以更长。拿 Pro 来说,每一个月只需要缴纳10美元,你就可以随便使,保障随时都有 GPU 可以用。

但是最近,Google 修改了服务条款。即便你每月付费使用 Pro 和 Pro + 服务,却也依然要受到明确的计算资源限制了

Google Colab 从来就禁止挖矿,这个是我们早就知道的,但是Stable Diffusion的出现,可以让我们用 Google Colab 的 GPU 资源当成后台,然后提供自家的人工智能绘图服务,这个就很离谱了。虽然Google Colab 会对长期不操作的项目进行自动关闭,所以每次提供的时长不稳定。但是毕竟可以使用脚本自动重启啊。

OPEN AI的报价是大概0.15美元一张图片,而Colab只需要10美元就可以随便用,利用 Gradio 等开放框架提供 Web APP 界面进行服务,那你的成本几乎是0. 于是你可以把单次服务价格压到足够低,然后依然赚钱。所以google只能紧急修改协议,确保没有人可以用这种看似合法的手段没完没了「薅羊毛」。

并且有的用户已经收到了取消pro服务的邮件,并进行了退款。

我们先不论好与坏,但是这件事情可以说是人工智能真的抓住了实际痛点,当大家发现人工智能绘图的效果真的可以达到甚至是部分达到我们期望的时候,这样的潜在的需求就爆发出来了,因为我们的创造模型的目的是解决我们实际问题,而不是去创造了一个人工智障并且还要吹x替代人类。

在这件事上我看到了人工智能应用融入到了我们的生活。而且理由还十分的合理,Google 找不到禁止使用它的理由,只能转而采用资源配给制来缓解压力,我觉得这才是人工智能发展的最终目标。最后还是希望google能找到一个更好的解决办法,毕竟Colab真的很好用。


https://avoid.overfit.cn/post/63424c507ff04285b4620ec4f7b198c7

特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。

Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.

相关推荐
热点推荐
俄军骑兵重现战场,乌军单日歼敌1730人

俄军骑兵重现战场,乌军单日歼敌1730人

史政先锋
2025-12-17 21:01:32
曝无锡女销售淫乱致37男染病:照片流出,聊天内容曝光,官方回应

曝无锡女销售淫乱致37男染病:照片流出,聊天内容曝光,官方回应

博士观察
2025-12-17 18:27:55
献血年龄拟延长至65周岁 献血法修订草案公开征求意见

献血年龄拟延长至65周岁 献血法修订草案公开征求意见

每日经济新闻
2025-12-17 16:09:07
纯电生死战,打掉理想千亿市值

纯电生死战,打掉理想千亿市值

市值榜
2025-12-16 13:11:59
30岁健美运动员王昆心源性猝死 好友称其出事前感染了流感,生病期间仍做高强度训练

30岁健美运动员王昆心源性猝死 好友称其出事前感染了流感,生病期间仍做高强度训练

红星新闻
2025-12-17 17:53:46
10个让身体越来越好的方法,不是跑步!99%的人不知道

10个让身体越来越好的方法,不是跑步!99%的人不知道

神奇故事
2025-12-06 21:52:15
携程签约柬埔寨引发注销潮,网传洪森威胁“相关国家”要公布电诈园区股东名单

携程签约柬埔寨引发注销潮,网传洪森威胁“相关国家”要公布电诈园区股东名单

普通人ThePeople
2025-12-17 13:51:44
“没有人会对一捧土产生情感,直到自己亲手垒起了一座”,广州大学网红教授发文怀念已故好友看哭全网;二人曾是大学室友,对方因公殉职

“没有人会对一捧土产生情感,直到自己亲手垒起了一座”,广州大学网红教授发文怀念已故好友看哭全网;二人曾是大学室友,对方因公殉职

极目新闻
2025-12-17 20:51:53
超级“大空头”:熊市警告!

超级“大空头”:熊市警告!

中国基金报
2025-12-17 17:31:41
不是迷信!明日十月二十九,记得:1不去、2不做、3不问、4要吃!

不是迷信!明日十月二十九,记得:1不去、2不做、3不问、4要吃!

阿龙美食记
2025-12-17 04:08:25
柬军遭火力压制,洪森押上三大赌注

柬军遭火力压制,洪森押上三大赌注

戎评
2025-12-17 16:09:11
好利来大公子承认变女人!穿女装做美甲,自称“妹妹”,评论炸锅

好利来大公子承认变女人!穿女装做美甲,自称“妹妹”,评论炸锅

阿纂看事
2025-12-17 16:50:40
善恶终有报!移居英国仅2年,57岁吴秀波再迎噩耗,步李易峰后尘

善恶终有报!移居英国仅2年,57岁吴秀波再迎噩耗,步李易峰后尘

以茶带书
2025-12-17 17:06:56
小米、华为鸿蒙智行、理想等先后报警,烟台公安:打掉一个炒作新能源汽车负面信息团伙

小米、华为鸿蒙智行、理想等先后报警,烟台公安:打掉一个炒作新能源汽车负面信息团伙

河南交通广播1041
2025-12-17 21:20:08
悲催!深圳一35年港资工厂结业,将依法核算支付工资、经济补偿…

悲催!深圳一35年港资工厂结业,将依法核算支付工资、经济补偿…

火山詩话
2025-12-17 19:11:05
价格大跳水!暴跌30%,进口车跌落神坛,广东“老钱车”销量逆袭

价格大跳水!暴跌30%,进口车跌落神坛,广东“老钱车”销量逆袭

品牌观察官
2025-12-16 20:52:08
市场严重透支:2026年车市或迎来断崖暴跌!

市场严重透支:2026年车市或迎来断崖暴跌!

达文西看世界
2025-12-17 13:32:32
日本议员曝光,高市早苗抛开事先准备的材料,强行输出涉台谬论

日本议员曝光,高市早苗抛开事先准备的材料,强行输出涉台谬论

合赞历史
2025-12-17 14:51:13
大连地铁领导带头“工资缓发”:月薪高于4000的按4000元发

大连地铁领导带头“工资缓发”:月薪高于4000的按4000元发

六子吃凉粉
2025-12-17 16:53:42
美国入境限制国家 扩至40个

美国入境限制国家 扩至40个

每日经济新闻
2025-12-17 13:29:12
2025-12-18 01:36:49
deephub incentive-icons
deephub
CV NLP和数据挖掘知识
1862文章数 1440关注度
往期回顾 全部

科技要闻

特斯拉值1.6万亿靠画饼 Waymo值千亿靠跑单

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

头条要闻

捐赠博物馆价值8800万的名画现身拍卖市场 捐赠方发声

体育要闻

短短一年,从争冠到0胜垫底...

娱乐要闻

狗仔曝热播剧姐弟恋真谈了???

财经要闻

重磅信号!收入分配制度或迎重大突破

汽车要闻

一车多动力+双姿态 长城欧拉5上市 限时9.18万元起

态度原创

本地
艺术
手机
房产
公开课

本地新闻

云游安徽|踏过战壕与石板,读一部活的淮北史

艺术要闻

毛主席书写林则徐诗词,字迹超凡,引发关注。

手机要闻

真我16 Pro系列外观曝光,还有10000mAh±电池机型

房产要闻

封关前夕!豪庭铭苑超前交付,敬呈海口生活新范本

公开课

李玫瑾:为什么性格比能力更重要?

无障碍浏览 进入关怀版