![]()
生成式AI驱动的内容创作现已集成到Adobe和Canva等日常工具中,众多机构和工作室正将这项技术融入其工作流程。图像模型现在能够持续产出逼真的效果,视频模型能够生成长且连贯的片段,两者都能遵循创意指导。
创作者越来越多地选择在PC上本地运行这些工作流程,以保持对资产的直接控制,降低云服务成本,并消除迭代中的摩擦——使得按照真实创意项目需求的节奏优化输出变得更加容易。
自诞生以来,NVIDIA RTX PC一直是运行创意AI的首选系统,因为其高性能可以减少迭代时间,用户可以免费运行模型,消除Token焦虑。
通过本月初CES上推出的最新RTX优化和新的开放权重模型,创意人员能够更快、更高效地工作,并获得更强的创意控制力。
开始使用视觉生成式AI
开始使用视觉生成式AI可能感觉复杂且受限。在线AI生成器易于使用但控制有限。
ComfyUI等开源社区工具简化了设置高级创意工作流程的过程,易于安装。它们还提供了下载最新最优模型(如FLUX.2和LTX-2)以及顶级社区工作流程的简便方式。
以下是在RTX PC上使用ComfyUI和流行模型开始使用视觉生成式AI的方法:
访问comfy.org下载并安装Windows版ComfyUI。
启动ComfyUI。
使用入门模板创建初始图像:
点击"Templates"按钮,然后点击"Getting Started",选择"1.1 Starter – Text to Image"。将模型"Node"连接到"Save Image Node"。这些节点在管道中工作,使用AI生成内容。按下蓝色"Run"按钮,观看绿色"Node"高亮显示,RTX驱动的PC生成第一张图像。
更改提示并重新运行,深入进入视觉生成式AI的创意世界。
GPU显存要求
随着用户对ComfyUI及其支持模型的熟悉度增加,需要考虑GPU VRAM容量以及模型是否能在其中运行。以下是根据GPU VRAM开始使用的一些示例。
使用FLUX.2-Dev改进图像生成质量
要探索如何使用FLUX.2-Dev改进图像生成质量:
从ComfyUI的"Templates"部分,点击"All Templates"并搜索"FLUX.2 Dev Text to Image"。选择它,ComfyUI将加载连接节点的集合,即"Workflow"。
FLUX.2-Dev具有需要下载的模型权重。
模型权重是AI模型内部的"知识"——可以把它们想象成大脑中的突触。当像FLUX.2这样的图像生成模型经过训练时,它从数百万张图像中学习模式。这些模式以数十亿个称为"权重"的数值存储。
ComfyUI不内置这些权重。相反,它会按需从Hugging Face等存储库下载。这些文件很大(FLUX.2根据版本可能超过30GB),这就是为什么系统需要足够的存储空间和下载时间来获取它们。
将出现一个对话框指导用户下载模型权重。权重文件(filename.safetensors)会自动保存到用户PC上正确的ComfyUI文件夹中。
保存工作流程:
现在模型权重已下载,下一步是将这个新下载的模板保存为"Workflow"。
用户可以点击左上角的汉堡菜单(三条线)并选择"Save"。工作流程现在保存在用户的"Workflows"列表中(按W显示或隐藏窗口)。关闭标签页可退出工作流程而不丢失任何工作。
ComfyUI现在准备使用FLUX.2-Dev生成图像。
FLUX.2-Dev提示技巧:
从对主题、设置、风格和情绪的清晰、具体描述开始——例如:"复古赛车在雨中的电影特写,湿润沥青上的霓虹反射,高对比度,35mm摄影"。中短长度的提示——一个或两个专注的句子——通常比长篇故事式提示更容易控制,特别是在入门时。
添加约束来指导一致性和质量。指定诸如:构图("广角镜头"或"肖像")、细节级别("高细节,清晰焦点")、现实主义("逼真"或"风格化插图")等内容。
如果结果过于繁忙,删除形容词而不是添加更多。
避免负面提示——坚持提示所需的内容。
使用LTX-2改进视频生成质量
Lightrick的LTX-2是一个先进的音频-视频模型,专为ComfyUI中可控的故事板式视频生成而设计。一旦下载了LTX-2 Image to Video模板和模型权重,首先将提示当作简短的镜头描述,而不是完整的电影剧本。
与前两个模板不同,LTX-2 Image to Video结合图像和文本提示来生成视频。
用户可以使用在FLUX.2-Dev中生成的图像之一,并添加文本提示赋予其生命力。
LTX-2提示技巧:
为了在ComfyUI中获得最佳效果,用现在时写一个流畅的段落,或使用简单的脚本式格式,包含场景标题、动作、角色名称和对话。目标是四到六个描述性句子,涵盖所有关键方面:
建立镜头和场景(广角/中景/特写,照明,颜色,纹理,氛围)。
将动作描述为清晰的序列,用可见特征和肢体语言定义角色,并指定相机移动。
最后,使用引号添加音频,如环境声、音乐和对话。
优化显存使用和图像质量
作为前沿模型,LTX-2使用大量视频内存(VRAM)来提供高质量结果。内存使用随着分辨率、帧率、长度或步骤的增加而增加。
ComfyUI和NVIDIA合作优化了权重流式传输功能,允许用户在GPU VRAM不足时将工作流程的部分卸载到系统内存——但这会以性能为代价。
组合工作流程
用户可以通过将模型组合到新工作流程中来简化在ComfyUI工作流程之间跳转的过程:
打开保存的FLUX.2-Dev Text to Image工作流程。
Ctrl+鼠标左键点击FLUX.2-Dev Text to Image节点。
在LTX-2 Image to Video工作流程中,使用Ctrl+V粘贴节点。
将鼠标悬停在FLUX.2-Dev Text to Image节点IMAGE点上,左键点击并拖拽到Resize Image/Mask Input点。将出现蓝色连接器。
用新名称保存,在一个工作流程中为图像和视频添加文本提示。
进一步探索
除了使用FLUX.2生成图像和LTX-2生成视频外,下一步是添加3D引导。NVIDIA的3D引导生成式AI蓝图展示了如何使用3D场景和资产在RTX PC上驱动更可控的生产式图像和视频管道——提供用户可以检查、调整和扩展的现成工作流程。
创作者可以在Stable Diffusion subreddit和ComfyUI Discord上展示他们的作品,与其他用户联系并寻求帮助。
Q&A
Q1:ComfyUI是什么?它有什么特点?
A:ComfyUI是一个开源社区工具,能够简化设置高级创意工作流程的过程,易于安装。它提供了下载最新最优模型(如FLUX.2和LTX-2)以及顶级社区工作流程的简便方式,用户可以通过节点管道的方式使用AI生成内容。
Q2:FLUX.2-Dev模型有什么优势?如何使用?
A:FLUX.2-Dev是一个高质量的图像生成模型,能够根据文本提示生成逼真图像。使用时需要下载模型权重文件,然后通过ComfyUI的模板系统加载。建议使用清晰、具体的提示描述,包含主题、设置、风格和情绪,避免使用负面提示。
Q3:LTX-2视频生成模型如何工作?对硬件有什么要求?
A:LTX-2是Lightrick开发的先进音频-视频模型,结合图像和文本提示生成视频。它需要大量VRAM来运行,内存使用随分辨率、帧率、长度增加而增加。ComfyUI提供权重流式传输功能,可在GPU VRAM不足时将部分工作流程卸载到系统内存,但会影响性能。
特别声明:以上内容(如有图片或视频亦包括在内)为自媒体平台“网易号”用户上传并发布,本平台仅提供信息存储服务。
Notice: The content above (including the pictures and videos if any) is uploaded and posted by a user of NetEase Hao, which is a social media platform and only provides information storage services.