2023-3-7-v1横屏.mov
GLIGen 是个啥?
大规模的文本到图像扩散模型取得了惊人的进步。然而,现状是单独使用文本输入,这可能会阻碍可控性。在这项工作中,我们提出了GLIGEN,接地语言到图像生成,这是一种新颖的方法,它基于并扩展了现有预训练的文本到图像差异融合模型的功能,使它们也以接地输入为条件。为了保持预训练模型的大量概念知识,我们冻结了其所有权重,并通过门控机制将接地信息注入新的可训练层。我们的模型实现了具有标题和边界框条件输入的开放世界接地text2img生成,接地能力很好地推广到新颖的空间配置和概念。GLIGEN在COCO和LVIS上的零镜头性能远远优于现有的监督布局到图像基线。
AI生成图像的痛点是不能控制图像的构图,于是有了controlnet,这次介绍的GLIGen也是一个控制图像构图的工具,帮助大家实现“如意如意随我心意”controlnet控制方式更全面,更精细,GLIGen更侧重速度,可以控制生成的对象在画面中的大小和位置,还有彩蛋,GLIGen还提供了风格迁移,可以根据参考图的色彩和风格生成图像。
GLIGen体验:https://huggingface.co/spaces/gligen/demo