AI生成图像如何“随我心意”，Controlnet 之后又来了一个GLIGen。发展太快了。

2023-03-07 18:52:30推荐

2023-3-7-v1横屏.mov

GLIGen 是个啥？

大规模的文本到图像扩散模型取得了惊人的进步。然而，现状是单独使用文本输入，这可能会阻碍可控性。在这项工作中，我们提出了GLIGEN，接地语言到图像生成，这是一种新颖的方法，它基于并扩展了现有预训练的文本到图像差异融合模型的功能，使它们也以接地输入为条件。为了保持预训练模型的大量概念知识，我们冻结了其所有权重，并通过门控机制将接地信息注入新的可训练层。我们的模型实现了具有标题和边界框条件输入的开放世界接地text2img生成，接地能力很好地推广到新颖的空间配置和概念。GLIGEN在COCO和LVIS上的零镜头性能远远优于现有的监督布局到图像基线。

AI生成图像的痛点是不能控制图像的构图，于是有了controlnet，这次介绍的GLIGen也是一个控制图像构图的工具，帮助大家实现“如意如意随我心意”controlnet控制方式更全面，更精细，GLIGen更侧重速度，可以控制生成的对象在画面中的大小和位置，还有彩蛋，GLIGen还提供了风格迁移，可以根据参考图的色彩和风格生成图像。

GLIGen体验：https://huggingface.co/spaces/gligen/demo

AI生成图像如何“随我心意”，Controlnet 之后又来了一个GLIGen。发展太快了。

你确定要删除该文章吗？

审核不通过理由

发送私信

下载附件提醒