综合考量了几个ai工具:
- MJ:文生图比较靠谱,图生图则提供了角色参考、提示词参考、图片参考的功能,另外web版也有局部修复的功能,缺点是费钱,想快点出图更费钱,想出的图有私密性,超级费钱😂。
- stable diffusion webui:本地部署,现在FLUX模型、SD3.5模型都可用,各种插件、controlnet系列工具比较全,可以完成重绘、保持角色一致,但是,我MAC电脑只有M1+16G内存,复杂工程跑不动。如果上台4090,以后模型更大了,还是不够用。
- ComfyUI:最近比较猛,提供了桌面版,拿到内测许可后,小测一下,还是基于浏览器套壳运行,被定制了,反而不如源码安装自由。ComfyUI生态现在比较好,很多新模型都会第一时间提供支持,工作流的管理模式适合搭建非常复杂的项目。但是,我的MAC上也只能跑跑FLUX的GGUF版,速度堪忧。
- 国内各大平台生图质量和控制修改工具都还在起步阶段,直接劝退。
综合评测用MJ的丐版试试,简单记录一下过程。
从头做形象难度有点大,所以直接拿来黑猫警长联手吧,声明一下,仅作验证技术方案练习之用。
第一步文生图
准备一句简单的提示词:一只黑猫,穿着警察的服装。
使用kimi、qianwen等ai大模型完善提示词:
##一只黑猫,穿着警察的服装。请将上述内容按照stable diffusion prompt的规则完善,添加画质、细节的描写,使其能生成高质量的图片。
kimi或qianwen会给出详细的提示词,不满意可以多生成几个版本。
发送到MJ中生成基础图片:
没有生成黑猫警长的白下巴,果断上传黑猫警长的参考图,使用图生图的角色参考、描述参考等模式分别生成:
增加参考图后,白下巴有了,但是还不够准确。强化角色的参考,方法是增加参考图片,这个有点像训练LORA的意思,但是现在只需要增加参考图数量。直接从生成的图片第一行第三张和原始参考图,两张图加持,都设置为角色参考模式重新生成:
这次黑猫警长的白下巴特征比较明显了,但是眼睛受参考图营销,瞳孔周围出现了橙色,再增加一张参考图,加强生成形象的稳定性。
修改提示词,生成一只骑摩托的黑猫警长,结果很崩溃,可能是chaos参数设置大了,也可能因为增加了--niji参数,所以结果很不理想。脸型、尾巴、眼睛、帽子衣服各种细节没找到保持一致的有效的控制方法。
重新调整参考图,再次测试生成:
第一行和第二行效果略好,参考图是设置了角色参考模式,黑猫警长原始参考图并不是ai生成的,所以通过提示词+参考图让ai生成图像,单独看一张可能还凑合,但是生成的多张图对比就发现很难保持细节一致,主动放弃这中参考模式的方案,讲错就错,直接使用文字生成的原始黑猫版本吧
这一张纯提示词生成的大头黑猫识别度很高,或许更好控制生成,先用纯文本提示词方式生成骑摩托的黑豹警长,测试各种风格:
整体效果还行,添加选定的大头黑猫图片作为角色参考,替换随机生成的黑猫:
结果貌似好一些,因为参考图里有一张瞳孔是竖长形,一张瞳孔是圆形,导致瞳孔的形状不稳定。中间尝试增加瞳孔的描述词,也不太管用,所以精简参考图,只用一张做角色参考,输出结果瞳孔基本稳定了。
将变异参数Weird值从0增加到100,看看有没有奇迹发生,生成的图骑摩托的角度变化更大了,有了背后的视角,但是眼睛就出了问题。
微调参数和参考图模式,总体输出结果能保持黑豹的特征。但是即便增加骑摩托的图作为角色参考和描述参考,生成的图像中,摩托的特征也很难保持一致。之用一张图做参考,使用remix模式生成的图有时候会没有瞳孔。
局部细节少不了用局部修复方式,重新生成一下,基本上可以弥补,另外一个问题是改为16:9构图大头猫的脑袋被压扁了,参考入是3:4竖幅的,难道MJ计算参考图时候,直接拉伸使用了?
为了生存16:9横幅画面,把参考图先改为16:9,这个在MJ web版的edit也页面里可以直接选用,比较方便。
总体测试,用提示词+参考图的模式想固定一个ip形象生成各种场景的图像,不可控的问题还是存在,还需要用更多的方法深入的研究测试一下。
最后开启抽卡模式,从一堆图里,选两张黑猫警长大图,致敬经典,大家共勉!