Midjourney作为AI图像生成领域的无冕之王,牢牢占据着行业顶端,甚至成为无数创作者心中的第一选择。然而,半个月内即面临,前有FLUX1.0硬刚,后有Ideogram 2.0追击,局势突变。FLUX已经被炒的火热,各类LORA、微调模型、Controlnet等配套模型纷纷上线,后来者Ideogram 2.0不仅在图像生成质量上实现了质的飞跃,还通过激进的价格策略成功吸引了大量用户的目光。

 

面对新兴挑战,Midjourney并未坐以待毙。上周五,Midjourney终于回应了用户的呼声,推出了备受期待的网页版图像编辑器。这个新工具巧妙地集成了重绘、缩放等核心功能,不仅显著提升了操作效率,还让整体交互逻辑变得更加直观明了。对于那些频繁使用Midjourney进行创作的用户来说,这无疑是一大福音。

8月22日,Midjourney宣布,将这一升级后的编辑器工具向所有用户免费开放试用。这一举措不仅展现了Midjourney在技术创新上的雄心,也显示了其在用户体验上的高度重视。

FLUX和Ideogram 2.0被追捧的主要原因是,对提示词的语义理解相比其他开源模型有很大进步,生成画面中元素的准确度非常高。另外可以生成正确的文字,虽然也有崩坏的纪律性,但相比之前各类模型生成的外形文有质的飞跃。两者区别是:Ideogram并非开源模型,只能通过网页端使用,免费账户有额度限制。FLUX则是开源模型,可以本地部署,但22G的体量,需要至少16G现存才能运行,而且在M1芯片 16G内存的MACBOOK上无法运行,最近各路大神发布的FP8版FLUX模型,由于苹果系统不支持,所以也无法使用,只能期待后续有MAC M1芯片的适配版。MAC用户可以使用MXDIA的服务器版体验FLUX。体验方法:MXDIA/登录/导航菜单“AI”/创建服务器/系统选择“ComfyUI”,MXDIA的ComfyUI系统中已经部署了FLUX dev、FLUX fp8、FLUX GGUF三个版本模型,点击comfyui有测工具栏中BROWSER按钮,选择不同版本生成的图片,就可以加载workflow。

Ideogram 2.0

Ideogram AI是一款由前谷歌团队开发的文本驱动的AI图像生成工具,旨在通过简单的文本提示来生成逼真的图像、海报和徽标等。该工具利用先进的AI算法,能够理解并转化用户输入的关键词,从而生成高质量的视觉作品。

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

上图由Ideogram 2.0生成,Ideogram生成的图片更准确,也根它增加了对输入提示词先作美化功能。例如上图,输入提示词为:

An 3d illustration of a cinematic logo called "MXDIA Community 乂媒体". There is a large, dripping red text that says "The Crimes". There is a silhouette of a criminal with a top hat and a cane, holding a bag of stolen goods. The background is black.

经过Ideogram美化后,提示词为:

A 3D cinematic logo for "MXDIA Community 乂媒体". There's a large, dripping red text that says "The Crimes". There's a silhouette of a criminal with a top hat and a cane, holding a bag of stolen goods. The background is black.

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

上图Ideogram操作界面

Ideogram AI的主要特点包括:

  • 强语义理解:Ideogram AI具有出色的语义理解能力,可以自动优化并翻译中文提示词,确保生成的图像符合用户的描述。
  • 多种艺术风格:该工具支持多种艺术风格,如常规、现实、设计、3D和动漫等,满足不同的创意需求。
  • 用户友好的界面:Ideogram AI提供了一个用户友好的界面,使用户能够轻松地创建令人惊叹的艺术品和设计。
  • 免费使用:Ideogram AI目前是永久免费的,这使得更多的人能够无门槛地使用这一强大的工具进行创作。
  • 创新功能:最新版本Ideogram 2.0增加了许多新功能,包括自定义配色方案、设置不同图像类型和风格的能力,以及iOS应用程序和API测试版等。
  • 市场竞争力:尽管面临Midjourney、DALL·E、Stable Diffusion等行业巨头的竞争,Ideogram凭借其独特的技术和创新功能,在市场上迅速崭露头角,并获得了大量关注和投资。
  • 总之,Ideogram AI是一个功能强大且易于使用的AI图像生成工具,它不仅为设计师和艺术家提供了强大的创作工具,也为普通用户带来了前所未有
  • 的创作体验。随着技术的不断进步和应用的拓展,Ideogram有望在未来继续引领AI图像生成领域的发展.

每次Ideogram会生成4张图供用户选择,生成图片可以设置比例1:1、16:9、4:3等等,有些比例需要付费解锁。免费用户生成图片尺寸大概在1024×1024左右,比如1:1比例图片为1024×1024,16:9的图片尺寸为1312 × 736。

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

上图由Ideogram 2.0生成,同样描述词的另张备选图,目前Ideogram还不支持生成中文问题,提示词中特意添加了“乂媒体”三个汉字,但生成的图片中都没有中文依然是外星文的状态,无法辨认。

Ideogram 2.0可以生成是设置4种风格:写实、设计、艺术、3D、卡通,用户也可以设置自动,让系统自动选择风格。

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

 

Ideogram 2.0相比之前版本,在生成图像品质上有了大幅提升,图片中的物理属性基本都能合理呈现。

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

Ideogram 2.0 生成LOGO,提示词:An 3d illustration of A modern logo with a blue color palette. On the left side, a combined icon of a house and a brain. The house outline is sleek and minimalistic, with the brain's curves and lines subtly integrated into it. The right side contains the text 'MXDIA' in a clean, modern sans-serif font. The text is in a contrasting blue shade.

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

FLUX 1.0

FLUX作为开源模型,可以本地部署,所有公开的FLUX.1模型都基于多模态和并行扩散变压器模块的混合架构,参数规模达到了120亿。我们通过构建在流匹配基础上的生成模型,改进了之前最先进的扩散模型。流匹配是一种通用且概念上简单的方法,扩散只是其中的一个特例。此外,我们通过引入旋转位置嵌入和并行注意力层,提高了模型的性能并提升了硬件效率。我们将在不久的将来发布更详细的技术报告。

MAC 32G以下内存的用户直接劝退。原因是FLUX1.0 UNET模型22G,加上CLIP模型,需要占用相当的MAC内存,MAC是统一内存。另外,MAC用户必须是M系列芯片,intel芯片速度慢到已经没有任何使用价值。

苹果MAC用户可以登录MXDIA的AI频道,使用MXDIA的ai服务器体验FLUX,任何操作问题可以咨询WX:mxdiaz

2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成2款挑战Midjourney:Flux 1.0和ideogram ai 2.0-Ai生成

上图FLUX生成的图片,提示词为:

A girl with a red baseball cap stood in the middle of the city square, with hello written on the hat,Photos, unlimited details.

A boy with a red baseball cap stood in the middle of the city square, with hello written on the hat,Photos, unlimited details.

生成步数:20

FLUX的模型分类pro、dev和schnell,区别总结:

  1. FLUX.1 [pro]:FLUX.1的最佳版本,提供最先进的图像生成性能,具备一流的提示跟随、视觉质量、图像细节和输出多样性。可以通过我们的API注册获取FLUX.1 [pro]访问权限。FLUX.1 [pro]也可以通过Replicate和fal.ai获得。此外,我们还提供定制的企业级解决方案——请通过flux@blackforestlabs.ai联系我们。
  2. FLUX.1 [dev]:FLUX.1 [dev]是一个开源权重的指导蒸馏模型,适用于非商业应用。FLUX.1 [dev]直接从FLUX.1 [pro]蒸馏而来,能够获得相似的质量和提示响应能力,同时比同尺寸的标准模型更加高效。FLUX.1 [dev]的权重可以在HuggingFace上获取,并可直接在Replicate或Fal.ai上试用。如需在商业场景中应用,请通过flux@blackforestlabs.ai联系我们。
  3. FLUX.1 [schnell]:我们最快的模型,专为本地开发和个人使用而设计。FLUX.1 [schnell]在Apache2.0许可下公开可用。类似于FLUX.1 [dev],其权重可以在Hugging Face上获取,推理代码可在GitHub和HuggingFace的Diffusers中找到。此外,我们很高兴能在ComfyUI中实现day-1集成。

FLUX计划未来会发布文本生成视频的模型,不知道是否会开源,但值得关注。