Midjourney 最强劲的对手来临,SDXL 被动开源的浪潮,AI 生成图片未来可期
直接进入主题,就在两天前,Stability AI 把他们的 SDXL 给开源了,开源的主要原因是因为他们这个模型不小心泄露出去了。
文末会附上相关体验地址以及论文链接。
我们今天就来聊一聊又一个可以说是颠覆性的产品 SDXL
,首先来说这个 SDXL 到底是什么。它是这个Stability AI 发布的一个新的模型。它这个架构可以很直接在Stability的论文中看到。如下:
它其实是两个模型
Base 模型
这个 Base 模型就是用来生成词语生成图片的
Refiner 模型
这个 refiner 就是一个图片生成图片的,相当于是对生成图片进行一个优化
那为什么说这个 SDXL 是一个革命型的产品呢?我们来看一下它生成的图片:
以上都是 SDXL 生成的图片,相比于 SD1.5 和 SD2.1 来说,SDXL 生成的图片质量肉眼可见的好了很多。并且它整个生成图片的感觉是不是和 Midjourney 很相似。从以上这些可以很清楚的感知到Stability AI
想打败的一定是Midjoureny
,对标或者想要干掉的这个公司就是 Midjourney。虽然它把这个开源了,但是它也没有写的特别详细,它就是写了一种概念性的东西,然后放了很多它的结果在这个地方。如果我们仔细去看他的这个结果的话呢,你会发现它在这方做的对比效果,主要是后两个图片
就是 Midjourney 5.2 和这个 SDXL 的对比,从结果可以看出几乎上来说 SDXL 已经是不相上下了。其实你仔细用通用化的 Mid Journey 和 SDXL 去做这样的对比的时候,你就会发现 SDXL 生成图片还挺好看的。所以我们也可以看到这个 Stability AI 它的这个野心。但最关键的最核心的一个问题是什么呢?是 Stability AI 这个公司,它不小心把它的模型给泄露了。你如果去看它的官网。在这个clipdrop,在这样的一个网站上,它其实已经把这个 SDXL 给上线了。我们可以在这尝试一下,比如说我要输入一个a cat
我们可以看到 SDXL 这个生成图片的效果肯定是比这个 SD1.5 要好很多的,这个是毋庸置疑的。那最核心的一个点就是前两天前,他这个模型被泄露了,泄露了之后呢。这个 StabilityAI 他就果断的跟这个 Meta 一样,果断的把他的模型给开源了。所以你可以看到啊。其实最重要的是他第二个模型Refiner模型
。为什么他会有一个 Base 模型有个 Refine 模型呢?如果你用过 Stable Diffusion 你会发现当我去画一幅画的时候尤其是画人像的时候为什么它会有一个 Base 模型有个 Refine 模型这个其实很容易理解。当我去画一幅画的时候尤其是画人像的时候,我想把整幅画给画出来可能会导致一个问题就是人的脸会特别容易崩掉。人脸崩掉的最大的原因:因为我是对整个画面进行画,然后我如果人脸很小的话,其实人脸的细节会很难就是变成正确了。那这个时候呢,我画完了这个 base 的以后,我会对图片进行一次 refine,这个时候的 refine 就是针对一些细节去进行改动,那改动的这个时候你会发现就是它会把人脸恢复的很好。
这个其实也是我们在应用 stable diffusion,会发现我们有很多很多步骤,就是生成完成之后,再次做一次生成,然后能够比较好的把人脸进行一个修复。它其实使用了这样的一个技术手段。但是目前来讲它是不可以进行商用的。并且个人觉得短期内他并不会真正去商用但是这个东西他强大的点是在于什么呢?它可以激发很多人去进行一个改造或者说去激发社区的想象力啊。就非常非常令人兴奋
当然它还是会有些问题:就是会有些局限性,在这个复录 1 里面它就讲了,就是现在的这个 SDXL 的一个局限性。它对这个手指的处理对一些复杂的这种关系的 局限性它对这个手指的处理,对一些复杂的这种关系的处理还不是特别的好。
SDXL 体验地址:https://clipdrop.co/stable-diffusion
SDXL Base 模型:https://huggingface.co/stabilityai/stable-diffusion-xl-base-0.9
SDXL Refiner 模型:https://huggingface.co/stabilityai/stable-diffusion-xl-refiner-0.9
微信搜索【码上遇见你】第一时间获取精彩内容。
版权声明: 本文为 InfoQ 作者【派大星】的原创文章。
原文链接:【http://xie.infoq.cn/article/d750d5eab5912672574ea6a2b】。
本文遵守【CC BY-NC-ND】协议,转载请保留原文出处及本版权声明。
评论