AI 画图,DALL.E 3 正式发布!全面解读 OpenAI 公告
就在刚刚,OpenAI 正式发布了 AI 绘画产品 DALL.E 3。
豆哥是内测用户,已经使用了将近一个月的 DALL.E 3 了,太香了。之前官方说预计 10 月中下旬正式发布,果然,没有跳票。
1、官方用一段话介绍了 DALL.E 3
信息量挺大,来划重点:
1、简单对话就能画图,这是非常大的提升!对比 Midjourney 和 Stable Diffusion 使用文生图提示词画图,无缝融合到 GPT 中的 DALL.E 3,让用户真正可以零基础上手,真实体验非常丝滑!
2、厚道的 OpenAI 把这个产品无缝融合到了 ChatGPT Plus 和企业版里面。也就是说,订阅 20 USD/月的 GPT Plus,忽然白送你一个强大的 Midjourney 级别的 AI 绘图功能。香不香?
3、GPT 懂人话也说人话,对画出的图不满意,你就直接在对话框里给他提意见,大大增加了改进和迭代速度,能很快得到满意的图片。
2、官方举了三个画图例子。
豆哥解读后,发现分别是送给普通用户、职场人和创业者的。
例子 1:画云朵
豆哥认为,这个例子,展示了清晰度和细节,这是因为默认出的图的分辨率达到了 1024 x 1024,这是什么水平吗?考虑到实际体验的绘图速度,玩过 Stable Diffusion 的朋友应该明白,这相当于本机安装了一张与 RTX 4070 12GB 性能相当的显卡,价值 4500 元。
例子 2:网站设计
这个例子,展示了提高或替代 UI 设计工作的可能性。这个时候,DALL.E 3 把分辨率换成了 1792 x 1024。大家注意,里面出现了文字元素,有些拼写对,有些不对。OpenAI 也不忌讳,大方地放了出来。根据豆哥内测的真实经历,正确生成文字内容是有难度的,有时候对,有时候不对,但是整体来说要比 Stable Diffusion 强。未来,如果能够精准生成文字内容,UI 设计,包装设计,商业海报,你们慌不慌?
例子 3:设计 LOGO
这个场景,其实已经有很多创业公司的小产品就是专门做这个的。DALL.E 3 的输出质量,对于自媒体人、小公司起步来说,完全够用了。这直接会卷死了一大堆 AI 创业公司,所以,如果 AI 产品壁垒太低,要慎重,哪一天大厂随手发布一个更新,你就死了。
3、官方研究介绍
首先,官方用一段话介绍了研究要点。
1)DALL.E 3 是内外部合作、多项研究的结果
2)出图视觉效果更好,细节更清晰
这里明确强调了文本、手和面部。这些细节是使用 Stable Diffusion 绘图的时候非常难处理的细节。DAll.E3 实际使用下来,豆哥感觉手和面部不再是问题,文本有进步,但是不稳定。
3)擅长响应广泛、详细的提示,并且可以支持横向和纵向宽高比
得益于 GPT-4 的自然语言能力,提示词创作和修改非常直观、便利。前段时间看到被黑出来的官方 DALL.E 3 提示词,发现分辨率目前一共有三种:默认 1024x1024,1792x1024,1024x1792。
豆哥尝试过自定义分辨率和图片尺寸,不凑效。可能是官方:
害怕用户把算力搞崩,比如你输入个非常大的分辨率;害怕画出不符合预期的图像,比如你要求输出一个很奇葩的尺寸比例。
4)这些功能是通过训练最先进的图像字幕生成器(image captioner)实现的
关于这个,为了进一步让用户搞清楚细节,官方给出了研究论文。
使用更好的字幕改善图像生成,这篇论文提出了一种方法,通过训练文本转图像模型,使用高度描述性的生成的图像标题,来增强文本到图像模型的即时关注能力。作者通过训练定制的图像字幕并使用它来重述数据集,从而解决了训练数据集中图像标题嘈杂和不准确的问题。他们发现,对这些合成字幕进行训练可以显著提高即时关注能力。本文介绍了一种新的文本到图像生成系统 DALL-E 3,并评估了其在即时跟踪、连贯性和美学方面的表现,发现与竞争对手相比,它更具优势。作者为未来的研究提供了样本和代码。本文还讨论了图像生成系统的可控性挑战,并提出了字幕改进作为解决方案。
总之,从各项评估来看,DALL.E 3 都大大超过了 SD XL 的表现。
4、出图限制
NSFW 类,不解释,包括暴力、成人或仇恨,生成不了。
SFW 类,DALL.E 3 也有限制,叫做限制以在世艺术家、公众人物图像的风格生成内容的可能性。啥意思,就是怕被告侵犯知识产权。这也解释了,为什么上次豆哥让它画奥特曼和擎天柱大战,它拒绝地原因。
c5fc7d98da59748038d4a703d0558c7.png
为了强调这点,官方单独介绍了什么是创意控制:
毕竟,树大招风,过去一年,OpenAI 在侵犯版权方面被很多次起诉,法律风险太高。豆哥让 GPT 梳理了下,大家感受下成为众矢之的的感觉:
5、更多图片展示
最后,官方放出来很多例子。
不过瘾吧,来,豆哥给你来个精选集,是我内测阶段用 DALL.E 3 画的:
莫奈:
梵高
达芬奇
毕加索
国画风美女和野兽:
Generated by DALL·E_a609cb54.webp
戈黛娃夫人 Lady Godiva,宫崎骏和鸟山明风格:
whimsical portrayal of a woman o.webp
亚马逊丛林勇士:
detailed and realistic portrayal.webp
巴赫的赋格:
Generated by DALL·E_e3bda436.webp
有能力的小伙伴,20 美元/月,你值得拥有!
版权声明: 本文为 InfoQ 作者【豆茉君】的原创文章。
原文链接:【http://xie.infoq.cn/article/6310d61bd0979a10239389508】。文章转载请联系作者。
评论