Midjourney|文心一格 prompt 教程 [Text Prompt(上篇)]:品牌 log、App、徽章、插画、头像场景生成,各种风格选择:科技风、运动风
Midjourney|文心一格 prompt 教程[Text Prompt(上篇)]:品牌 log、App、徽章、插画、头像场景生成,各种风格选择:科技风、运动风
1.撰写 Text Prompt 注意事项
Midjourney 跟 ChatGPT 在 prompt 的使用上有很多不一样的地方,本章会详细介绍下 Midjourney 的 text prompt 区别。
语法
首先 Midjourney 基本上是不懂语法的,所以即使你语法错了,只要词对了,也能生成图片。。
另外,不懂语法也导致了另一个问题:prompt 不是越长越好。特别是各种定语从句,它根本就不懂,还不如把指令用逗号隔开,一个个输入。以下是官方推荐的语法建议:
使用形容词+名词的词序来替换介词短语。
hair flowing in the wind 应该改为 flowing hair
a carrot for a nose 应该改为 carrot nose
使用非常具体的动词来替换介词短语。
a girl with a flashlight 应该改为 a girl using a flashlight
a girl with a big smile on her face 应该改为 smiling girl
最后, Midjourney 是不会区分大小写的。
单词
在单词的部分,Midjourney 跟 ChatGPT 有点类似,它对同义词的理解也不是很好。比如举两个例子:
big (大)这个词,到底指多大?越具象的大,对于 Midjourney 来说,效果越好,比如用 gigantic 就比用通用的 big 好。
cats(猫)这个词是个复数,但到底是多少只?对于 Midjourney 来说,two cats(两只猫)比 cats 更明确。
另外,Midjourney 还能用 emoji 代替单词(我觉得本质上 emoji 也是单词),算是一个比较有意思的特性。
与其说不要什么,不如说要什么
这个跟 ChatGPT 类似,你应该将你想要的东西说清楚,而不是告诉 Midjourney 不要什么,如果你想让 Midjourney 不生成某样东西,就需要用到 参数 — no。
你不说,模型就会随机给你
因为图像信息的信息量远超过文字,所以很多时候,Midjourney 会随机填充一些内容给你,它既是缺陷,也是亮点功能。因为当你不在 prompt 里说明这些词时,你就能获得发散的结果。
如果你想减少这些随机性,就需要用到一些 prompt 框架(或者所谓的模板),本教程会由浅入深地将这个框架教给你。
参数
Midjourney 还有一点跟 ChatGPT 有较大差异,它允许你在 prompt 里加入参数,而且这些参数相对来说一致性都比较好,所以如果你想实现的功能,参数里支持,那优先使用参数,而不是在主体里描述。你会在后续的教程中学到如何善用参数。
另外,需要注意,本教程生成的图片默认为 V5 版本,所以我没有在 prompt 里就加 v5 参数。
2. 场景 1:图库图片 Stock Photo
Text Prompt 的部分难点
图片信息量非常大,万能模板的确让你生成一张及格的图片,但很难让你生成一个完全满意的图片。
要想生成一张高分图片,需要的不仅仅是 prompt engineering,甚至还需要一些美学知识,不同场景参数的使用都是不一样的,所以有些时候,用模板反而有点死板。
所以,我不想直接教大家所谓的万能模板,而是通过一个个实际场景教大家如何写好 text prompt ,因为不同场景,你告知给模型的信息是不一样的。
而且我认为,知道为什么,远比知道怎么做更重要。当你知道为什么后,遇到新的场景,你也能很好地解构出 prompt 里需要什么,而不是盲目套模板。
最后,图片场景有非常多,我会尽量分享一些大家日常工作中能用上的。希望能让 AI 提高你的工作效率,而不是用完即弃的玩具。
Text Prompt 开篇介绍一下 Midjourney V5 提升较大的 Stock Photo 场景。
Stock Photo 直译为图库图片。一般你能在一些图库网站上找到,这些图片通常来自一些摄影师或设计师。部分图片因为版权的原因,如果你需要使用则需要付费。
大部分使用 Stock Photo 的用户都是一些设计公司,或者广告公司。你应该常常能看到这类图片,比如最经典的两人握手照片:
我认为 AI 生成图片对图片库冲击非常大,V5 版本基本上满足了我的 Stock Photo 需求。
技巧一:临摹
我认为学习图片类的 prompt,跟学习画画是类似的,最好的学习方法不是直接用模板。
而是拿真图,或者别人生成的图来临摹。英文不好,也可以先写中文,然后让 ChatGPT 翻译。当你临摹了几张后,你就会慢慢搞懂如何做出类似的图了。
拿上面的那个握手图为例,我们仔细观察上面那张图,图中元素有什么:
第一主体是两个手,然后握在了一起,并且看起来是两个亚裔男人。
第二两人都穿着西装。
第三背景看上去像是在办公楼的大门,两人可能是在握手告别。并且背景刻意进行虚化了,或者是使用照相机拍摄的。
再归纳总结下,大概的信息:
主体:两个穿着西装的亚裔男人在握手告别
场景:办公楼大门
图像风格:stock photo,照相机拍摄,
这时候,我们就能尝试写一下 prompt 了(如果你觉得自己英文水平还不太行,也可以尝试用翻译软件翻译)。
Midjourney 生成的结果如下所示。
Emm 🤔 好像跟我们的预期不一样。不要慌,刚开始用 Midjourney 一定会遇到这种问题,重要的是多尝试。
<img src={ "https://res.craft.do/user/full/d845172f-becd-4255-bf79-d722098b2d83/doc/15EA26B6-9B49-4076-B8D8-DFE53ABD52C8/E398A4A0-ECBB-4592-8CAA-AE68AED3FCCC_2/srcSfwZqzcgOymCyOlvnAMVi1okc5zsoKI3eSfA6kh8z/MJ021.png" } style={{width: 500}} />
我们再来分析下 Midjourney 为何生成了这样的图片?复盘下:
首先图片的主体,或者说焦点,我们只需要「握手」,而不是两个人。
照相模式好像并不能实现背景虚化?更像是一种图像风格,图四就像是一种老照片的风格。
那我们调整下 prompt,增加焦点和背景虚化关键词:
再来看看生成的结果,结果好很多,图 1 和 图 4 基本满足需求了,图 2 和图 3 裁剪一下,也能满足我们的需求。不过需要注意,Midjourney 在人手的生成上,暂时还有点问题,你细看图 2 和图 4,其中有一个人的手有 6 个手指 😂,但我认为未来应该会修复:
<img src={ "https://res.craft.do/user/full/d845172f-becd-4255-bf79-d722098b2d83/doc/15EA26B6-9B49-4076-B8D8-DFE53ABD52C8/4931E039-2B61-49DB-98C1-B524E780BBC3_2/W6jeVicuOIl0RU7EqpXP71NeJ8BWY3FHgXoxFobCQmMz/MJ161.png" } style={{width: 500}} />
那我们来总结一下 prompt ,该 prompt 分成以下几个部分:
第一部分(红色线):描述你想要的内容主体。
第二部分(蓝色线):描述主体背景/环境。
第三部分(黄色线):照片的焦点位置。
第四部分(绿色线):照片的风格或者说是特殊要求。
总结下之后,你是不是就总结出了一个模板了?😁
技巧二:多实验
上述的案例,我还想教给各位第二个技巧:多试验。
图片生成遇到不符合预期的情况,不要慌,分析问题,然后使用控制变量法,一个个调整图片,不要急,上面我写的 prompt 还有一个地方,不知道各位有没有注意,就是开头的 stock photo,试试将这两个词删掉会怎样?
生成结果也依然满足需求,而且手指的数量也准确了,说明这个 Stock Image 对模型的影响不是很大。
<img src={ "https://res.craft.do/user/full/d845172f-becd-4255-bf79-d722098b2d83/doc/15EA26B6-9B49-4076-B8D8-DFE53ABD52C8/BBB1BC5B-BDE3-4034-B297-46D10CEC44D6_2/iH9AHSuCO6bCVxInVZvgbnybwNXUTbwkjT9Bjumf36Mz/MJ023.png" } style={{width: 500}} />
技巧三:善用 Image2Image 功能
在 Stock Photo 场景里,还有一个非常厉害的技巧,这个方法我一开始觉得不太适合教,因为这个对 Stock Photo 库影响太大了 😂
但本着工具中立的原则,并且这个技巧,其实在很多场景都能用(比如生成头像等),所以还是觉得有必要教给大家。
各位一般用 Stock Photo 库会遇到以下几个问题:
图有版权,没法商用,或者说需要付费。
有些图,被很多人用过,其他人一眼就看出来这是 Stock Photo。
图里的内容大体符合要求,但细节不符合要求,比如上图两个亚洲男性握手,可能换成一男一女,且其中一人是黑人会好一些。
要解决这三个问题,最好的方式就是让 AI 改一改原来的图片。让 AI 改图,只需要用到 Image2Image(或者叫 Blend) 功能即可。操作步骤如下:
:::info
后来在某书刷到类似的教程,我才知道这个方法大家一般叫垫图。老外好像一般都叫 Image2Image,或者 img2img。
:::
将你看到的不错的 stock photo 发给 Midjourney Bot(我还是以前面的那张握手照为例)
右键复制该图片的链接,然后黏贴到输入框
在链接后加个空格
接着输入你想要的内容,比如将其中一个人的手换成黑人,一个人换成女性:
生成的结果是这样的,我在 prompt 里没有提任何西装,以及场景背景信息,就说我要一个非裔的手,一个亚裔女性的手:
抛开 6 根手指的问题,这个技巧是不是很高效?不过需要注意,blend 功能(这个后续教程会讲到)我发现更适合两张图融合,图片+文字不是很稳定,各位要有耐心,多测试一下。
3.场景 2:品牌 Logo
前一章各位搞懂了基础 prompt 后,从本章开始就会教大家更多垂直场景的 prompt。关于垂直场景,我看到大量的教程和分享都是分享各种提示词,比如 Logo 相关的提示词有:
modern
minimalist
vintage
cartoon
geometric
坦率地说,在我学习如何使用 Midjourney 的过程中,我一开始也以为只要看了别人的 prompt 用了别人的提示词,就能生成好的图片。
但对于新手来说,我不建议各位直接上来就记模版,记这些词。
因为写好一段 prompt ,你缺的不是提示词,而是对设计的理解,甚至是想象力。
比如本章节的 Logo 设计,如果你根本不知道 Logo 包含哪些元素,适合什么风格,你懂再多的提示词也没法生成满意的 Logo。正如我 Midjourney 教程前面提到的那样,Midjourney 跟 ChatGPT 不一样,ChatGPT 是声明式的,你甚至可以让它扮演某个角色,但 Midjourney 是指令式的,你只能用指令让它画出你想象中的图片。当你能很稳定地出图后,再研究这些词不迟。
对于普通人来说,真正阻碍我们的可能不是学会这些词语,而是我们的审美。
2.1 常见的品牌 Logo
常见的品牌 Logo 一般分成以下 4 种形式:
Graphic Logo:一般以图形为主,像 Apple、Twitter 以及 Midjourney 就是这种 logo。
Lettermark Logo:一般用公司名字的首字母作为 logo 主体,像 Facebook、Tesla 还有 IBM (IBM 全称是 International Business Machines)都是用公司名的首字母作为 logo。
Geometric Logo:几何图形组成的 logo,比如 Nike、百事可乐、万事达卡就是这个类型。
Mascot Logo:以公司吉祥物为 logo 的相对来说比较少见,像米其林的 logo 就是吉祥物轮胎人,我最喜欢的烤鸡餐厅 Nando’s 就是一只🐔
其实常见的品牌 Logo 里其实还有一种,是文字组合式的,文字加上面任意一种,比如 Tesla 的 完整 Logo 就是 Tesla 加一个 T。但因为 Midjourney 在文字的生成上,有非常多的问题,所以不在本章进行介绍。
Graphic Logo
当你想用 AI 生成 Logo 的时候,我建议你选一个你认可的方向,然后再让 AI 生成。
首先我们来分析一下 Graphic Logo 的特性:
Logo 类型:graphic logo
Logo 图形描述:比如猫
风格:
多为扁平化设计:flat
多为矢量图形:vector graphic
简洁:simple
根据特性撰写的 prompt ,核心的关键就是将风格描述清楚:
Graphic Logo 还有一种常见的设计,比如前面的例子里 Midjourney 的 Logo 就是这种,只需要在 graphic 后加一个 line 即可:
下方左边 4 个是没有加 line 的版本:
Lettermark Logo
这个根据我的实验,也试用了很多人写的 prompt,我个人的感受是,这种类型的 Logo 看起来简单,就一个字母进行变形,但让 AI 生成反而效果很一般,而且有一个算是比较有意思的发现,用 A 字母做出来的 Logo 质量比其他字母做出来的 Logo 质量要好很多(非严格按照数据统计,仅个人感受)。这个类型的 Logo 有以下特点:
Logo 类型:lettermark
Logo 图形描述:
纯字母
字体样式:可以按需加上喜欢的字体
风格:
矢量
简洁:simple minimal
根据特性撰写 prompt(最后生成的是 A 和 C 的 logo,我个人感觉 A 的好很多),另外需要注意,这个例子其实是想说明,在 Midjourney 里,语法并不重要,lettermark 不一样要按照语法要求,写成 lettermark logo of letter A :
Geometric Logo
这个类型的 Logo 相对来说,虽然只有图形,但有很多玩法,介绍两个常用玩法:
循环重复
如果你用的是 iPhone ,可以看看 iPhone 里的照片应用的 Logo,它也是一个 Geometric Logo ,而且它是椭圆图形旋转重复,最后组合成了一朵花的形状。拆解一下,关键词是:
Logo 类型:geometric logo
Logo 图形描述:
旋转重复:radial repeating
风格:
简洁:simple minimal
让我们来写一个类似的 prompt:
渐变
另一个常见玩法就是渐变色,如果你用的是电脑的浏览器是 Edge,可以去看看它的 Logo,它的 Logo 就是一个渐变色,然后是个浪的外观。拆解一下,关键词是:
Logo 类型:geometric logo
Logo 图像描述
浪的形状:curved wave shape
蓝绿渐变:blue green gradient
风格:
简洁:simple minimal
让我们来写一个类似的 prompt:
最后生成的结果是这样的,我很喜欢花的第三个,浪的第二个:
Mascot Logo
这种吉祥物类型的 Logo,我认为是 Midjourney 最擅长的 Logo 风格。但也非常考验我们的想象力,当然我们也可以仅提供一些比较简单的词语,让 AI 帮我们生成,让我们一起来为一个机器人公司写一个 Mascot Logo ,拆解一下 prompt 关键词:
Logo 类型:mascot logo
Logo 主体描述:比如机器人 robot
风格:
简洁:simple
最后 prompt:
还有给一家泡面公司生成一个吉祥物又会怎样:
以下是生成的结果,我很喜欢泡面公司的 logo:
技巧四:增加风格——艺术运动
因为篇幅的原因,本教程不会介绍特别多的风格,我会在我的小红书账号上更新。感兴趣的朋友可以去关注下。
前面生成的 logo ,有一些估计各位会觉得平平无奇,比如 Lettermark Logo,原因并不是 Midjourney 能力不强,而是我们给的指令太少了,只要在 prompt 里加几个单词,就能生成不一样的 Logo:左边四个的 prompt 是这样的,我仅仅在原来的 prompt 上加了两个单词 Pop Art:
Pop Art 是什么?
波普艺术(Pop Art,又译为普普艺术或通俗艺术),是一种起源于 20 世纪 50 年代和 60 年代的艺术运动,它强调对大众文化、大众媒体和消费主义文化的反思和表达。Pop 来自“流行艺术”(popular art)一词里的 popular,由 1956 年英国艺术评论家罗伦斯·艾伟(Lawrence Allowey)所提出。
Pop Art 的特点是:
它的内容主体一般是大众日常生活中常见的物品和图像,如广告标语、杂志封面、食品包装等。
一般用色比较大胆,同时线条比较简洁,强调物品本身的视觉效果和意义。
右边边四个的 prompt 是这样的,我在 prompt 里加上了 De Stijl 。
De Stijl 是什么?
它是一个荷兰艺术运动,始于 1917 年,致力于简化视觉元素,包括直线,平面和基本色彩。
它的成员包括画家 Piet Mondrian 和 Theo van Doesburg 等人。De Stijl 的成员致力于将艺术与设计融合,以创造出具有实用性和功能性的美学。
De Stijl 的特点有:
常常用几何图形进行设计,如矩形和直线。
用色基本只用基本色彩,比如黑、白、灰、红、黄、蓝。
追求平衡和和谐,强调形式和结构,不注重细节和表现力。
4.场景 3:App & 徽章 Logo
Logo 篇比较长,所以拆成两章介绍。
App Logo
其实 App Logo 可以使用前一章提到的品牌 Logo,加上一个矩形边框就 OK 了,用 Figma 几步就能完成 😂,但如果你实在不想用 Figma ,也可以用 Midjourney 生成。
不放看看你手机上的 App,想想 App Logo Prompt 应该怎么写?
我用前一章的案例,写了两个 prompt ,输出的结果如下:
关键是:
Logo 类型:mobile app logo
Logo 图形描述:
iOS 的都是圆角矩形:squared with round edges
Logo 图形描述,比如 an icon for a Instant Noodles company
风格:
延续使用上一章提到的方法即可,我这加了个 pop art
另外我发现在 Logo 图形描述前加 an icon for ,生成的 Logo 会更符合预期一些,右边是加了 an icon for ,左边是没有加的:
另外,Logo 图案是 Graphic 、Lettermark 还有 Geometric 的,会更符合预期:
技巧五:增加风格——艺术家
前一章介绍了增加艺术运动,从而使得生成的图片更加特别,本章再教大家一个方法,是增加艺术家的名字。首先需要注意,Midjourney 支持大部分的艺术运动,但在艺术家的支持上,相对来说比较少,经过网友们的不懈努力,截止到 3 月 31 日,V4 已知支持的艺术家有 2000 多位,V5 有 100 多位。其中在榜的 Logo 设计师,只有 Paul Rand 和 Saul Bass,Paul 是 IBM、英孚、NeXT logo 的设计师,Saul 是美国联合航空、AT&T logo 的设计师。使用方法很简单,在 prompt 最后加上 by Paul Rand 即可:
当然也不是说只能加 Logo 设计师,加上没有设计过 Logo 的设计师名字,也很有意思。比如右边四张图我加的就是 Piet Cornelies Mondrian,第三张 logo 有 Composition II in Red, Blue, and Yellow 那味了。左边四张则是 Paul 的,第二张红色框加黑色 A,有他的经典眼镜 logo 那味,非常喜欢:
最后需要注意,增加艺术家名,有可能出现以下情况:
多长图的风格都很像:这是因为某些艺术家有非常强烈的标志性风格,比如我很喜欢的 Piet Mondrian,你用他的名字,会发现可能生成的很多张图都是 Composition II in Red, Blue, and Yellow 的风格。
生成的图看上去不太像该艺术家的风格:我自己测试,发现有两种可能,一种是模型并没有学习这个艺术家的作品(特别新的艺术家我感觉一般都不会收录),另一种可能是你的 prompt 里的一些词,跟该艺术家的风格有冲突,比如用了达芬奇 Leonardo da Vinci,但主体是个日本二次元小姑娘。
PS:在本教程里的 Artist List 可以看到我比较喜欢的艺术家。
徽章 Logo
学校的校徽就是典型的徽章 Logo,使用方法也非常简单,只需要调整 Logo 类型为 emblem 就可以,另外,跟徽章很搭的风格是 Vintage,两个都加上后 prompt 是这样的:
右边四个是加了 vintage 的,是不是很复古,我非常喜欢:
技巧六:善用 no 参数,去掉不想要的元素
在徽章 Logo 的案例里,你应该还看过单色的徽章,比如校徽。但 Midjourney 有个习惯就是倾向于生成复杂的内容,生成单色内容,你可以在 prompt 里加入颜色,背景等等词,让其变得简洁。
还有一个技巧是用 no 参数。比如我想制作一个单色校徽,校徽主体是一本书,同时因为 Midjourney 对文字不是很擅长,我还要去掉 text。以下是我的 prompt,我在最后加了 no realistic color(没有颜色)text(字)。
然后我把上面那个 Instant Noodles company 的 prompt 也加了 no text,最后生成的两组图片是这样的(最后需要注意,no 参数在 logo 里使用时,no text 有的时候会失效,但如果你去掉 — 直接输入 no text 就会生效,很神秘,估计是个 bug):
5.场景 4:插画
通过前面的学习,你应该或多或少都临摹了几个图片。如果没有,我建议你多练练,纸上得来终觉浅。
稍微总结下我们所学:
撰写 prompt 核心是「描述清楚你想要的画面」,「越详细」生成的图片就约符合你的要求。
要想提高 prompt 撰写能力,最好的方法是临摹别人的作品,然后自己尝试写一写,最后再看看别人的 prompt。
要想描述清楚画面,可以从以下几个角度进行解构:
在风格这块,有两个小技巧,可以使用艺术运动,以及艺术家名字。
水彩
从本章开始,我们会进行一些更复杂的设计。水彩插画相对来说,应该会是小朋友比较喜欢的风格。
我们按照之前所学的模板来一步步写一下:
然后再写一个带场景的:
以下是生成的图片:
百科插画
除了水彩外,我很喜欢的另一种插画是百科全书手绘插画。我们一起画一副玫瑰:
再画一组恐龙:
以下是生成的图片,看起来,Midjourney 并不知道霸王龙只有两只脚,哈哈哈,不过第一张真的非常像 Andrey 的风格:
绘本插画
我个人觉得绘本插画只要用好技巧五:增加风格——艺术家,基本上就能做出一些不差的插画。我绘本看得不算多,但应该不少人知道彼得兔,我们试试画一副和彼得兔类似风格的小猫:
另外我们也试试小熊维尼的插画师 E.H. Shepard 的风格(右边四张)。这里要额外说明下,为了让生成的结果更倾向于该作者的风格,我没在 prompt 里加入太多背景信息:
Behance 风科技插画
坦率说来,这个并不是一种插画风,但作为互联网行业从业人士,我觉得这个还挺刚需的,但需要注意,经过我的测试,只要在最前面加入 tech illustration 也能生成类似的风格插画,但效果比较一般,当我加上 behance style 后(Behance 简单理解是一个设计师分享作品的网站,分享的作品多与科技产品有关,如 App 设计等),就变得精致和漂亮了:
另外,我还做了一个大家比较熟悉的咖啡馆场景:
最后的结果:
最后,这里面还有一个神秘参数,就是加上一些公司(比如 by Microsoft),我目前测试过像 Slack、Dropbox、Microsoft、Apple 感觉是有一点点差异,但我不知道 Midjourney 是怎么理解或处理这个词的,下面是两组案例,左边是微软的,右边是苹果的,除了苹果的第四个有个苹果 logo 外,我是看不太出来还有什么地方体现苹果的,个人觉得可能是在用色上会用该品牌的品牌色?
感兴趣的朋友可以去探索下。🆘 征集案例
填色插画
最后一个要介绍的也不知道是不是插画,但可能不少朋友见过,就是那种可以让你在上面用蜡笔,或水笔填色的填色插画。我觉得非常适合让小朋友自己生成填色插画,然后打印出来,让小朋友上色。以下是霸王龙的例子:
白雪公主的版本只要将主体改成「Snow White」即可,以下是生成的图片:
6.场景 5:头像
在 Stock Photo 一章中,介绍了 img2img 的方法,这个方法除了解决 Stock Photo 的那几个问题外,还很适合多个场景。
本章会着重介绍用这个方法生成的头像的 prompt。并且从本章开始会逐步丰富我们的 prompt 结构,使其更加完整。
在介绍 img2img 的应用前,我想强调一下:
不要在 Discord Midjourney 公开群上传自己的照片!这样你的照片会被公开群里的所有人看见。建议使用 Midjourney Bot。
另外,非 pro 付费会员,生成的图片都会被其他会员看见。但你可以在生成完头像后,删掉生成的图片。如果还不知道如何使用 Bot ,及删除照片,请看基本操作篇。
img2img 的操作我就不过多赘述了。如果你还不太清楚,可以看基本操作篇,以及 Stock Photo 那篇。
3D 卡通头像
第一个要分享的是卡通头像。首先跟大家强调下:
我基本上把国内国外的生成头像教程都看过,并试过一遍,还跟 Midjourney 社群的人也交流过。我的理解是,以目前 V5 的能力,不管你如何调整 prompt ,想用 img2img 方法生成一张非常像原图的图片,基本靠运气,即使用了前面介绍的技巧七方法,也只是提高概率。如果你有令头像非常像的方法,不妨通过 Issue 分享给我,我会署下你的名字,并分享给大家。
各位在学习的过程中,如果发现生成的图片不像原图,也不需要气馁。这是正常的。
你可以通过我分享的方法,生成一张有原图神韵的卡通头像。注意肯定不会非常像原图。
在 prompt 里加上原图链接(建议使用证件照,或者背景比较单一的照片,这样成功率会高一些),然后用我前面提到的框架设计一个 prompt:
最后,还有三个技巧:
如果你生成的照片并不像预设的照片,可以在四张图里,挑一张比较像的,然后点 V(Variation),让模型继续生成,再继续挑一张像一点的照片,然后继续生成新照片,直到出现一张比较像的。
第二个,我觉得很神奇,如果前两个方法你都试过了,你生成的图片还是跟原图不像,那就在 prompt 里加上「wear glasses(戴眼镜)」,真的很神奇,我只要加上戴眼镜就像非常多,如果你原图戴眼镜了,你试试在参数里加个 —no glasses,你会得到一张更不像你的图。
最后,就是多用一个参数,这个方法会在技巧八中展开说下。
本章最后,有我的证件照的案例。
技巧七:多参数同时使用
在使用 img2img 的方法生成头像时,我发现问题是「文字权重比图片权重高」,导致其生成的图片不像原图,iw 参数在 V5 里最多提升图片权重到 2,所以我就在想有没有可能进一步降低文字的权重。
然后我就试了下 s 参数,发现的确好了很多。
如果生成的图片还是不像,你可以在 —iw 2 基础上,再加一个参数 —s 200 ,注意同时用两个参数时,中间不要有逗号。我发现加了 s 参数之后的确像了很多,我个人猜测是 s 和 iw 连用会进步一削弱 text 的权重。
s 是控制生成图片的风格化程度。简单理解,这个值越低会更符合 text prompt 的描述,数值越高艺术性就会越强,但跟 text prompt 关联性就会比较弱。所以如果你生成的图还是不像,就加大这个值,比如调到 500。
我想通过这个案例告诉大家,多个参数一起使用,有可能会形成合力,进一步放大模型的能力。未来有新的参数能力,不妨也想想有没有可能一起用?
动漫风头像
与 3D 卡通头像一样,主要的修改是在图片风格上:
赛博朋克头像
这是我最喜欢的风格之一,也是只需要改一下风格和背景即可:
上面这几个头像 prompt 最后生成的头像是这样的,坦率地说,我已经尽力了,我的个人特征太少了,人也不帅,生成的图片,都有种东南亚人那味,感觉 Midjourney 对亚洲人的理解还不是很行 😂
技巧八:使用 Seed 参数对图进行二次修改
注意:这个技巧,我个人觉得未来潜力比较大,但目前 Midjourney 的实现效果还比较一般,效果得不到保证。官方的社区的帮助文档也提到这个功能在 V5 非常不稳定。详细可以看看我整理的 Midjourney 官方 FAQ 一章。
你可能遇到类似这样的场景:
你输入一段 prompt,机器生成了 4 张图片
你看了下 4 张照片,发现其中有一张还行,但其余不是很满意,然后改了下 prompt,机器又生成了一些
但这次生成的照片你都不满意,你就很烦恼为何会这样
然后你就像为啥不能在第一次生成图上做修改呢?
基于某一次生成的结果进行二次 prompt 修改,理论上我认为是可以的,以赛博朋克头像为例,我先用上述 prompt 生成了四张图片,然后在消息的右上角点击 emoji 按钮(下图 1),然后再输入框里(下图 2)输入 envelope,然后点击信封 emoji(下图 3),接着 bot 就会将 seed 号码发给你。
然后我修改上面的赛博朋克头像的 prompt,将其背景改为 China Town,此时需要注意:
新的 prompt 并不是只改 background,你需要将之前的 prompt 都带上。
prompt 仅修改 background 的部分。
最后带上 seed 参数。
以下是我的案例:
原 prompt:
新 prompt(seed 码只是示例,你要填写自己的 seed):
以下是生成的效果(左图为原图,右图是用了 seed 后生成的图),可以看到,背景的确换了,但人的外观也有点变化
效果不是很好,但我觉得值得探索,这样能提高渐进优化的成功率:
技巧九:神秘的 blend 功能
这个技巧,说实话,我感觉不能称其为技巧,但这又是一个 Midjourney 非常重要的 feature,所以在这里着重介绍一下。
这个功能使用起来非常简单,在 Discord 输入框里 /blend,然后点击这个菜单:
之后你的输入框就会变成这样:
然后你就可以点击这两个框,然后选择你电脑上的照片,添加完成后,大喊一声「使用融合卡」(不是),然后点击回车:
然后 Midjourney 就会生成这样牛逼的结果,左边是融合钢铁侠,右边是融合巴斯光年:
这个功能我第一次看到时,我是非常震惊的,以为是小时候看游戏王里主角们使用「融合卡」的那种效果。可惜并不是,这个功能非常不稳定,仅有在满足多个未知条件才能达到上述的效果。
我本来打算用这个方法用于生成头像,但我发现只要用自己的照片,融合其他风格的照片,效果都不太好,目前实验下来效果最好的是名人头像,我的感觉是因为 Midjourney 喂了不少名人的头像给模型,所以这种融合的效果都很好。
但我觉得它真的很适合做头像,将自己的头像跟另一张图片融合一下,就能生成一张不错的图,方便又快捷。可惜目前这个功能感觉还不太好用。
当然这个功能还不仅仅止于此,它还有很多使用场景,在后续会介绍给大家。
参考链接:
https://github.com/thinkingjimmy/Learning-Prompt
https://github.com/wangxuqi/Prompt-Engineering-Guide-Chinese
https://github.com/tonyyuhang/ChatGPT/tree/main
https://github.com/f/awesome-chatgpt-prompts
版权声明: 本文为 InfoQ 作者【汀丶】的原创文章。
原文链接:【http://xie.infoq.cn/article/acd594406202bb1c118149f63】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论