AIGC 在广告创意上的实践

2024-04-03
北京
本文字数：3069 字
阅读完需：约 10 分钟

1 引言

1.1 背景

随着抖音、小红书等新媒体的快速崛起，新媒体广告需求日益增大。而新媒体广告投放的图片和文案创意占用了运营工作者大量的精力和时间。文案、图片、视频广告创意制作难度大、效率低、成本高、周期长的问题日益凸显。如何快速的完成广告创意，是当前运营和设计人员最大的痛点之一。

1.2 AIGC

AIGC（Artificial Intelligence Generated Content）是指借助先进的人工智能技术自动生成内容的创新实践。这一领域融合了机器学习、自然语言处理、计算机视觉等尖端科技，旨在模拟甚至超越人类的创造力。通过 AIGC，机器不仅能够理解和处理大规模数据，还能在此基础上产生新颖的文本、图像、音频和视频内容。2022 年以来，ChatGPT 等大语言模型的应用日益成熟，同时以 Stable Diffusion 、Midjourney 为代表的 AI 生成图片也被广泛运用。AIGC 的应用范围日趋广泛，它能够在新闻撰写、文学创作、广告设计等多个领域发挥作用，提高内容生产的效率和质量。

1.3 AIGC 与广告创意

AIGC 能够根据品牌特性和用户需求，迅速产出大量创意方案，AIGC 与广告创意结合起来，将会有效的解决广告创意领域面临的痛点，极大地丰富了广告表现形式和内容。本文主要介绍我们在 AIGC 和广告创意上的一些探索和实践。

2 小红书文案生成实践

2.1 小红书爆款内容特点分析

结合目前小红书热门爆款内容，经分析归纳发现，爆款文章内容均具备一些共同特点。从标题来看，高质量的爆款内容往往具备一些引人入胜的标题，这些标题往往会采用一些略夸张的方式来进行创做，并且在标题中增加一些具有挑战性或悬念性等表达，外加一些标点符号增强表现力，营造惊喜感与紧迫感吸引读者，引发读者好奇心，部分标题还会融入时下热点话题以提高时效性，另外还有描述具体效果及成果的关键词加入等等，都意在利用标题来提高内容的吸引力。从正文内容部分来看，大多数爆款文章均比较注重内容的分享传播价值与实用性，内容表达简洁清晰，让读者容易理解及接受。再者爆款内容往往结合视觉元素如图片视频等增强内容的表现力，使文章看起来更加生动有趣。此外很多爆款内容强调互动性，吸引读者在评论区进行有效互动，提高话题参与度与粘性。

2.2 生成式 AI 关键技术 GPT & LLM

Large Language Model (LLM) 即大型语言模型，也叫大语言模型，是一种基于深度学习的自然语言处理（NLP）模型，它能够学习自然语言的语法和语义，从而生成人类可读的文本。GPT 的全称是 Generative Pre-Trained Transformer（生成式预训练 Transformer 模型）是一种基于[互联网]的、可用数据来训练的、文本生成的深度学习模型。

2.3 整体流程

结合平台文章特点，利用生成式预训练大模型，重点要进行提示词的工程化工作，首先要将用户的原始意图提炼转化为简短亮眼的标题，并提供多个选项供用户选择所需标题。然后用户在所生成的标题中选择自己认为合适的标题进行下一步内容的创作选项。用户除确定写作的角色信息、语气口吻等信息，还可以针对文章内容要介绍的重点亮点进行补充录入，平台方还会定期抽取近期热门的内容提炼成标签库，用户可以选择部分合适的近期热门标签，最终平台将这些内容进行整合加工，生成一段完整的 GPT 所需的 prompt 内容，提交 prompt 获取 AI 生成结果。

2.4 文章内容后期处理及润色

根据小红书平台特点，一般文末会有一些话题性 tag 标签以及部分提高文字生动表现力的表情。所以还需在生成的正文文末抽取 3 - 6 个 SEO 关键词以 #号的形式放在文章末尾，并在每个段落中适当添加 emoji 表情，最终合成完整的文章内容。

3 广告图片生成实践

3.1 主流图像生成技术

目前比较流行的图像生成模型/工具，主要有 DALL·E、Midjouney 和 Stable diffusion。

MidjourneyMidjourney 也是一款由人工智能驱动的工具，其能够根据用户的提示生成图像。MidJourney 善于适应实际的艺术风格，创造出用户想要的任何效果组合的图像。它擅长环境效果，特别是幻想和科幻场景，看起来就像游戏的艺术效果。
夜晚的云端城堡，电影般的画面 - 图片由 Midjourney 生成
DALL-EDALL-E 2 由 OpenAI 开发，它通过一段文本描述生成图像。其使用超过 100 亿个参数训练的 GPT-3 Transformer 模型，能够解释自然语言输入并生成相应的图像。DALL-E 2 主要由两部分组成——将用户输入转换为图像的表示（称为 Prior），然后是将这种表示转换为实际的照片（称为 Decoder）。
其中使用到的文本和图像嵌入来自另一个叫做 CLIP（对比语言-图像预训练）的网络，这也是由 OpenAI 研发的。CLIP 是一种神经网络，为输入的图像返回最佳的标题。它所做的事情与 DALL-E 2 所做的相反——它是将图像转换为文本，而 DALL-E 2 是将文本转换为图像。引入 CLIP 的目的是为了学习物体的视觉和文字表示之间的联系。DALL-E2 的工作是训练两个模型。第一个是 Prior，接受文本标签并创建 CLIP 图像嵌入。第二个是 Decoder，其接受 CLIP 图像嵌入并生成图像。模型训练完成之后，推理的流程如下：l 输入的文本被转化为使用神经网络的 CLIP 文本嵌入。l 使用主成分分析（Principal Component Analysis）降低文本嵌入的维度。l 使用文本嵌入创建图像嵌入。l 进入 Decoder 步骤后，扩散模型被用来将图像嵌入转化为图像。l 图像被从 64×64 放大到 256×256，最后使用卷积神经网络放大到 1024×1024
Stable DiffusionStable Diffusion 是一个文转图的模型，其使用了 CLIP ViT-L/14 文本编码器，能够通过文本提示调整模型。它在运行时将成像过程分离成“扩散（diffusion）”的过程——从有噪声的情况开始，逐渐改善图像，直到完全没有噪声，逐步接近所提供的文本描述。
DALL·E 2， Stable Diffusion 和 Midjourney 之间的比较 DALL-E 2 使用数以百万计的图片数据进行训练，其输出结果更加成熟，非常适合企业使用。当有两个以上的人物出现时，DALL-E 2 产生的图像要比 Midjourney 或 Stable Diffusion 好得多。而 Midjourney 则是一个以其艺术风格闻名的工具。Midjourney 使用其 Discord 机器人来发送以及接收对 AI 服务器的请求，几乎所有的事情都发生在 Discord 上。由此产生的图像很少看起来像照片，它似乎更像一幅画。Stable Diffusion 是一个开源的模型，人人都可以使用。它对当代艺术图像有比较好的理解，可以产生充满细节的艺术作品。然而它需要对复杂的 prompt 进行解释。Stable Diffusion 比较适合生成复杂的、有创意的插图。但在创作一般的图像时就显得存在些许不足。

3.2 广告图生成场景特点

与其它图像生成场景如文章配图不同，广告图本质是一种商品图，所以商品要 100%保真，SD（Stable diffusion）作为一种概率模型，在现阶段生成出的图像具有很大的不确定性，即商品基本无法保真。下图为 civitai 上截取的一张由 Lora 生成的车图，尽管已经质量已经很高，但如车标等细节出现了肉眼可见的失真。

3.3 技术选型

由于上述原因，我们放弃了基于 lora、hypernetworks 等方式微调 SD 模型的方案。转入研究基于 Inpaint(局部重绘）的技术方案。

局部重绘主要包括三种应用场景：前景消除，前景重绘，背景重绘。其中背景重绘正适用于广告图生成的场景，即提供场景描述提示词+包含商品的原图。

3.4 实现方案

整个流程分为以下三步：

4 应用

我们将 AIGC 和广告创意结合起来，与公司内部广告部门合作实践，该部门 30%的图片由 AIGC 生成，广告从接单到上线的全流程用时从原来的平均 4 天，减少到 4 个小时，同时制作成本大大降低，降本增效效果显著。

5 总结

本次实践着重于使用 AIGC 生成小红书文案和汽车类广告创意图片，实践证明 AIGC 可以有效的降低广告创意的制作周期和成本，在未来拥有广阔的前景。同时也要充分的意识到，目前的实践仅覆盖了广告创意中的一小部分场景，一些对质量要求非常高的场景目前尚无法解决。我们将持续探索出更优的方案，覆盖更多的广告创意场景。

发布于: 刚刚阅读数: 5

之家技术

关注

铸精品·释产能·启未来 2010-04-07 加入

汽车之家技术官方账号

发布

暂无评论

创作场景