解密注意力机制：为什么 Flash Attention 这么屌？

2025-03-05
福建
本文字数：4658 字
阅读完需：约 15 分钟

背景回顾：什么是大语言模型（LLM）？

在进入注意力机制的细节之前，我们先了解一下什么是大语言模型（LLM）。简单来说，LLM 是一种通过深度学习技术训练的大规模神经网络模型，用于处理和生成自然语言。LLM 可以应用于各种任务，如文本生成、机器翻译、问答系统等。LLM 之所以能够如此强大，离不开其庞大的参数量和复杂的架构。编码器（Encoder）和解码器（Decoder）是 LLM 的两个核心组件，它们分别处理输入数据和生成输出。在此基础上，注意力机制的引入进一步提升了 LLM 的性能和表达能力。

编码和解码的基础概念

在大型语言模型中，编码器（Encoder）和解码器（Decoder）是两个核心组件，它们分别处理输入数据和生成输出。通常来说，LLM 中的编码器和解码器使用 Transformer 架构，以下是它们的基本概念：

编码器（Encoder）

作用：编码器负责将输入序列（例如，一段文本）转换为一种可以被解码器理解的内部表示形式。它通过多层神经网络处理输入数据，使模型能够捕捉上下文和词与词之间的关系。应用阶段：输入编码阶段。在这个阶段，注意力机制帮助模型理解输入序列的每个词的重要性，以及它们之间的关系，从而更好地捕捉上下文信息，理解句子的含义。

解码器（Decoder）

作用：解码器从编码器生成的内部表示形式中生成输出序列（例如，翻译后的文本）。解码器在生成每个输出词时，都会参考输入序列和已经生成的部分输出序列。应用阶段：输出生成阶段。在生成输出时，注意力机制帮助模型重点关注输入序列中的关键部分，从而生成高质量、连贯的输出。通过理解编码器和解码器的作用，读者可以更好地理解注意力机制在大型语言模型中的关键作用。

注意力机制应用阶段和意义

输入编码阶段（Input Encoding）：在这个阶段，注意力机制帮助模型理解输入序列的每个词的重要性，以及它们之间的关系。通过计算每个词的注意力权重，模型能够更好地捕捉上下文信息，理解句子的含义。中间层（Intermediate Layers）：在大语言模型的各个中间层，注意力机制起到了全局信息传递和整合的作用。自注意力机制使得每个词能够“看到”整个输入序列中的其他词，从而更全面地理解上下文。这在处理长序列数据时尤为重要，因为模型需要捕捉远距离词之间的依赖关系。输出生成阶段（Output Generation）：在生成输出时，注意力机制帮助模型重点关注输入序列中的关键部分，从而生成高质量、连贯的输出。这对于机器翻译、文本生成等任务尤为重要。例如，在机器翻译中，模型需要根据源语言句子的不同部分生成目标语言的翻译，而注意力机制正是实现这一点的关键。

各种注意力机制及其优缺点和历史背景

加性注意力（Additive Attention）

加性注意力就像你在写一篇文章时挑选最相关的参考资料。它不仅计算精准，还适用于不同维度的查询和键。但有时候，它会显得有些慢热。它由 Bahdanau 等人在 2014 年提出，开启了神经机器翻译的新时代。

乘性注意力（Scaled Dot-Product Attention）

乘性注意力就像你在观看一场激烈的篮球比赛，只关注场上最出色的球员。计算效率超高，但要注意适时地缩放得分，以免陷入梯度消失或爆炸的泥潭。Vaswani 等人在 2017 年将其引入 Transformer 模型，使其迅速成为主流选择。

自注意力（Self-Attention）

自注意力犹如你在回忆一次难忘的旅行，每个细节都在你脑海中浮现。它能捕捉全局上下文信息，但对内存和计算资源的需求不容小觑。同样由 Vaswani 等人在 2017 年提出，自注意力成为了 Transformer 的核心。

多头注意力（Multi-Head Attention）

多头注意力就像你在组织一场盛大的派对，需要同时关注不同的细节。它增强了模型的表达能力，但计算复杂度也随之上升。同样由 Vaswani 等人在 2017 年提出，多头注意力让模型具备了多任务处理的超能力。

Flash Attention

Flash Attention 是注意力机制中的超级英雄，它能迅速找到关键信息，且内存利用效率高。虽然实现起来有些复杂，但它依赖底层硬件优化，使得计算速度飞快。这种机制旨在解决传统注意力机制在处理长序列时的性能瓶颈。

嵌入维度的选择

选择嵌入维度就像给模型挑选一副合适的眼镜。它决定了模型能看到多细致的语义信息。嵌入维度越高，模型的表现力越强，但计算负担也会增加。反之，较低的嵌入维度计算更快，但可能无法捕捉复杂的语义关系。这个重要的设计决策需要根据具体任务和数据特点进行权衡和优化。一个具体的例子：向量化过程假设我们有一句话：“我和同桌约好了明天在他家玩游戏。”1. 词嵌入（Word Embedding）首先，句子中的每个词会被转换为一个固定长度的向量。例如，假设我们选择嵌入维度为 4：

"我" -> [0.1, 0.2, 0.3, 0.4]"和" -> [0.5, 0.6, 0.7, 0.8]"同桌" -> [0.9, 1.0, 1.1, 1.2]"约好" -> [1.3, 1.4, 1.5, 1.6]"了" -> [1.7, 1.8, 1.9, 2.0]"明天" -> [2.1, 2.2, 2.3, 2.4]"在" -> [2.5, 2.6, 2.7, 2.8]"他家" -> [2.9, 3.0, 3.1, 3.2]"玩" -> [3.3, 3.4, 3.5, 3.6]"游戏" -> [3.7, 3.8, 3.9, 4.0]

复制代码

这些向量捕捉了每个词的语义信息。2. 位置编码（Positional Encoding）由于句子中的词序很重要，我们需要将位置信息加入向量表示中。假设位置编码向量如下：

位置1 -> [0.01, 0.02, 0.03, 0.04]位置2 -> [0.05, 0.06, 0.07, 0.08]...

复制代码

我们将词嵌入向量和位置编码向量相加，得到新的词向量：

"我" -> [0.1+0.01, 0.2+0.02, 0.3+0.03, 0.4+0.04] -> [0.11, 0.22, 0.33, 0.44]"和" -> [0.5+0.05, 0.6+0.06, 0.7+0.07, 0.8+0.08] -> [0.55, 0.66, 0.77, 0.88]...

复制代码

3. 多头注意力（Multi-Head Attention）在多头注意力机制中，我们将向量分为多个子空间（head），并在每个子空间上并行计算注意力。

例如，我们使用三个例如，我们使用三个子空间来演示：Head 1：计算查询（Query）和键（Key）的点积并缩放，生成注意力权重，然后对值（Value）进行加权求和。Head 2：重复上述过程，但在另一个子空间中进行。Head 3：再次重复上述过程。假设每个子空间计算出的注意力权重如下：

Head 1:"我" -> 0.3, "和" -> 0.2, "同桌" -> 0.4, ...
Head 2:"我" -> 0.1, "和" -> 0.5, "同桌" -> 0.3, ...
Head 3:"我" -> 0.4, "和" -> 0.3, "同桌" -> 0.1, ...

复制代码

每个子空间的加权求和结果如下：

Head 1:"我" -> [0.11*0.3, 0.22*0.2, 0.33*0.4, 0.44*0.1] -> [0.033, 0.044, 0.132, 0.044]
Head 2:"我" -> [0.11*0.1, 0.22*0.5, 0.33*0.3, 0.44*0.1] -> [0.011, 0.11, 0.099, 0.044]
Head 3:"我" -> [0.11*0.4, 0.22*0.3, 0.33*0.1, 0.44*0.2] -> [0.044, 0.066, 0.033, 0.088]

复制代码

最后，我们将所有子空间的结果拼接在一起，得到最终的向量表示：

"我" -> [0.033, 0.044, 0.132, 0.044, 0.011, 0.11, 0.099, 0.044, 0.044, 0.066, 0.033, 0.088]

复制代码

这种多头注意力机制使得模型能够同时关注输入数据的不同方面，从而增强模型的表达能力。

注意力机制的演变和发展

让我们进一步了解一下注意力机制的发展历史及其创新点：

加性注意力（Additive Attention）

提出时间：2014 年发明者：Bahdanau 等人背景：在神经机器翻译任务中，加性注意力首次被引入，旨在解决传统编码器-解码器模型无法捕捉长序列依赖的问题。创新点：加性注意力通过计算查询（Query）和键（Key）之间的加性关系来获得权重，从而更加稳定地处理不同维度的数据。

乘性注意力（Scaled Dot-Product Attention）

提出时间：2017 年发明者：Vaswani 等人背景：在 Transformer 模型中，乘性注意力被广泛应用，用于提高计算效率和模型性能。创新点：乘性注意力通过计算查询和键的点积得分，并进行缩放，以避免梯度消失或爆炸的问题。

自注意力（Self-Attention）

提出时间：2017 年发明者：Vaswani 等人背景：自注意力机制是 Transformer 模型的核心，能够在全局范围内捕捉输入数据中的上下文信息。创新点：自注意力允许每个词与输入序列中的其他词进行关联，从而更全面地理解上下文。

多头注意力（Multi-Head Attention）

提出时间：2017 年发明者：Vaswani 等人背景：在 Transformer 模型中，多头注意力被引入以增强模型的表达能力和多任务处理能力。创新点：多头注意力通过在多个子空间上并行计算注意力，使模型能够同时关注输入数据的不同方面。

Flash Attention

提出时间：2024 年创新点：Flash Attention 通过利用底层硬件优化和分块处理技术，提高了计算速度和内存效率，解决了传统注意力机制在处理长序列时的性能瓶颈。注意力机制的实际应用注意力机制在各种自然语言处理任务中发挥了重要作用，以下是几个常见应用：

1. 机器翻译（Machine Translation）

应用场景：将一种语言的文本翻译成另一种语言。实现方式：通过注意力机制，模型能够根据源语言句子的不同部分生成目标语言的翻译，从而提高翻译质量。

2. 文本生成（Text Generation）

应用场景：生成自然流畅的文本，例如诗歌、小说、对话等。实现方式：注意力机制帮助模型重点关注输入序列中的关键部分，从而生成高质量、连贯的输出。

3. 语音识别（Speech Recognition）

应用场景：将语音信号转换为文本。实现方式：通过注意力机制，模型能够在长时间的音频信号中识别出重要的语音特征，从而提高识别准确性。

4. 图像描述（Image Captioning）

应用场景：为图像生成描述性文字。实现方式：注意力机制帮助模型关注图像中的关键区域，从而生成准确的描述。

多头注意力机制在句子向量化中的应用图示

                      +-------------------------+                      | 输入句子：              |                      | "我和同桌约好了明天在他家玩游戏"  |                      +-------------------------+                                |                                v                  +--------------------------------+                  | 词嵌入（Word Embedding）       |                  | 每个词转换为固定长度的向量     |                  +--------------------------------+                                |                                v                  +--------------------------------+                  | 位置编码（Positional Encoding）|                  | 加入位置信息的词向量           |                  +--------------------------------+                                |                                v                  +---------------------------+                  | 多头注意力（Multi-Head Attention）  |                  | 多个子空间并行计算注意力    |                  +---------------------------+                                |                                v                  +--------------------------------------+                  | 最终向量表示                       |                  | 每个词的向量结合多个注意力头的结果 |                  +--------------------------------------+

复制代码

转载出处：https://www.cnblogs.com/hyb1/p/18745123

行业拓展

分享一个面向研发人群使用的前后端分离的低代码软件——JNPF，适配国产化，支持主流数据库和操作系统。

提供五十几种高频预制组件，包括表格、图表、列表、容器、表单等，内置常用的后台管理系统使用场景和基本需求，配置了流程引擎、表单引擎、报表引擎、图表引擎、接口引擎、门户引擎、组织用户引擎等可视化功能引擎，超过数百种功能控件以及大量实用模板，使得在拖拉拽的简单操作下，也能完成开发。

对于工程师来说，灵活的使用高质量预制组件可以极大的节省时间，将更多精力花费在更有创造性和建设性的代码上。

发布于: 刚刚阅读数: 4

伤感汤姆布利柏

关注

还未添加个人签名 2023-06-19 加入

还未添加个人简介

发布

暂无评论

创作场景

解密注意力机制：为什么 Flash Attention 这么屌？

背景回顾：什么是大语言模型（LLM）？

编码和解码的基础概念

编码器（Encoder）

解码器（Decoder）

注意力机制应用阶段和意义

各种注意力机制及其优缺点和历史背景

加性注意力（Additive Attention）

乘性注意力（Scaled Dot-Product Attention）

自注意力（Self-Attention）

多头注意力（Multi-Head Attention）

Flash Attention

嵌入维度的选择

注意力机制的演变和发展

加性注意力（Additive Attention）

乘性注意力（Scaled Dot-Product Attention）

自注意力（Self-Attention）

多头注意力（Multi-Head Attention）

Flash Attention

1. 机器翻译（Machine Translation）

2. 文本生成（Text Generation）

3. 语音识别（Speech Recognition）

4. 图像描述（Image Captioning）

多头注意力机制在句子向量化中的应用图示

行业拓展

伤感汤姆布利柏

评论