深度学习应用篇 - 元学习 [15]：基于度量的元学习：SNAIL、RN、PN、MN

作者：汀丶人工智能

2023-06-15
浙江
本文字数：6565 字
阅读完需：约 22 分钟

深度学习应用篇-元学习[15]：基于度量的元学习：SNAIL、RN、PN、MN

1.Simple Neural Attentive Learner(SNAIL)

元学习可以被定义为一种序列到序列的问题，在现存的方法中，元学习器的瓶颈是如何去吸收同化利用过去的经验。注意力机制可以允许在历史中精准摘取某段具体的信息。

Simple Neural Attentive Learner (SNAIL) 组合时序卷积和 soft-attention，前者从过去的经验整合信息，后者精确查找到某些特殊的信息。

1.1 Preliminaries

1.1.1 时序卷积和 soft-attention

时序卷积 (TCN) 是有因果前后关系的，即在下一时间步生成的值仅仅受之前的时间步影响。TCN 可以提供更直接，高带宽的传递信息的方法，这允许它们基于一个固定大小的时序内容进行更复杂的计算。但是，随着序列长度的增加，卷积膨胀的尺度会随之指数增加，需要的层数也会随之对数增加。因此这种方法对于之前输入的访问更粗略，且他们的有限的能力和位置依赖并不适合元学习器，因为元学习器应该能够利用增长数量的经验，而不是随着经验的增加，性能会被受限。

soft-attention 可以实现从超长的序列内容中获取准确的特殊信息。它将上下文作为一种无序的关键值存储，这样就可以基于每个元素的内容进行查询。但是，位置依赖的缺乏（因为是无序的）也是一个缺点。

TCN 和 soft-attention 可以实现功能互补:前者提供高带宽的方法，代价是受限于上下文的大小，后者可以基于不确定的可能无限大的上下文提供精准的提取。因此，SNAIL 的构建使用二者的组合：使用时序卷积去处理用注意力机制提取过的内容。通过整合 TCN 和 attention，SNAIL 可以基于它过去的经验产出高带宽的处理方法且不再有经验数量的限制。通过在多个阶段使用注意力机制，端到端训练的 SNAIL 可以学习从收集到的信息中如何摘取自己需要的信息并学习一个恰当的表示。

1.1.2 Meta-Learning

在元学习中每个任务 $\mathcal{T}{i} $都是独立的，其输入为$ x{t} $，输出为$ a_{t} $，损失函数是$ \mathcal{L}{i}\left(x{t}, a_{t}\right) $，一个转移分布$ P_{i}\left(x_{t} \mid x_{t-1}, a_{t-1}\right) $，和一个输出长度$ H_i $。一个元学习器（由$ \theta$ 参数化）建模分布：

π (a_{t} ∣ x_{1}, \dots, x_{t}; θ)

给定一个任务的分布 $T = P (T_{i})$ ，元学习器的目标是最小化它的期待损失：

min θ E T i \sim T [\sum t = 0^{H_{i}} L i (x t, a_{t})] & where x_{t} \sim P_{i} (x_{t} ∣ x_{t - 1}, a_{t - 1}), a_{t} \sim π (a_{t} ∣ x_{1}, \dots, x_{t}; θ)

元学习器被训练去针对从 $T$ 中抽样出来的任务 (或一个 mini-batches 的任务) 优化这个期望损失。在测试阶段，元学习器在新任务分布 $T = P (T_{i})$ 上被评估。

1.2 SNAIL

1.2.1 SNAIL 基础结构

两个时序卷积层（橙色）和一个因果关系层（绿色）的组合是 SNAIL 的基础结构，如图 1 所示。在监督学习设置中，SNAIL 接收标注样本 $(x_{1}, y_{1}), \dots, (x_{t - 1}, y_{t - 1})$ 和末标注的 $(x_{t}, -)$ ，然后基于标注样本对 $y_{t}$ 进行预测。

图 1 SNAIL 基础结构示意图。

1.2.2 Modular Building Blocks

对于构建 SNAIL 使用了两个主要模块：Dense Block 和 Attention Block。

图 1 SNAIL 中的 Dense Block 和 Attention Block。(a) Dense Block 应用因果一维卷积，然后将输出连接到输入。TC Block 应用一系列膨胀率呈指数增长的 Dense Block。(b) Attention Block 执行(因果)键值查找，并将输出连接到输入。

Densen Block 用了一个简单的因果一维卷积（空洞卷积），其中膨胀率 (dilation)为 $R$ 和卷积核数量 $D$ （[1] 对于所有的实验中设置卷积核的大小为 2)，最后合并结果和输入。在计算结果的时候使用了一个门激活函数。具体算法如下:

function DENSENBLOCK (inuts, dilation rate $R$ , number of filers $D$ ):
xf, xg = CausalConv (inputs, $R$ , $D$ ), CausalConv (inputs, $R$ , $D$ )
activations = tanh (xf) * sigmoid (xg)
return concat (inputs, activations)

TC Block 由一系列 dense block 组成，这些 dense block 的膨胀率 $R$ 呈指数级增长，直到它们的接受域超过所需的序列长度。具体代码实现时，对序列是需要填充的为了保持序列长度不变。具体算法如下：

function TCBLOCK (inuts, sequence length $T$ , number of filers $D$ ):
for i in $1, \dots, [l o g_{2} T]$ do 1. inputs = DenseBlock (inputs, $2^{i}$ , $D$ )
return inputs

Attention Block[1] 中设计成 soft-attention 机制，公式为：

A t t e n t i o n (Q, K, V) = s o f t m a x (\frac{Q K ^{T}}{d _{k}}) V

function ATTENTIONBLOCK (inuts, key size $K$ , value size $V$ ):
keys, query = affine (inputs, $K$ ), affine (inputs, $K$ )
logits = matmul (query, transpose (keys))
probs = CausallyMaskedSoftmax ( $l o g i t s / K$ )
values = affine (inputs, $V$ )
read = matmul (probs, values)
return concat (inputs, read)

1.3 SNAIL 分类结果

参考文献

[1] A Simple Neural Attentive Meta-Learner

2.Relation Network(RN)

Relation Network (RN) 使用有监督度量学习估计样本点之间的距离，根据新样本点和过去样本点之间的距离远近，对新样本点进行分类。

2.1 RN

RN 包括两个组成部分：嵌入模块和关系模块，且两者都是通过有监督学习得到的。嵌入模块从输入数据中提取特征，关系模块根据特征计算任务之间的距离，判断任务之间的相似性，找到过去可借鉴的经验进行加权平均。RN 结构如图 1 所示。

图 1 RN 结构。

嵌入模块记为 $f_{φ}$ ，关系模块记为 $g_{ϕ}$ ，支持集中的样本记为 $\boldsymbol{x}{i} $，查询集中的样本记为$ \boldsymbol{x}{j}$。

r_{i, j} = g_{ϕ} (C (f_{φ} (x i), f φ (x_{j}))), i = 1, 2, . . ., C

2.2 RN 目标函数

ϕ, φ \leftarrow ϕ, φ ar g min i = 1 \sum m j = 1 \sum n (r_{i, j} - 1 (y i = = y j))^{2}

2.3 RN 网络结构

嵌入模块和关系模块的选取有很多种，包括卷积网络、残差网络等。

图 2 给出了 [1] 中使用的 RN 模型结构。

图 2 RN 模型结构。

2.3.1 嵌入模块结构

每个卷积块分别包含 64 个 3 $\times$ 3 滤波器进行卷积，一个归一化层、一个 ReLU 非线性层。
总共有四个卷积块，前两个卷积块包含 2 $\times$ 2 的最大池化层，后边两个卷积块没有池化层。

3.2 关系模块结构

有两个卷积块，每个卷积模块中都包含 2 $\times$ 2 的最大池化层。
两个全连接层，第一个全连接层是 ReLU 非线性变换，最后的全连接层使用 Sigmoid 非线性变换输出 $r_{i, j}$ 。

2.4 RN 分类结果

参考文献

[1] Learning to Compare: Relation Network for Few-Shot Learning

3.Prototypical Network(PN)

Prototypical Network (PN) 利用支持集中每个类别提供的少量样本，计算它们的嵌入中心，作为每一类样本的原型 (Prototype)，接着基于这些原型学习一个度量空间，使得新的样本通过计算自身嵌入与这些原型的距离实现最终的分类。

3.1 PN

在 few-shot 分类任务中，假设有 $N$ 个标记的样本 $S = (x_{1}, y_{1}), \dots, (x_{N}, y_{N})$ ，其中， $x_{i} \in$ $R^{D}$ 是 $D$ 维的样本特征向量， $y \in 1, \dots, K$ 是相应的标签。 $S_{K}$ 表示第 $k$ 类样本的集合。

PN 计算每个类的 $M$ 维原型向量 $c_{k} \in R^{M}$ ，计算的函数为 $f_{ϕ} : R^{D} \to R^{M}$ ，其中 $ϕ$ 为可学习参数。原型向量 $c_{k}$ 即为嵌入空间中该类的所有支持集样本点的均值向量

c_{k} = \frac{1}{∣ S _{K} ∣} (x_{i}, y_{i}) \in S_{K} \sum f_{ϕ} (x_{i})

给定一个距离函数 $d : R^{M} \times R^{M} \to [0, + \infty)$ ，不包含任何可训练的参数，PN 通过在嵌入空间中对距离进行 softmax 计算，得到一个针对 $x$ 的样本点的概率分布

p_{ϕ} (y = k ∣ x) = \frac{exp ( - d ( f _{ϕ} ( x ) , c _{k} ) )}{\sum _{k^{'}} exp ( - d ( f _{ϕ} ( x ) , c _{k^{'}} ) )}

新样本点的特征离类别中心点越近，新样本点属于这个类别的概率越高；新样本点的特征离类别中心点越远，新样本点属于这个类别的概率越低。

通过在 SGD 中最小化第 $k$ 类的负对数似然函数 $J (ϕ)$ 来推进学习

J (ϕ) = ϕ a r g m i n (k = 1 \sum K - lo g (p_{ϕ} (y = k ∣ x_{k})))

PN 示意图如图 1 所示。

图 1 PN 示意图。

3.2 PN 算法流程

Input: Training set $\mathcal{D}=\left{\left(\mathbf{x}{1}, y{1}\right), \ldots,\left(\mathbf{x}{N}, y{N}\right)\right} $, w h e r e e a c h$ y_{i} \in{1, \ldots, K} $.$ \mathcal{D}{k} $d e n o t e s t h e s u b s e t o f$ \mathcal{D} $c o n t a i n i n g a l l e l e m e n t s$ \left(\mathbf{x}{i}, y_{i}\right) $s u c h t h a t$ y_{i}=k$.

Output: The loss $J$ for a randomly generated training episode.

select class indices for episode: $V \leftarrow RANDOMSAMPLE (1, \dots, K, N_{C})$
for $k$ in $\left{1, \ldots, N_{C}\right}$ do
select support examples: $S_{k} \leftarrow \text { RANDOMSAMPLE }\left(\mathcal{D}{V{k}}, N_{S}\right)$
select query examples: $Q_{k} \leftarrow \text { RANDOMSAMPLE }\left(\mathcal{D}{V{k}} \backslash S_{k}, N_{Q}\right)$
compute prototype from support examples: $c_k \leftarrow \frac{1}{N_{C}} \sum_{\left(\mathbf{x}{i}, y{i}\right) \in S_{k}} f_{\phi}\left(\mathbf{x}_{i}\right)$
end for
$J \leftarrow 0$
for $k$ in $\left{1, \ldots, N_{C}\right}$ do
for $x, y$ in $Q_{k}$ do
update loss $\left.J \leftarrow J+\frac{1}{N_{C} N_{Q}}\left[d\left(f_{\phi}(\mathbf{x}), \mathbf{c}{k}\right)\right)+\log \sum{k^{\prime}} \exp \left(-d\left(f_{\phi}(\mathbf{x}), \mathbf{c}_{k^{\prime}}\right)\right)\right]$
end for
end for

其中，

$N$ 是训练集中的样本个数；
$K$ 是训练集中的类个数;
$N_{C} \leq K$ 是每个 episode 选出的类个数;
$N_{S}$ 是每类中 support set 的样本个数;
$N_{Q}$ 是每类中 query set 的样本个数;
$R A N D O M S A M P L E (S, N)$ 表示从集合 $S$ 中随机选出 $N$ 个元素。

3.3 PN 分类结果

表 1 PN 在 Omniglot 上的分类结果。

表 1 PN 在 miniImageNet 上的分类结果。

参考文献

[1] Prototypical Networks for Few-shot Learning

4.Matching Network(MN)

Matching Network (MN) 结合了度量学习 (Metric Learning) 与记忆增强神经网络 (Memory Augment Neural Networks)，并利用注意力机制与记忆机制加速学习，同时提出了 set-to-set 框架，使得 MN 能够为新类产生合理的测试标签，且不用网络做任何改变。

4.1 MN

将支持集 {S}(\hat{x}) $，给定一个测试样本$ \hat{x} $，$ c_{S}(\hat{x}) $定义一个关于输出$ \hat{y}$ 的概率分布，即

S \to c_{S} (\overset{x}{^}) : = P (\overset{y}{^} ∣ \overset{x}{^}, S)

其中， $P$ 被网络参数化。因此，当给定一个新的支持集 $S^{'}$ 进行小样本学习时，只需使用 $P$ 定义的网络来预测每个测试示例 $\overset{x}{^}$ 的适当标签分布 $P (\overset{y}{^} ∣ \overset{x}{^}, S^{'})$ 即可。

4.1.1 注意力机制

模型以最简单的形式计算 $\overset{y}{^}$ 上的概率：

P (\overset{y}{^} ∣ \overset{x}{^}, S) = i = 1 \sum k a (\overset{x}{^}, x_{i}) y_{i}

上式本质是将一个输入的新类描述为支持集中所有类的一个线性组合，结合了核密度估计 KDE（ $a$ 可以看做是一种核密度估计）和 KNN 。其中, $k$ 表示支持集中样本类别数, $a (\overset{x}{^}, x_{i})$ 是注意力机制，类似 attention 模型中的核函数，用来度量 $\overset{x}{^}$ 和训练样本 $x_{i}$ 的匹配度。

$a$ 的计算基于新样本数据与支持集中的样本数据的嵌入表示的余弦相似度以及 softmax 函数：

a (\overset{x}{^}, x_{i}) = \frac{e ^{c (f (\overset{x}{^}), g (x_{i}))}}{\sum _{j = 1}^{k} e ^{c (f (\overset{x}{^}), g (x_{j}))}}

其中， $c (\cdot)$ 表示余弦相似度， $f$ 与 $g$ 表示施加在测试样本与训练样本上的嵌入函数 (Embedding Function)。

如果注意力机制是 $X \times X$ 上的核，则上式类似于核密度估计器。如果选取合适的距离度量以及适当的常数，从而使得从 $x_{i}$ 到 $\overset{x}{^}$ 的注意力机制为 0 ，则上式等价于 KNN 。

图 1 是 MN 的网络结构示意图。

图 1 MN 示意图。

4.1.2 Full Context Embeddings

为了增强样本嵌入的匹配度，[1] 提出了 Full Context Embeeding (FCE) 方法：支持集中每个样本的嵌入应该是相互独立的，而新样本的嵌入应该受支持集样本数据分布的调控，其嵌入过程需要放在整个支持集环境下进行，因此 [1] 采用带有注意力的 LSTM 网络对新样本进行嵌入。

在对余弦注意力定义时，每个已知标签的输入 $x_{i}$ 通过 CNN 后的 embedding ，因此 $g (x_{i})$ 是独立的，前后没有关系，然后与 $f (\overset{x}{^})$ 进行逐个对比，并没有考虑到输入任务 $S$ 改变 embedding $\overset{x}{^}$ 的方式，而 $f (\cdot)$ 应该是受 $g (S)$ 影响的。为了实现这个功能，[1] 采用了双向 LSTM 。

在通过嵌入函数 $f$ 和 $g$ 处理后，输出再次经过循环神经网络进一步加强 context 和个体之间的关系。

f (\overset{x}{^}, S) = a t t L S T M (f^{'} (\overset{x}{^}), g (S), K)

其中， $S$ 是相关的上下文， $K$ 为网络的 timesteps 。

因此，经过 $k$ 步后的状态为:

\hat{h} k, c k = L S T M (f^{'} (\overset{x}{^}), [h_{k - 1}, r_{k - 1}], c_{k - 1}) & h_{k} = \hat{h} k + f^{'} (\overset{x}{^}) & r k - 1 = i = 1 \sum ∣ S ∣ a (h_{k - 1}, g (x_{i})) g (x_{i}) & a (h_{k - 1}, g (x_{i})) = e^{h_{k - 1}^{T} g (x_{i})} / j = 1 \sum ∣ S ∣ e^{h_{k - 1}^{T} g (x_{j})}

4.2 网络结构

特征提取器可采用常见的 VGG 或 Inception 网络，[1] 设计了一种简单的四级网络结构用于图像分类任务的特征提取，每级网络由一个 64 通道的 3 $\times$ 3 卷积层，一个批规范化层，一个 ReLU 激活层和一个 2 $\times$ 2 的最大池化层构成。然后将最后一层输出的特征输入到 LSTM 网络中得到最终的特征映射 $f (\overset{x}{^}, S)$ 和 $g (x_{i}, S)$ 。

4.3 损失函数

θ = ar g max θ E L \sim T ⎣ ⎢ ⎡ E_{S \sim L, B \sim L} ⎣ ⎢ ⎡ (x, y) \in B \sum lo g P_{θ} (y ∣ x, S) ⎦ ⎥ ⎤ ⎦ ⎥ ⎤

4.4 MN 算法流程

将任务 $S$ 中所有图片 $x_{i}$ （假设有 $K$ 个)和目标图片 $\overset{x}{^}$ （假设有 1 个)全部通过 CNN 网络，获得它们的浅层变量表示。
将（ $K + 1$ 个）浅层变量全部输入到 BiLSTM 中，获得 $K + 1$ 个输出，然后使用余弦距离判断前 $K$ 个输出中每个输出与最后一个输出之间的相似度。
根据计算出来的相似度，按照任务 $S$ 中的标签信息 $y_{1}, y_{2}, \dots, y_{K}$ 求解目标图片 $\overset{x}{^}$ 的类别标签 $\overset{y}{^}$ 。

4.5 MN 分类结果

表 1 MN 在 Omniglot 上的分类结果。

表 1 MN 在 miniImageNet 上的分类结果。

4.6 创新点

采用匹配的形式实现小样本分类任务，引入最近邻算法的思想解决了深度学习算法在小样本的条件下无法充分优化参数而导致的过拟合问题，且利用带有注意力机制和记忆模块的网络解决了普通最近邻算法过度依赖度量函数的问题，将样本的特征信息映射到更高维度更抽象的特征空间中。
one-shot learning 的训练策略，一个训练任务中包含支持集和 Batch 样本。

4.7 算法评价

MN 受到非参量化算法的限制，随着支持集 $S$ 的增长，每次迭代的计算量也会随之快速增长，导致计算速度降低。
在测试时必须提供包含目标样本类别在内的支持集，否则它只能从支持集所包含的类别中选择最为接近的一个输出其类别，而不能输出正确的类别。

参考文献

[1] Matching Networks for One Shot Learning

更多优质内容请关注公号：汀丶人工智能

发布于: 刚刚阅读数: 5

原文链接:【http://xie.infoq.cn/article/e7950d9bdb5fe36bfd9306f4a】。

汀丶人工智能

关注

本博客将不定期更新关于NLP等领域相关知识 2022-01-06 加入

本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识，以及分享自己学习到的知识技能，感谢大家关注！

发布

暂无评论

创作场景