从头开始（概率）学 HMM：精讲第二课 - 学习问题（BW 算法）

herosunly

关注

发布于: 刚刚

1. 简述

隐马尔可夫的学习问题，根据训练数据只有观测序列还是包含观测序列和状态序列，可以分别非监督学习与监督学习。

2. 监督学习方法

假设已知训练数据包含 S 个长度相同的观测序列和对应的状态序列 $(O_{1}, I_{1}), . . ., (O_{s}, I_{s})$ ，那么可以利用极大似然估计来估计隐马尔可夫的模型参数

转移概率 $a_{i j}$ 的估计：设样本时刻 t 处于状态 i 时刻 t+1 处于状态 j 的频数为 $A_{i j}$ ，那么状态转移概率 $a_{i j}$ 的估计是： $\overset{a}{^}_{i j} = \frac{A _{i j}}{j = 1 \sum N A _{i j}}$
观测概率 $b_{j} (k)$ 的估计：设样本中状态为 j 并观测为 k 的频数为 $B_{j k}$ ，那么状态为 j 观测为 k 的概率 $b_{j} (k)$ 的估计是 $\hat{b}_{j} (k) = \frac{B _{j k}}{k = 1 \sum M B _{j k}}$
初始状态概率 $π$ 的估计： $\overset{π}{^}$ 为 S 个样本中初始状态为 $q_{i}$ 的频率。

由于监督学习需要使用训练数据，而人工标注训练数据的代价很高，因此经常会适用非监督学习的方法

3. 非监督学习：Baum-Welch 算法

Baum-Welch 算法简称 BW 算法，其核心是 EM 算法，因此本章需要具有 EM 知识。不过现在还不用掌握 EM，讲述过程中会说明何时去学 EM。

假设给定训练数据只包含 S 个长度为 T 的观测序列 $O_{1}, O_{2}, . . . O_{s}$ ，而没有对应的状态序列，目标是学习隐马尔可夫模型的 $λ = (A, B, π)$ 。用 O 表示观测序列，用 I 表示状态序列。隐马尔可夫模型事实上是一个含有隐变量的概率模型：

P (O ∣ λ) = I \sum P (O, I ∣ λ) = I \sum P (O ∣ I, λ) P (I ∣ λ)

使用 EM 算法解决上述问题的步骤如下（暂时可先不掌握 EM）：
第一步：确定完全数据的对数似然函数
观测数据 $O = (o_{1}, o_{2}, . . ., o_{T})$ ，隐藏数据 $i_{1}, i_{2}, . . ., i_{T}$ ，完全数据 $(o_{1}, o_{2}, . . ., o_{T}, i_{1}, i_{2}, . . ., i_{T})$ 。完全数据的对数似然函数是 $l o g P (O, I ∣ λ)$ 。如何理解对数似然函数的由来：
变量 $o_{1}, o_{2}, . . ., o_{T}, i_{1}, i_{2}, . . ., i_{T}$ 的联合概率函数为 $p (o_{1}, o_{2}, . . ., o_{T}, i_{1}, i_{2}, . . ., i_{T})$
极大似然函数说白了就是联合概率函数，只是我们在计算参数时，会把样本变量带进去。现在 $o_{1}, o_{2}, . . ., o_{T}, i_{1}, i_{2}, . . ., i_{T}$ 的联合概率函数为 $p (o_{1}, o_{2}, . . ., o_{T}, i_{1}, i_{2}, . . ., i_{T}) = P (O, I ∣ λ)$ ，因此完全数据的极大似然函数为 $P (O, I ∣ λ)$
第二步：EM 算法的 E 步：求 Q 函数 $Q (λ, \overline{λ})$
到此也可以先不用管什么是 EM，先按照我们的流程走下去，至于什么是 Q 函数，怎么得来的，后面讲 EM 会详细说明。这里就先记住有 Q 函数及其公式表达。
Q 函数中的 $λ$ 就是我们要求的参数 $λ$ ，Q 函数中的 $\overline{λ}$ 是利用了迭代的思想。就像梯度下降一样，在第 i 步的时候，我们可以得到参数的一个估计值，然后求导，更新 i+1 步的参数值。这里的 $\overline{λ}$ 就是第 i 步（或者说当前步骤）参数 $λ$ 的估计值，因此 $\overline{λ}$ 是已知量。
$Q = (λ, \overline{λ}) = I \sum l o g P (O, I ∣ λ) P (O, I ∣ \overline{λ})$ 。Q 函数定义如此，至于为什么这么定义，后续可在 EM 讲解时了解。
$P (O, I ∣ λ) = π_{i_{1}} b_{i_{1}} (o_{1}) a_{i_{1} i_{2}} b_{i_{2}} (o_{2}) . . . a_{i_{T - 1} i_{T}}$ ①，推导见下：

P (O, I ∣ λ) = P (o_{1}, o_{2}, . . ., o_{T}, i_{T}, i_{T - 1}, . . . i_{1}, λ) = P (o_{1} ∣ o_{2}, . . ., o_{T}, i_{T}, i_{T - 1}, . . . i_{1}, λ) P (o_{2} ∣ o_{3}, . . ., o_{T}, i_{T}, i_{T - 1}, . . . i_{1}, λ) . . . . P (o_{T} ∣ i_{T}, i_{T - 1}, . . . i_{1}, λ) P (i_{T} ∣ i_{T - 1}, . . . i_{1}, λ) P (i_{T - 1} ∣ i_{T - 2} . . . i_{1}, λ) . . . P (i_{1} ∣ λ) = P (o_{1} ∣ i_{1}) P (o_{2} ∣ i_{2}) . . . P (o_{T} ∣ i_{T}) P (i_{T} ∣ i_{T - 1}) P (i_{T - 2} ∣ i_{T - 1}) . . . P (i_{1}) = b_{i_{1}} (o_{1}) b_{i_{2}} (o_{2}) . . . b_{i_{T}} (o_{T}) a_{i_{T - 1} i_{T}} a_{i_{T - 2} i_{T - 1}} . . . π_{i_{1}}

于是

Q = (λ, \overline{λ}) = I \sum l o g P (O, I ∣ λ) P (O, I ∣ \overline{λ}) = I \sum l o g π_{i_{1}} P (O, I ∣ \overline{λ}) + I \sum (t = 1 \sum T - 1 l o g a_{i_{t} i_{t + 1}}) P (O, I ∣ \overline{λ}) + I \sum (t = 1 \sum T l o g b_{i_{t}} (o_{t})) P (O, I ∣ \overline{λ})

第三步：EM 算法的 M 步：极大化 Q 函数求模型参数 $λ = (A, B, π)$ ，在已知某一步，如第 t 步 $\overline{λ}$ 值的情况下，最大化包含 $λ$ 的 Q 函数，得到 $λ$ 的估计值，相当于得到 t+1 的 $\overline{λ}$ 取值。由于要极大化的参数 $(A, B, π)$ 在式 ①中单独地出现在 3 个项中，所以只需要对各项分别最大化。
式 ①的第一项（含有 $π$ ）可以写成：

I \sum l o g π_{i 1} P (O, I ∣ \overline{λ}) = i = 1 \sum N l o g π_{i} P (O, i_{1} = i ∣ \overline{λ})

注意到 $π_{i}$ 满足约束条件 $i = 1 \sum T = 1$ ，利用拉格朗日乘子法，写出拉格朗日函数：

对其求偏导，并令结果为 0：

得到：

对 i 求和得到 gamma：

带入公式，得到：

至于 $P (O, i - 1 = i ∣ λ)$ 是什么，本章最后的小结进行说明，下述求 A、B 的亦同。

式①的第二项，仅含有 A，与求 $\pi$的方法类似：

第四步：上述过程求得了第 t+1 步 $\overline{λ}$ 的取值，因此可以根据前述方法继续求得第 t+2 步的 $\overline{λ}$
第五步：终止条件：

- 方式 1：指定一共要递推多少步，如 n+1 步，因此在 n+1 步确定模型参数 $λ^{n + 1} = (π^{n + 1}, A^{n + 1}, B^{n + 1})$

- 对较小的正数 $ϵ_{1}, ϵ_{2}$ ，若满足 $∣ ∣ λ^{t + 1} - λ^{t} ∣ ∣ \leq ϵ_{1}$ 的含义在 EM 算法中有详细讲述，到此时，我们可以回过头看 EM 算法了，看看为什么该问题能转化成 Q 函数，Q 函数如何得到等。详见后续的 EM 算法详解。不过还是建议大家看完最后的总结。

4. 总结

- 上述其实还遗留了一个问题，即 t+1 步，得到的 $λ$ 估计值仍然带有概率的形式，这里我们定义：

- $π_{i} = \frac{P ( O , i _{1} = i ∣ λ )}{P ( O ∣ λ )} = γ_{1} (i)$ ，详见后续的前后向算法。

- $a_{i j} = \frac{t = 1 \sum T - 1 P ( O , i _{t} = i , i _{t + 1} = j ∣ λ )}{t = 1 \sum T - 1 P ( O , i _{t} = i ∣ λ )} = \frac{t = 1 \sum T - 1 ξ _{t} ( i , j )}{t = 1 \sum T - 1 γ _{t} ( i )}$ ， $ξ_{t} (i, j)$ 和 $γ_{t} (i)$ 详见前后向算法中的概率与期望值部分

- $b_{j} (k) = \frac{t = 1 \sum T P ( O , i _{t} = j ∣ λ ) I ( o _{t} = v _{k} )}{t = 1 \sum T P ( O , i _{t} = j ∣ λ )} = \frac{t = 1 , o _{t} = v _{k} \sum T γ _{t} ( j )}{t = 1 \sum T γ _{t} ( j )}$ ， $γ_{t} (j)$ 详见前后向算法中的概率与期望值部分。

发布于: 刚刚阅读数: 2

原文链接:【http://xie.infoq.cn/article/b94b7fedcf6566eeb12da0c6c】。

herosunly

关注

还未添加个人签名 2018.05.11 加入

还未添加个人简介

发布

暂无评论

创作场景

从头开始（概率）学 HMM：精讲第二课 - 学习问题（BW 算法）

1. 简述

2. 监督学习方法

3. 非监督学习：Baum-Welch 算法

4. 总结

herosunly

评论