TiDB v5.1 体验: 我用 TiDB 训练了一个机器学习模型
TiDB v5.1 体验: 我用 TiDB 训练了一个机器学习模型
【是否原创】是
简介
本文介绍如何在 TiDB 中使用纯 SQL 训练一个机器学习模型
前言
众所周知,TiDB 5.1 版本增加了很多新特性,其中有一个特性,即 ANSI SQL 99 标准中的 Common Table Expression (CTE)。一般地,CTE 可以被用作一个 Statement 作用域临时的 View,将一个复杂的 SQL 解耦,提高开发效率。但是,CTE 还有一个重要的使用方式,即 Recursive CTE,允许 CTE 引用自身,这是完善 SQL 功能的最后一块核心的拼图。在 StackOverflow 中有过这样一个讨论,
Is SQL or even TSQL Turing Complete?,其中点赞最多的回复中提到这样一句话:
In this set of slides Andrew Gierth proves that with CTE and Windowing SQL is Turing Complete, by constructing a cyclic tag system, which has been proved to be Turing Complete. The CTE feature is the important part however – it allows you to create named sub-expressions that can refer to themselves, and thereby recursively solve problems.
即 CTE 和 Window Function 甚至使得 SQL 成为一个图灵完备的语言。
而这又让我想起来多年前看到过的一篇文章 Deep Neural Network implemented in pure SQL over BigQuery,作者使用纯 SQL 来实现了一个 DNN 模型,但是打开 repo 后发现,他竟然是标题党!实际上他还是使用了 Python 来实现迭代训练。
因此,既然 Recursive CTE 给了我们 “迭代” 的能力,这让我想挑战一下,能否在 TiDB 中 使用纯 SQL 实现机器学习模型的训练、推理 。
Iris Dataset
首先要选择一个简单的机器学习模型和任务,我们先尝试 sklearn 中的入门数据集 iris dataset。这个数据集共包含 3 类共 150 条记录,每类各 50 个数据,每条记录都有 4 项特征:花萼长度、花萼宽度、花瓣长度、花瓣宽度,可以通过这 4 个特征预测鸢尾花卉属于(iris-setosa, iris-versicolour, iris-virginica)中的哪一品种。
当下载好数据后(已经是 CSV 格式),我们先将数据导入到 TiDB 中。
Softmax Logistic Regression
这里我们选择一个简单的机器学习模型 —— Softmax 逻辑回归,来实现多分类。
以下的图与介绍均来自百度百科
在 Softmax 回归中将 x 分类为类别 y 的概率为:
代价函数为:
可以求得梯度:
因此可以通过梯度下降方法,每次更新梯度:
Model Inference
我们先写一个 SQL 来实现 Inference,根据上面定义的模型和数据,输入的数据 X 共有五维(sl, sw, pl, pw 以及一个常数 1.0),输出使用 one-hot 编码。
参数共有 3 类 *5 维 =15 个:
先全部初始化为 0.1,0.2,0.3(这里选择不同的数字是为了方便演示,也可以全部初始化为 0.1):
下面我们写一个 SQL 来统计对所有的 Data 进行 Inference 后结果的准确率。
为了方便理解,我们先给一个伪代码描述这个过程:
在上述代码中,我们对 Data 中的每一行元素进行计算,首先求三个向量点乘的 exp,然后求 softmax,最后选择 p0, p1, p2 中最大的为 1,其余为 0,这样就完成了一个样本的 Inference。如果一个样本最后 Inference 的结果与它本来的分类一致,那就是一次正确的预测,最后我们对所有样本中正确的数量求和,即可得到最后的正确率。
下面给出 SQL 的实现, 我们选择把 data 中的每一行数据都和 weight (只有一行数据) join 起来,然后计算每一行数据的 Inference 结果,再对正确的样本数量求和:
可以看到上述 SQL 几乎是按步骤实现了上述伪代码的计算过程,得到结果:
下面我们就对模型的参数进行学习。
Model Training
Notice:这里为了简化问题,不考虑“训练集”、“验证集”等问题,只使用全部的数据进行训练。
我们还是先给出一个伪代码,然后根据伪代码写出一个 SQL:
看上去比较繁琐,因为我们这里选择把 sum, w 等向量给手动展开。
接着我们开始写 SQL 训练,我们先写只有一次迭代的 SQL:
设置学习率和样本数量
迭代一次:
得到的结果是一次迭代后的模型参数:
下面就是核心部分,我们使用 Recursive CTE 来进行迭代训练:
核心的思路是,每次迭代的输入都是上一次迭代的结果,然后我们再加一个递增的迭代变量来控制迭代次数,大体的架构:
接着,我们把一次迭代的 SQL 和这个迭代的框架结合起来 (为了提高计算精度,在中间结果里加入了一些类型转换):
这个版本和上面迭代一次的版本的区别在于两点:
在 data join weight 后,我们增加一个
where iter < @num_iterations
用于控制迭代次数,并且在最后的输出中增加了一列iter + 1 as iter
最后我们还增加了
having count(*) > 0
,避免当最后没有输入数据时,aggregation 还是会输出数据,导致迭代不能结束。
然后我们得到结果:
啊这…recursive cte 竟然不允许在 recursive part 里有子查询!不过把上面的子查询全部都合并到一起也不是不可以,那我手动合并一下,然后再试一下:
!!!!不允许子查询我可以手动改 SQL,但是不允许用 aggregate function 我是真的没办法了!
在这里我们只能宣布挑战失…诶,为啥我不能去改一下 TiDB 的实现呢?
根据 proposal 中的介绍,recursive CTE 的实现并没有脱离 TiDB 基本的执行框架,资讯了 @wjhuang2016 之后,得知之所以不允许使用子查询和 aggregate function 的原因应该有两点:
MySQL 也不允许
如果允许的话,有很多的 corner case 需要处理,非常的复杂
但是这里我们只是需要试验一下功能,暂时把这个 check 给删除掉也未尝不可,diff 里删除了对子查询和 aggregation function 的检查。
下面我们再次执行一遍:
成功了! 我们得到了迭代 1000 次后的参数!
下面我们用新的参数来重新计算正确率:
这次正确率到达了 98%。
Conclusion
我们这次成功使用纯 SQL 在 TiDB 中训练了一个 Softmax logistic regression model,主要利用了 TiDB v5.1 版本的 Recursive CTE 功能。在测试的过程中,我们发现了目前 TiDB 的 Recursive CTE 不允许存在 subquery 和 aggregate function,我们简单修改了 TiDB 的代码,绕过了这个限制,最终成功训练出了一个模型,并在 iris dataset 上得到了 98% 的准确率。
Discussion
经过一些测试后,发现 PostgreSQL 和 MySQL 均不支持在 Recursive CTE 使用聚合函数,可能实现起来确实存在一些难以处理的 corner case,具体大家可以讨论一下。
本次的尝试,是手动把所有的维度全部展开,实际上我还写了一个不需要展开所有维度的实现(例如 data 表的 schema 是 (idx, dim, value)),但是这种实现方式需要 join 两次 weight 表,也就是在 CTE 里需要递归访问两次,这还需要修改 TiDB Executor 的实现,所以就没有写在这里。但实际上,这种实现方式更加的通用,一个 SQL 可以处理所有维度数量的模型(我最初想尝试用 TiDB 训练 MINIST)。
版权声明: 本文为 InfoQ 作者【TiDB 社区干货传送门】的原创文章。
原文链接:【http://xie.infoq.cn/article/b5d21bb9a563a9c6775648657】。文章转载请联系作者。
评论