Angel 推荐算法在游戏推荐中的应用
导读:Angel 是腾讯自研的分布式高性能的机器学习平台,支持机器学习、深度学习、图计算以及联邦学习等场景。Angel 的深度学习平台已应用在腾讯的很多个场景中。本次分享为大家介绍 Angel 推荐算法在游戏推荐中的应用。主要内容包括:游戏平台上的游戏推荐、Tesla 平台上的推荐算法、经典算法的线性特点、DeepFM 算法的非线性特点、DeepFM 应用过程。
游戏平台上的游戏推荐
这张图看到的是 Steam 平台上的一个游戏推荐的应用。Steam 平台主要是使用标签的推荐方法,它的标签主要是基于用户选择去收集的信息。
Steam 平台的特点在于游戏的内容比较多,深度也比较深一些。
如果 item 比较多,而且使用用户比较多,那就可以通过用户来选择一些标签,能够抽象出其实本来是需要协同过滤 ALS 的算法计算的因变量的特征向量。
也就是说,Steam 是用人工选择的方式,用集体智慧的方式来抽象出特征向量。
这是 Wegame 平台上的一个活动。它的推荐算法并没有使用人工抽取标签的方式,而使用了 CF 算法,以及在用户行为数据的基础上使用 Deep FM 算法。
Tesla 平台上的推荐算法
这个是特斯拉平台上的推荐算法。如果你要在外网试用,可以到下面的网址进行试用:
在试用的过程中,根据 wiki 文档生成相关的模型,定义相关的参数,就可以使用了。
特斯拉平台上也可以使用一些传统的算法,就像 CF-ALS 算法,可以把 Rank、Lambda、Alpha 这几个重要的参数,通过一个迭代的方式去选择合适的超参数,就可以使用了。
经典算法的线性特征
如果是基于内容的标签推荐,不用集体智慧的抽象,在很多情况下就是一个主观的先行判断。
另一种是协同过滤——或基于物品,或基于用户,或者是联合的协同过滤,会存在稀疏矩阵和长尾推荐的问题。
此时会出现一个问题:这是基于物品点击率比较高的协同过滤,但游戏大部分推荐的并不是都是热门物品。如果我们想在经典算法的基础上对一些点击比较少的物品进行推荐,也就是对这些长尾的物品进行推荐,如何去实现呢?
此时可以先做一个聚类,再应用一个协同过滤的算法。如果是经典的算法,有一个很大的核心的问题:怎么去结合用户画像,还有物品画像,参与到 DeepFM 的建立?
DeepFM 的非线性特征
其实 CF 算法中输入的是 Item Id 和 User ID,但是 Deep FM 在输入 UserID 和 Item Id 之外,还可以输入用户或者物品特征。另外也可以对特征进行一个二次交叉:二次标签的特征组合,在本质上还是比较依赖于原来所采集的特征,而且特征组合也仅仅是二次的一个特征表达。
DeepFM 的各种非线性特征,其实比较类似于 CNN 算法里面,在识别分类过程中所作的权重分解。上图是在 CNN 的过程中,做的一个热力图。其中 CNN 是对图像做了一个分类。这个分类依据,是 Class 之前所做的权重分布,从 Deep FM 的一部分的模型研发而来的一部分。
Deep FM 模型的 random 部分有很多类别特征的。类别特征是用人工选择出来的 categorical Features。而 Deep FM 在自动归类分群的过程中,有一个自动 embedding 离散维度的推荐过程。一般我们可以根据误差的自动调整,来调整这个特征的维度组合。类似于推荐过程中自动聚类分群的过程,这就解决了传统算法的问题。如果只输入一个 User ID 或者是 Item ID,就无法使用用户画像和物品画像,进行信息的分群,这样 Deep FM 就成为了一个可以根据误差进行自动调整,自动聚类分群的推荐工具。
DeepFM 应用过程
另一种情形则是在 Deep FM 的过程中进行编码,如果有单列的类别值,如何进行、转换成一个稀疏矩阵?一般来说可以使用手工编码,但这个方式比较低效。这时可以使用 Feature Hasher,可以自动把几列类别值转换成一个技术矩阵,把稀疏矩阵和由连续值组成的 vector 和 Hash feature 组成 vector,合成一个 Vector,再把这个 Vector 作为一个 Deep FM 的输入,就可以比较方便进行数据计算了。
这里面有几个经验:
Validation AUC 与点击率的对应关系:就是说在算法的训练的过程中,会输出一个 Validation AUC,这个 AUC 很大情况下会和点击率有对应关系。在算法的模型训练过程中 AUC 比较低的话,点击率可能比较高,但是如果 AUC 比较高,其点击率一般情况下也比较高。
特定场景下的 target 数据产生的模型只能应用到特定场景下的点击率评估:你可能会需要使用到 3 个采集位置。这三个位置前面的 Target 数据就是用户在 item 下面点击数据,如果你运用 3 个模型,每一个模型应用在 3 个特定位置下,应该会得到一个更好的效果,而尽量不要把 3 个位置下的 Target 的数据合并为一个 Target 数据。因为这和 Deep FM 的特征的抽象能力相关,也就是说 Deep FM 有比较强的特征抽取能力,Target 数据会反向传递到特征的采集过程中,会比较依赖于这个特征的场景。
Deep FM 的参数调整比较简单,因为一旦收敛,AUC 的提升跟训练数据集的大小最密且:因为增加更多的训练数据,AUC 提升会比较明显一点。
数据精排需要过滤已拥有,已玩过,并且根据业务需要重排数据,比如重点展示新游,热销等。
FM 需要输入 user_id 作为训练数据:Deep FM 是从 FM 演化过来的,FM 的训练和使用的过程中,一般会是要用 User Id 做一个输入,真正 FM 的 User ID 会在大数据情况下形成一个大的标签。
FM 的 user_id 在大数据环境下会形成很大的标签数据,例如:如果有 1000 万用户,一台一个输入进去,在水平层这边特征就会比较大。
FM 的 user_id 会形成冷启动的瓶颈,并且导致更新频率受到限制:传统的 FM 算法和 CM 算法,是一定要输入 User ID 的,那样就会产生一个冷启动的问题。也就是说,如果用户没有参与到每天的活动中,其实是没法在预测阶段做输入的。但是 Deep FM 则不同,如果对自己的特征比较自信,也就是说你的输入除了 User ID 之外,还有很多特征。因为 Deep FM 还会有比较强的特征抽取的能力,也就是自动特征组合能力。此时可以不输入 User ID,只输入用户的特征或者是物品的特征,就会避免冷启动问题,而且更新频率会更快。
DeepFM 的特征输入可以替代 user_id 的输入:比如在一个活动刚开始没多久,收集了一定数量的数据的情况下,特征是比较丰满的,就可以对用户和 User ID,Item ID 等没有接触到的数据进行一个预测。
以上就是今天的分享,谢谢大家。
王培军,腾讯高级工程师,主要负责 wegame 平台的广告系统和深度学习与系统的结合探索。
原文链接:Angel推荐算法在游戏推荐中的应用
评论