联邦推荐系统——个性化推荐与隐私安全的兼顾者
智能互联网时代,我们的生活正被各式各样的推荐系统包围着。
从电商购物、在线视频到新闻流,推荐系统已然成为智能时代的关键技术,为我们提供着“千人千面”的服务。为了实现精准的推荐效果,推荐系统会收集大量用户行为数据。一般而言,收集的数据越多,对用户和推荐内容的了解就越全面和深入,推荐效果越精准。但随着数据安全与隐私保护的相关法律政策出台与实施,这些数据通常出于保护用户数据隐私目的,而以“数据孤岛”的形式分散在不同的机构。如何在合理合法的前提下,充分使用数据持续优化效果、提供优质服务,是当前推荐系统所面的巨大挑战和首要任务。
事实上,联邦学习作为一种解决数据隐私问题的重要路径,当联邦学习与推荐系统擦出火花,能否为我们提供一种既能优化个性化推荐效果,又能保障个人隐私数据安全的新思路?
在此,我们将介绍一种新的概念——联邦推荐系统。它是联邦学习在推荐系统应用场景中的一个实例,为我们解决推荐系统隐私保护与数据稀缺提供了一个重要思路。在本文中,我们正式定义联邦推荐系统后,会对现有的联邦推荐方法的分类与发展展开讨论。
论文来源(引用格式):L. Yang, B. Tan, V. W. Zheng, K. Chen, and Q. Yang, “Federated recommendation systems,” in Federated Learning. Springer, 2020,pp. 225–23
论文链接:https://link.springer.com/chapter/10.1007/978-3-030-63076-8_16
论文作者:Liu Yang, Ben Tan, Vincent W. Zheng, Kai Chen, Qiang Yang
一、联邦推荐系统定义
定义 . 联邦推荐系统的目标是在不直接访问彼此隐私数据的情况下,在多方之间协作训练推荐模型:
我们希望联邦推荐训练得到的模型效果,要比每个推荐系统单独本地训练得到的模型效果好,同时非常接近在不考虑数据隐私和安全的情况下将各方的数据简单地聚合在一起训练得到的模型效果:
二、联邦推荐系统的分类
推荐系统中算法的目标是挖掘用户和内容、商品之间的联系。根据不同特点,联邦推荐系统可总结成三类:横向联邦推荐系统、纵向联邦推荐系统和迁移联邦推荐系统。
1、横向联邦推荐系统
在横向联邦推荐系统中,主要解决参与方拥有大量相同的商品或服务,但用户群体不同时的推荐系统协作问题,例如不同地区的影视推荐服务之间的联邦建模。
横向联邦推荐系统的代表应用场景:
如图所示,用户享受个性化影视推荐服务时,却不想让自己的隐私数据被推荐系统收集。那么,为了保护用户的数据隐私,在影视推荐系统中,我们可以将训练数据留在本地,而将包含某个用户习惯与评分信息的用户设备视为参与方构建联邦推荐系统,来同时满足个性化和隐私的要求。
2、纵向联邦推荐算法
纵向联邦推荐主要解决参与方拥有大量相同的用户,但是不同的商品或用户特征时如何协作构建推荐系统的问题。
纵向联邦推荐系统的代表场景:
如图所示,在纵向联邦推荐中,参与方可以是不同的推荐系统,也可以是推荐系统与数据提供方。例如,新闻推荐服务商与影视推荐服务商之间的联邦,或者新闻推荐服务商与用户数据提供商间的联邦。他们之间存在很多的共同用户特性,纵向联邦推荐系统可以帮助他们实现在不泄露双方数据隐私的情况下构建更好的推荐服务。
3、迁移联邦推荐算法
迁移联邦推荐主要解决参与方在相同用户和商品都不多的情况,如何协作分享经验构建推荐系统的问题。
迁移联邦系统的代表应用场景:
如上图,A 地区的书籍推荐系统希望帮助 B 地区的影视推荐系统优化影视推荐效果。在这种情况下,两个参与方所提供的服务有所不同。但是,在迁移联邦推荐系统之下,可以将相似的用户特征在两个参与方之间做迁移,从而在隐私保护的前提下,提升 B 地区电影推荐系统的模型推荐效果。
三、联邦推荐系统挑战和未来发展方向
工业上,联邦推荐系统不仅仅包含联邦推荐算法,还应包含对于系统的全面设计。因此,我们对挑战的讨论分为算法层和系统层。在算法层面,我们着重分析当前推荐领域中使用主流的模型设计不同联邦推荐算法可能遇到的困难;在系统层面,主要分析不同推荐系统的特点与设计联邦推荐系统可能遇到的几个关键挑战。
1、算法层面的挑战
1) 联邦深度模型
深度推荐模型在使用非线性激活函数时会导致严重的问题。例如 tanh 和 relu 激活函数等复杂的函数,没有很好地得到 HE 的支持。这一局限性严重影响了深度模型在联邦推荐系统中的应用。
2) 联邦图模型
保护图中结构信息的隐私是基于图的模型联邦化的主要难点。基于图的推荐模型利用用户和商品之间的关系信息来丰富用户和商品的表示。相对于特征信息,关系信息更加复杂,保护关系信息中的隐私更加不易。
3) 联邦强化学习模型
联邦化强化学习模型的挑战在于如何设计更好的状态、动作和奖励,以捕捉用户的即时兴趣,同时确定各参与方之间应该共享的内容。虽然强化学习在推荐系统中有着重要的作用,但是它在联邦推荐中的应用还没有得到充分的研究。
2、系统层面的挑战
1) 召回和排序的设计
系统层面的主要挑战是设计具有实时反馈的和隐私保护的召回和排序流程。传统的推荐系统依次通过这两个流程来给出最终推荐结果。传统上的推荐系统集中收集用户的隐私数据,这两个步骤设计在系统的中央服务器上执行。但是,考虑到用户隐私,联邦推荐系统应该对应修改原来的设计。我们讨论两个极端情况。第一种情况是服务器侧召回 + 参与方侧排序,首先,各方向服务器发送加密的“噪声”模型参数,然后在服务器端执行召回流程,召回中的前 N 项被发送回每个参与方,然后,在每个参与方上启动排序流程,这种方案存在隐私泄露的可能性,因为服务器知道召回的确切结果;第二种情况是参与方侧召回和排序,服务器将所有项目的属性和内容发送给各个参与方,然后,在参与方侧执行整个召回和排序过程,这种设计不存在用户隐私泄露,但会造成大量的通信开销,另外,它需要大量的本地计算资源和存储空间,然而,随着近年来 5G 技术的快速发展,通信成本问题可以在一定程度上得到缓解。
2) 通信损耗
通信损耗是影响联邦学习性能的主要原因之一。由于推荐系统的特征高维度特性和实时性要求,联邦推荐系统中的通信成本问题将会非常严重。
3) 灵活性和可扩展性
随着参与方数量的不断增加,如何设计更好的模型并行和模型更新调度方案来保证联邦推荐模型的收敛性将成为一个挑战。许多联邦学习系统采用的同步的客户端-服务器体系结构,不利于灵活扩展。在推荐系统中,数百万用户使用推荐服务。同时访问的参与方太多会使中央服务器上的网络拥塞,很难保证所有的参与方都能参与联邦训练的整个过程。因此,联邦模型的性能会受到严重影响。
4) 数据非独立同分布问题
“长尾”现象在推荐系统中普遍存在,使得数据非独立同分布问题在联邦推荐系统中变得不可避免。由于非独立同分布数据的高度倾斜,联邦推荐模型的表现将会严重下降。随着各参与方数据分布之间的距离越来越大,模型的准确率也会相应降低。
5) 恶意参与方合作
在现实中,推荐系统中的参与方很有可能不值得信任。这些参与者并不遵循经常使用的假设(参与放和中央服务器都是半诚实的)。它们可能在梯度收集或参数更新中表现不正常,而服务器也可能是恶意的。因此,诚实的参与方在这些情况下可能会有隐私泄露的风险。
相关文章:
版权声明: 本文为 InfoQ 作者【星云Clustar】的原创文章。
原文链接:【http://xie.infoq.cn/article/6bebbf1a280406b9f143a703e】。文章转载请联系作者。
评论