推荐系统的价值观 (三十二)
写在前面:
大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与 AI 相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。
业余时间专注于输出大数据、AI 等相关文章,目前已经输出了 40 万字的推荐系统系列精品文章,今年 6 月底会出版「构建企业级推荐系统:算法、工程实现与案例分析」一书。如果这些文章能够帮助你快速入门,实现职场升职加薪,我将不胜欢喜。
想要获得更多免费学习资料或内推信息,一定要看到文章最后喔。
内推信息
如果你正在看相关的招聘信息,请加我微信:liuq4360,我这里有很多内推资源等着你,欢迎投递简历。
免费学习资料
如果你想获得更多免费的学习资料,请关注同名公众号【数据与智能】,输入“资料”即可!
学习交流群
如果你想找到组织,和大家一起学习成长,交流经验,也可以加入我们的学习成长群。群里有老司机带你飞,另有小哥哥、小姐姐等你来勾搭!加小姐姐微信:epsila,她会带你入群。
推荐系统作为满足人类不确定性需求的一种有效工具,是具有极大价值的,这种价值既体现在提升用户体验上,又体现在获取商业利润上。对绝大多数公司来说,提升用户体验的最终目标也是为了获取商业价值。我们在《推荐系统的商业价值》中已经详细介绍过推荐系统的用户价值和商业价值,相信读者还记忆犹新。
公司作为社会经济发展到一定阶段的产物,获取商业利润是公司的本质特征,也是公司赖以生存的基础,这是合乎情理的事情。获取商业利润的方式有很多,其中推荐系统就是一种非常成熟的、具备极大商业价值的工具。鉴于推荐系统巨大的商业价值,几乎绝大多数公司将衡量推荐系统价值的标准定义为获得更多的商业利润,将推荐系统的短期商业价值作为最重要的目标。这样真的对吗?对公司的长期健康发展真的有帮助吗?推荐系统应当发挥怎样的价值需要我们深入思考。
对待推荐系统的态度直接来自于企业高层(创始人)的判断和思考。在当前技术条件下,推荐系统还属于弱人工智能,很多方面还需要借助人的力量才能做得更好,推荐系统是由人构建的,推荐系统应该具备什么样的价值也是人类赋予的,企业高层的价值观直接决定了推荐系统的价值观。
本章我们就来谈谈推荐系统的价值观,即我们构建推荐系统希望达到什么目标,希望推荐系统可以做到什么。具体来说,我们会从当前推荐系统存在的问题、推荐系统应当具有的价值观、在正向价值观指导下构建推荐系统的思路和方法等 3 个角度来讲解推荐系统价值观相关的背景、具体体现形式及方法论。期望读者读完本文可以从更加全面、更具人文关怀的角度来思考推荐系统对用户、对企业、对合作伙伴、对社会的影响,而不仅仅将推荐系统看成一种快速变现的方法和手段。
30.1 当前推荐系统存在的问题
在今日头条的示范和带动下,国内绝大多数 toC 互联网产品都具备了个性化推荐能力,个性化推荐系统在帮助公司获取商业价值上立下了汗马功劳。推荐系统经过这几年的发展,也逐渐暴露了很多问题。这些问题如果不能很好地预防和解决,从小里说,会影响用户体验,从大里说,会影响公司的业务发展,甚至对社会价值观的塑造都有极大的副作用。
在这一节我们就来梳理一下推荐系统存在的问题,只有清楚地了解推荐系统存在的问题,我们才可以进行针对性地优化,让推荐系统真正发挥应有的用户价值、商业价值和社会价值。
30.1.1 过度商业化
推荐系统的危害首先来自于过度的商业化,很多企业漠视法律法规、走红线,毫无道德底线,将推荐系统作为敛财获益的好工具。前几年出现的魏则西事件,就是一个很好的案例(这个案例虽然属于搜索问题,但搜索跟推荐本质是类似的,在更大的框架下,搜索问题等价于推荐问题,这种思路作者会《推荐算法工程师的成长之道》中进行说明),当时在全社会引起了强烈的反响和声讨,百度也迫于舆论压力下线了所有莆田系医院的广告。
在很多 APP 的信息流推荐中,多少都存在一些尺度比较大的文章和图片,在文章的评论区更是不堪入目,这种通过激发人的生物本能来获得流量和粘性的方法是不齿的。这里要提一下,之所以出现这样的结果,有两个原因。一是企业的价值观就是这样,是有意为之的。另外一个原因是算法自身原因导致的,有些人主动搜索点击这方面的内容,导致一直给他推荐相关的内容。
合理的商业化可以让平台和标的物生产方更好地生存下去,是对平台、标的物生产方、用户都有正向作用的,有利于整个生态健康发展。过度的商业化可能引发极大的道德风险,对用户也是非常不友好的。
作为一个有良知的企业,一定要谨慎考虑商业化,什么样的事情可以做,什么事情不能做,心里要有一杆秤,需要平衡好各方的利益,同时关注社会影响,努力让整个生态持续、稳健、健康发展。
30.1.2 算法本身的缺陷和不足
推荐算法本身的缺陷也会带来风险,别有用心的标的物提供方会利用算法的特性和漏洞,攻击推荐系统,对自己提供的标的物进行“刷榜”,恶意提升自己标的物的权重,获得更多的流量。比如在标题中嵌入各种不实的关键词、恶意刷好评、通过不正当手段删掉差评、给竞争对手刷差评等等都属于利用推荐算法的缺陷或特性来提升自己提供的标的物流量而打击竞争对手。
作为提供推荐算法的平台方,需要一直不断的研究对策和调整算法,通过修正数据、优化推荐算法来评估标的物的真实价值和真正的受欢迎程度,这是一个长期的技术对抗过程。对这些恶意竞争的标的物提供方一定要有比较严厉的惩罚措施(限流、封号等),规范整个标的物生产与消费链条。
好的推荐算法需要满足多个目标,除了商业价值、还有用户体验、生态繁荣等多类指标,往往很多目标之间是有冲突的,怎么权衡多个目标之间的关系,是非常复杂的,连人类都觉得非常棘手,何况处在弱人工智能阶段的推荐算法呢。目前多目标优化问题从算法实现上是比较困难的,有待算法理论的突破。
当前推荐算法的可解释性是比较棘手的问题,特别是像深度学习这种复杂的机器学习算法模型,基本是黑盒模型,可解释非常差。人类本身是非常关注因果关系的,因果关系比较明确的概念人是更容易接受的。推荐系统没有很好的可解释性,用户也很难信任推荐算法产生的结果。
了解 GAN(生成对抗网络)的读者一定知道,在某些情况下对算法输入参数做很小的修改,就会产生非常不一样的输出结果,让人不可思议。这导致利用有这类问题的算法构建的推荐系统,可能在某些情况下会给人推荐出极端不靠谱的结果,引起用户的不适。目前推荐算法寻求的是一种全局最优解,而无法做到每个人都最优,这类问题也需要借助算法理论的突破和实践经验的积累而逐步完善和提升。
所有上面提到的算法本身的不足和缺陷都可能影响到推荐算法目标的达成。即使你的出发点再好,价值观再正,由于算法自身“力不从心”,可能导致达不到预期的目标,甚至出现不希望看到的结果。
30.1.3 标的物质量问题
这里提前对质量做一个解释,如果标的物是实物,那么质量就是我们通常意义的质量,比如这件衣服质量好不好,是不是仿冒品。如果标的物是虚拟物品,如视频、文本等,质量是指内容的精良程度。
导致推荐平台上标的物质量的问题主要有三个方面的原因,一是过度追求商业利益导致质量下降,二是标的物创作/制造者自身专业素养和技术能力不足,三是平台的规则间接导致了标的物质量下降。
(1) 利益驱动导致的质量问题
人都是逐利的,为了快速地获利,标的物粗制滥造。对于文本内容的推荐,平台方给内容创作者的收益是根据点击量来计算的,因此导致很多内容标题党盛行,内容创作者通过夸张的用词、过度渲染来骗取用户点击。在电商推荐上,盗版、假货横行也是利益导致的后果。
人的本性是对惊奇、情色、赌博等满足人动物属性的内容是天然喜欢的,很多内容创造者深谙此道,打擦边球,制作出相关的内容,以迎合受众的口味,从而获得流量变现。
(2) 标的物创作/生产能力不足导致的质量问题
不是每个标的物生产者都是专业的,由于自己能力及技术的限制,很多创作者/生产者不具备创作/生产优质标的物的能力,这时要么创作/生产质量比较差的标的物,要么进行剽窃/仿冒,这都会导致质量下降。
平台方必须制定一定的规则,鼓励标的物生产者花更多的时间,通过提升技能来生产优质标的物,对优质标的物进行适当的流量奖励,对劣质标的物进行惩罚和打压。
(3) 平台规则导致的质量问题
在(1)中我们就提到,现在很多平台根据点击量等指标来对标的物提供方进行奖励(流量、好位置等),这些规则比较简单粗暴,容易滋生出质量差的标的物。
标的物是整个推荐系统生态中最重要的一环,也是最基础的一环,标的物质量的好坏直接关系到各方的利益和生态的平衡,因此平台方必须重视标的物质量,需要通过技术手段及人工规则来保证标的物质量,吸引更多的优质标的物提供方进驻平台。
30.1.4 数据质量的问题
推荐算法模型是基于数据来构建的,数据是算法的原料,当然对算法有非常大、甚至是决定性的影响。构建推荐系统的数据主要有用户行为数据、标的物 metadata 数据等。
用户行为数据在日志上报时可能存在字段错误(比如错误地将时间戳赋值给了播放时长字段,导致播放时长很大,不符合逻辑),用户由于没有关电视而去干别的事情忘记了,导致一直连续播放十几个小时,还有测试等脏数据的混入,黑客或者竞争对手的攻击产生的垃圾数据,程序 bug 引起的错误数据等等。
如果是 UGC 平台,由于不同标的物提供方填写的标签等信息格式及定义不一样,导致数据质量低。重复数据也是一个比较大的问题,新闻中不同渠道来源的内容有可能是对同一事件的报道(因此内容是重复的),淘宝中不同商家生产一样的物品,这些都可以产生重复。
这些低质量数据,如果不加以处理,就会影响算法的效果,对最终的总体目标是有极大副作用的。
30.1.5 过滤气泡问题
个性化推荐存在被人所诟病的“过滤气泡”(Filter Bubble)问题。Filter Bubble 的概念由 Eli Pariser 提出,他认为个性化推荐算法会基于用户的各种信息向其推荐可能感兴趣的内容,长此以往用户会因接收不到与自己相左的观点,停留在自己的文化和认知泡泡中。另外一个类似的概念是信息茧房,读者可以学习参考文献 3,进行更深入的了解。
相信刷过某条推荐的人有这个感受,当你点某个感兴趣的内容时,系统一直会给你推送相关的内容,让你一直停留在该内容相关的内容中出不来,就像滑进了一个漩涡。前几年的今日头条这个问题更加严重,这即是形成了过滤气泡。
一味推荐你喜欢的标的物,你没有接触过的、不熟悉的优质标的物可能被排斥而逐渐边缘化,导致最终只推荐你所熟知的标的物。
推荐系统这种给用户“灌输”标的物的方式,导致用户被动接受,减少了用户的决策成本,最终用户不愿意决策,导致过滤气泡的存在。
30.1.6 用户隐私
推荐系统通过收集用户行为,并基于用户行为给用户推荐感兴趣的标的物。如果用户看的是一些比较隐私或者不希望别人知道的内容,那么推荐系统也获得了用户的这些特殊嗜好,因此也会给他推荐这类内容,这对用户来说就是隐私的泄露。举个例子,比如用户一直用某条看比较暴露的美女短视频,那么当他在跟朋友吃饭刷某条时,容易让别人看到他的这种他不希望别人知道的喜好。
用户的偏好就是用户的隐私,推荐系统知道了用户的偏好,有些企业就可能利用这些偏好进行不道德的商业化(比如我们知道的大数据杀熟),从而伤害用户。
30.1.7 难以量化的目标
推荐系统的价值除了用 CTR 等比较容易量化的指标来衡量外,还有很多比较难量化的指标,比如多样性、惊喜度、社会价值等,而当前的机器学习算法还只能处理容易量化的目标函数,对这些比较难量化的目标无能为力。
上面提到的这些问题都是在推荐系统发展过程中出现并逐步凸显出来的,只有对这些问题及背后的原因有一个比较清晰的认知,我们才有机会构建更加优质的推荐系统(读者可以查看参考文献 1、2 进一步了解推荐系统存在的问题),那么什么是优质的推荐系统?推荐系统应该具备什么样的价值呢?这就是我们下节要讨论的主题。
30.2 推荐系统应当具有的价值观
在上面一节我们提到了推荐系统存在的问题,这些问题有些是技术工程问题,有些是人的决策导致的问题(如过度商业化就是公司管理层的决策导致的),这些问题对发挥推荐系统的价值是有极大影响的。
其实学术界关于 AI 的伦理讨论已经非常多了(见参考文献 7、8),推荐算法作为 AI 的一个应用领域,也一直存在这类问题,只不过在工业界大家的关注点都在算法创造商业价值上,而忽视了很多道德风险和人文关怀。
除了商业化指标外,推荐系统应该还需要发挥哪些价值呢?下面作者结合自己的理解和感悟,从如下 4 个方面来说明推荐系统应该具备的价值观。
30.2.1 追求正当的商业价值
获取商业利益是公司生存之本,对公司来说商业化确实是非常重要的,也是管理层需要持续关注和努力的方向。但不能通过利用技术手段来恶意伤害用户、造成社会负面影响来获得商业利润。
大家都知道的大数据杀熟(基于用户的行为和购买力,故意给用户推荐比较贵的东西,或者单独给该用户定一个高价)就是一种不正当的获取商业利益的方式,这里面还有故意欺骗用户的成分。
另外,追求商业价值也不应该违背国家法律、法规、公序良俗。比如通过盗链或者破解正版视频网站的播放器或者链接,聚合到自己的视频平台并通过付费的方式获取商业利益,这就是违反法律的,侵犯了视频网站的版权。生产假冒伪劣产品在电商平台上售卖也是非法的。故意推荐一些恶俗的内容给用户,通过提升流量来获得更多的广告收益这也是不道德的。
这些通过不正当的手段来进行商业化的行为,最终会让企业站在舆论的风口浪尖上,搞不好会葬送企业的前程。
30.2.2 关注用户体验与成长
推荐系统不但要从技术角度去思考,还要从人文社科方向寻找灵感。推荐系统的神经元里要植入人文关怀,推荐系统要以人为本,回归人性,建立与人的信任关系。因此推荐系统需要关注用户体验和用户成长。
首先,推荐系统需要给用户足够好的体验,界面美观简洁、操作方便,能够给用户提供优质的推荐结果,让用户在交互的时候是放松的,同时推荐系统需要一定的机制避免用户沉浸其中。国内目前有一些餐厅对顾客点菜是有要求的,会根据就餐人数来了解你点菜的情况,不让你多点菜,避免浪费,我觉得这就是一个非常好的控制手段。现在很多游戏需要身份信息登录,并且对使用时长有控制,快手也有青少年模式,这些都是人文关怀的举措。推荐系统也需要在这些方面有所作为。
推荐系统不光要有 CTR 等与商业化相关的指标,更应该包含多样性、惊喜度、新颖性等与用户体验相关的指标,用户如果能够获得超出预期的体验,一定会更加信任你的产品,信任你的推荐系统。
给用户推荐多样性的内容,而不是一味满足用户的兴趣,可以让推荐系统突破过滤气泡的魔咒。通过用户在新内容形式(用户过去没有探索过的)的反馈来拓展用户新的兴趣点,这对用户是一个学习成长的过程,让用户可以获得新的知识、新的体验,是对未知领域的一种探索。
除了用户体验外,推荐系统要对用户进行引导而非灌输,给用户足够多的操作方式让用户进行自主探索,激发用户的探索欲,而不是被动”享受“,这也是培养用户好奇心的过程。这里面可能会涉及到跟用户的多伦交互过程,这是目前的工业级推荐系统不具备的能力,也是未来可行的发展方向。
30.2.3 考虑整个生态系统的繁荣与长期发展
推荐系统涉及到平台方、用户、标的物提供方三方,缺一不可,这三方组成一个小的生态系统,互相之间合作与依赖。标的物提供方是内容创作方,是整个生态系统的核心,是系统赖以生存的基础。用户是该生态系统的消费者,与平台是一种价值交换的关系,用户通过在平台上消费标的物来养活整个平台(包括平台方和标的物提供方),而平台方提供高效、便捷、精准匹配的信息分发渠道/通道来连接用户和标的物提供方。
上面是生态系统三方之间的价值关系网的梳理,好的推荐系统一定要考虑整个生态系统的平衡与稳健发展,缺少任何一方,整个系统都将无法运转。
我们不光需要这个生态系统短期繁荣,我们更应该努力促进系统长期稳定发展。这就要求平台方有延迟满足感,管理层不能只做一些只考虑短期利益的事情,而要关注长期利益,考虑多方共赢,构建正和博弈系统,只有这样平台方才能基业长青。
30.2.4 弘扬正向的价值观
推荐产品一般是面向 C 端用户的,在移动互联网红利逐渐消失的当下,每个人都可以通过智能手机连接到网络。网络对人的工作生活的影响是全方位的,像某宝、某条、度娘等 APP 日活(DAU)都超过几亿,对社会生活及信息舆论有极大的影响。这些产品都将推荐作为核心功能点,放到最核心的位置,毫不夸张地说,推荐做得好不好,直接关系到产品的生死存亡,也直接影响者整个社会舆论和社会价值观。像这类影响力巨大的产品,一定要有足够的社会责任感,在商业利益之外,必须弘扬正向的社会价值观。
像百度搜素提供的竞价排名,我个人觉得就是一种非常不好的价值观。这让出钱多的人获得了好的流量,如果这个出钱多的人投的广告关联的产品或者服务是不好的,会对个人和社会造成极大的危害,魏则西事件就是这种有害性的一次集中爆发。
作为一个有良知、正义感的企业,在打造推荐系统时一定要心正,弘扬正向的价值观,起到价值宣导的作用,在某种程度上要做到政治正确、道义正确,而不能完全被商业化的思维控制。
某条在推荐中置顶了两条与疫情相关的信息,这天刚刚是武汉解封之时,在这个关键的利好时间点将这一重要信息告知大众是非常有价值的。而作为反面的案例,2020 年 4 月 8 日手机百度 APP 的推荐模块被迫下架整改,在这之前的几天,我在用百度的推荐模块时,确实看到很多推荐下面的评论都是“很黄很暴力的”,并且有几个评论的账号直接与色情相关,大面积出现这种情况不被约谈整改才怪呢。
这一节我们从推荐系统应该具备的价值观的角度来讲解构建推荐系统应该思考的方向。当然,不同行业由于数据来源、服务的对象、提供服务的类别不一样,在具体怎么体现推荐产品的价值观时是需要谨慎思考的。
有了牢固可靠的价值观,我们就要利用价值观来判断一切行动是否值得做、能够做。怎样基于上述价值观来构建推荐系统,我们需要从哪些维度来努力和思考,这就是下一节要讲的内容。
30.3 在正向价值观指导下构建推荐系统的思路和方法
有了正确的价值观,这些价值观就是指导我们构建推荐系统的指导原则,我们在遇到任何困难时,就有章法可循,不会乱了方寸。基于 30.2 节提到的价值观来构建推荐系统时,我们可以从如下几个角度来努力,最终减轻、避免、甚至解决 30.1 节提到的推荐系统存在的问题。
30.3.1 努力提供高质量的标的物,标的物是整个平台的核心
通过前面的分析,我们知道标的物才是(提供推荐系统服务的)平台方的核心竞争力。好标的物是获得用户喜爱的前提,只有标的物质量好,用户才愿意留下来,才愿意在平台上付费/消费,整个生态系统才能有效运转。标的物就像生态位中的草,只有水草丰茂,才能供养牛羊。
平台方一定要有正义感,要制定一系列规则和策略对提供优质标的物的供应方进行鼓励和奖赏,对提供劣质标的物的第三方进行打压和惩罚。在这里可以充分发挥机器学习算法和人工审核干预的作用,提升标的物监控和审核的效率。可以先用机器学习算法召回质量可能有问题的标的物,再借助人工二次审核,既减轻了工作量,标的物质量又有保证。
通过不断的优化完善,当产品具备了一套比较完善的标的物质量标准和引导规则时,这套规则会引导着标的物生产链路朝着更好更健康的方向发展,这时系统是具备一定的自愈能力的,最终会进化出一个更加健康的生态。
作为推荐系统推荐给用户的标的物,好的标的物对用户体验、对用户信息获取等各个方面都是有好处的。有了好的标的物及标的物 metadata 数据,推荐系统也可以更好地获得构建模型的原材料(基于内容的推荐算法需要标的物的 metadata 信息),最终构建出更加可靠的推荐系统。
30.3.2 注入人的因素,让推荐系统更有温度、更有情感
机器学习算法是对现实的一种抽象和简化,虽然可以解决很多问题,在很多方面甚至超越了人类,但算法还是有短板的,在复杂情况下的决策,在涉及到艺术与情感方面的问题时是根本无法跟人相提并论的。
推荐系统需要朝着更有人情味、更有温度的方向发展。这一方面需要算法能力的提升(比如微软的小冰试图打造一个更加智能化、人性化的助手),需要获取更多的数据和信息(特别是场景化信息、上下文信息),以期更好地理解用户当前的意图,这是非常难的,也是一个需要长期努力的方向。
另外一种更加实用化、更加可落地的策略是通过在推荐算法中整合人工策略和逻辑,让推荐系统具备一定的人文关怀(我们在第 26 章《推荐系统的人工调控策略》中对人工调控的策略和方法进行过非常详尽的介绍)。通过不断尝试,调和 AI 算法与人的智慧,相互约束和补位,将"人"的价值发挥到最大,让推荐引擎不只是迎合用户,而是尝试引领用户、感动用户,从而做到真正的以人为本。
像图 1 中置顶疫情信息、当你看了很长时间系统给你提醒让你休息一会儿、给你推荐你期望学习的新知识点等等,这些都以人为本的做法。什么叫做以人为本,这本身就是一个比较难以界定的概念,更难以量化,需要算法工程师和产品经理多琢磨,更好地了解人的社会化需求和情感需求,而不仅仅是满足人的生物本能需求。
30.3.3 关注数据质量、关注用户隐私
我们在 30.1.4 节中提到了数据质量问题,数据作为推荐算法的原材料,质量的好坏直接决定了算法的效果,不好的数据会让推荐模型偏离原来既定的价值取向,走向“邪路”,比如一个提供假冒伪劣产品的淘宝店主,如果通过不正当手段来刷好评、刷流量,让自己的店铺和商品排名靠前,获得更多收益,这就损害了消费者的利益,对平台的健康发展也极为不利。因此,数据质量在推荐系统中起着至关重要的作用。
在数据处理上,需要通过有效的手段过滤掉不合理、不合法的数据,识别潜在的针对产品的恶意攻击,不让外部干扰污染整个数据源。
另外一个比较重要的问题是关于用户隐私的,这类问题屡屡发生(今年上半年万豪酒店出现了泄露 520 万住客信息的极大安全事件),随着人们安全意识的觉醒,大家对隐私问题会越来越重视。推荐系统需要搜集用户各方面的信息(用户自身的信息以及用户的行为偏好信息)来获得精准的推荐,推荐系统利用的信息是非常有隐私性的。
处理好隐私问题,除了需要企业加强数据安全外,另外一种可行的方法是给用户一定的控制权,让用户自由选择是否可以让企业收集行为数据、利用行为信息进行推荐。即使用户同意了企业可以使用自己的行为数据,用户在以后的任何一个时间点有权要求企业删除对用户兴趣的建模,回归到信息为零的状态,甚至可以再次拒绝让企业收集信息。企业获得了用户的这些偏隐私的信息也需要用在正道上,不能利用这些信息获取一些非法的收益,比如将用户的兴趣偏好售卖给其它第三方或者利用这些偏好进行不正当的、有倾向性的营销。
目前中国在用户隐私上的法律制度还不够健全,随着这方面问题的暴露及处理这类事件经验的积累,未来一定会有比较规范的关于互联网隐私方面的法律出台的。今年 7 月 2 日国家出台了《数据安全法(草案)》,这算是从国家层面开始正式将数据安全列入法律管控,数据安全有法可依了。企业应该提前做好预防和规划,重视用户的信息安全,采取合适的保护用户敏感信息的方法。
作为用户,也需要特别关注自己的信息安全。在注册一个新 APP 时,谨慎选择授权,比如授权访问位置、通信录、摄像头、麦克风等。
目前很多 APP 虽然说有用户隐私协议,但是基本都是霸王协议,用户没有选择权,用户只有放弃自己的隐私才能使用该 APP,这不是真正的将隐私权交给用户。主动让用户自己选择是否可以利用用户数据,看似对收集数据不利,其实这是一种非常好的人文关怀举措,会极大地提升用户的好感,增加用户对产品的信任度。同时这也倒逼企业通过其它的技术手段在保护用户隐私的同时对用户行为建模,比如下面要提到的联邦机器学习。
Google 在 2016 年提出的联邦学习(参见参考文献 4)就是一种很好的尝试,联邦机器学习是一个机器学习框架,能有效帮助多个机构在满足用户隐私保护、数据安全和政府法规的要求下,进行数据使用和机器学习建模。联邦机器学习在推荐系统上的应用也是一个非常值得探索的方向,在这方面已经有企业在尝试和应用了,其中参考文献 5 中就有关于联邦推荐算法在微众银行中的应用,同时微众银行还开源了全球首个企业级的联邦学习框架 FATE(见参考文献 6),并且内置了联邦推荐学习算法,有兴趣的读者可以作为很好的学习材料。
30.3.4 帮助用户获取更多的差异化信息,让用户更好地学习成长
推荐系统是一种被动获取信息的技术手段,如果一直推荐用户感兴趣的标的物,会存在过滤气泡的问题,这不利于用户获取新的信息和知识。推荐系统一定要打破这种固有思维逻辑,给用户提供多样化的推荐,虽然这样可能短期对商业化有负向影响,但是这是让推荐系统具备人文关怀的必要,作者相信这种做法长久来看是“有利可图”的。
其实,每个人由于出生、见识、阅历、地理位置、社交固化等各种原因,接触到的知识是有限的,每个人都生活在一个自己亲手打造的深井中,我们只能观察到一片有限的天空。推荐系统提供的信息如果只满足了人的生物本能需求,是远远不够的。算法要让个人获得突破,就一定要给用户推荐用户不知道的东西,引发用户的好奇心和求知欲,激发用户对未知领域的兴趣。通过让用户获取差异化信息,让用户对世界有更多维度的了解,这有利于用户的认知升级和学习成长。作为一个有社会责任感的企业,需要对用户成长负责,必要的时候需要引领用户,而不是一味迎合用户。
给用户提供多样化的推荐,可以在算法中增加随机策略,给用户一些探索性的推荐结果,如强化学习中的 EE(Exploration and Exploitation,探索-利用)策略就是一种非常好的方法。另外,利用知识图谱来拓展用户的兴趣空间也是一个比较有前景的研究方向。
30.3.5 给用户更多的控制权,让用户能够自主抉择
我们在前面也提到了用户可以选择系统是否可以收集用户的行为信息,用户可以决定是否清空当前兴趣重新给用户推荐,这些都是用户的选择权。
在与推荐系统进行交互的过程中也需要给用户更多的选择权,比如是否可以主动选择过滤掉某类内容,甚至未来推荐系统可以让用户自己制定给自己的推荐规则,基于该规则来为用户生成个性化推荐。
在推荐的交互方式及展示方式等方面也需要给用户提供足够的控制空间,这样才能真正做到以人为本,以用户为中心。
推荐系统只是一种获取信息的方式,产品需要提供像搜索、筛选、导航等其他让用户主动获取信息的方式,并鼓励用户从多个渠道来获取信息,这样可以从另外的角度来影响推荐系统的行为,有效避免过滤气泡带来的问题。提供更多的用户主动探索的可能,也有利于用户自我学习成长。
30.3.6 更加多元化的目标,在用户、标的物提供方、平台之间达到利益平衡
我们在 30.1 节中就已经讲到,目前很多公司做推荐系统最核心的目标是商业化,通过推荐获得商业利益,算法优化的是 CTR 点击率。过度的商业化,导致推荐系统目标单一,唯利是图。短期来看对企业是很有利的,但是这种策略是损害公司长期利益的。
就像 30.2 节中提到的,推荐系统需要追求在多目标下的均衡发展。推荐系统涉及到的参与方有三个:用户、标的物提供方、提供产品与推荐服务的平台方,这三方都有各自的利益诉求,推荐系统一定要照顾到三者的利益。
对于用户来说,除了给用户提供精准的推荐外,还需要考虑到用户多种类的知识获取,拓展用户的认知空间,给用户更多的自主控制权,保护用户的数据安全与隐私。
对于标的物提供方,推荐系统在算法机制上就要鼓励优质标的物提供方创造更好的内容,给优质标的物更多的流量支持,适当的时候还需要增加人工的策略和规则,弥补算法做的不够好的点。另外,还需要在平台中制定适当的规范来对标的物提供方进行约束,让标的物提供方知道平台是鼓励生产/制造优质标的物而打击粗制滥造的。
对于平台方,商业利益需要考虑,但是不能操之过急,要细水长流。平台方为了生存,需要很早就考虑商业变现,但是一定要给自己制定一些规则和发展规划,对自己加以限制和控制,什么事情可以做,什么事情不能做,要有自己的原则和道德底线(比如不做医疗、保险等的广告)。当你在推荐系统迭代过程中始终考虑到了用户利益和标的物提供方利益,你的推荐产品才是健康发展的。
上面提到的 6 个思路及其中的一些方法更多的是指导性的,具体怎么实施还需要根据自己产品和行业特性进行有针对性的选择和细化,并有所侧重。
总结
推荐系统由于具备巨大的商业价值而得到企业界的追捧,但商业价值只是推荐系统价值的一部分,推荐系统有非常多的目标值得去思考和优化。作者希望推荐系统的从业人员学会更多的人文关怀。
推荐系统本身是没有价值观的,是我们人类赋予了它鲜活的生命,让它具备了某种价值取向。推荐系统需要克服非常多的问题,弘扬更多的社会价值,这就要求人类将自身的价值观通过规则、算法甚至人工介入的方式更好地整合到推荐系统中。
本章我们基于目前推荐系统存在的问题,结合作者自己的理解和感悟,比较主观地引出推荐系统应该具有的价值观,并基于该价值观来说明从哪些维度来构建推荐系统,可以让价值观得到最好的体现。这里面很多价值观是比较抽象,不易于用算法来解决的,因此人的作用就凸显出来,人与算法的有机结合才是推荐系统的未来迭代范式。
抽象的价值观怎么通过推荐系统表达出来,这是一个非常值得思考的问题,也是当前推荐行业非常缺失的,大家更多地关注了推荐系统的商业价值而忽略了其他价值。
本章通过作者自己的思考,对推荐系统应当具备的价值进行了全方位的梳理,希望给推荐算法从业者、算法产品、运营人员、企业管理者提供不一样的思考视角。
参考文献
1. [推荐系统有哪些坑?] https://www.zhihu.com/question/28247353
2. [推荐系统有什么危害?] https://www.zhihu.com/question/385821370/answer/1135280697
3. [如何理解“信息茧房” ?] https://www.zhihu.com/question/58195189/answer/684118964
4. [联邦机器学习] https://baike.baidu.com/item/%E8%81%94%E9%82%A6%E6%9C%BA%E5%99%A8%E5%AD%A6%E4%B9%A0/23618046?fr=aladdin
5. [联邦学习用于推荐场景] https://zhuanlan.zhihu.com/p/97826564
6. [工业级联邦学习开源框架 FATE] https://github.com/FederatedAI/FATE
7. [算法伦理:现状与困境] https://zhuanlan.zhihu.com/p/108567166
8. [人工智能的六大伦理原则] https://zhuanlan.zhihu.com/p/72952747
版权声明: 本文为 InfoQ 作者【数据与智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/5df279bd4df0a673070af3792】。文章转载请联系作者。
评论