推荐系统的人工调控策略 (三十五)
写在前面:
大家好,我是强哥,一个热爱分享的技术狂。目前已有 12 年大数据与 AI 相关项目经验, 10 年推荐系统研究及实践经验。平时喜欢读书、暴走和写作。
业余时间专注于输出大数据、AI 等相关文章,目前已经输出了 40 万字的推荐系统系列精品文章,今年 6 月底会出版「构建企业级推荐系统:算法、工程实现与案例分析」一书。如果这些文章能够帮助你快速入门,实现职场升职加薪,我将不胜欢喜。
想要获得更多免费学习资料或内推信息,一定要看到文章最后喔。
内推信息
如果你正在看相关的招聘信息,请加我微信:liuq4360,我这里有很多内推资源等着你,欢迎投递简历。
免费学习资料
如果你想获得更多免费的学习资料,请关注同名公众号【数据与智能】,输入“资料”即可!
学习交流群
如果你想找到组织,和大家一起学习成长,交流经验,也可以加入我们的学习成长群。群里有老司机带你飞,另有小哥哥、小姐姐等你来勾搭!加小姐姐微信:epsila,她会带你入群。
随着移动互联网的深入发展,推荐系统越来越得到企业界的认可,成为 toC 互联网公司的标配技术。推荐系统借助机器学习技术,基于对用户行为的挖掘,能够洞察用户的兴趣偏好,自动化地为用户生成个性化的内容推荐,整个推荐的过程基本可以做到完全自动化,不需要人工干预。虽然很多方面机器可以比人做得更好,但机器也有自身的问题和缺点。目前的人工智能在情感、应急处理、复杂问题决策等很多方面还根本无法与人相比,这些方面都可以很好地体现人类的价值。在推荐系统中,这一情况也存在,推荐系统需要借助人工来进行策略调控,以获得优质的用户体验、更好地实现商业目标。
利用人工对推荐系统进行策略调控,除了用户体验的考虑外,还有安全性、商业价值等维度的权衡。本章我们就来讲讲推荐系统中的策略调控问题。具体来说,我们会从什么是推荐系统的人工调控、为什么要进行人工调控、怎样进行人工调控、怎样评估人工调控的价值、人工调控面临的挑战、人与机器的有效配合等 6 个角度来介绍相关知识点。通过本章的分析和讲解,希望读者可以更好地理解人工调控在推荐系统中的作用与价值。
26.1 什么是推荐系统的人工调控
企业级推荐系统进行推荐的流程一般可以分为召回、排序、业务调控 3 个阶段(见下面图 1),这其中的第三个阶段业务调控就涉及到人工调控策略,这只是其中一种可行的干预方式,也是比较重要的一种干预手段,后面我们会详细讲解在这里可以进行哪些干预。
图 1:企业级推荐系统三阶段 pipeline 架构
一般来说,一切对推荐系统运行过程中的策略和模块进行人工调整的方法都叫做人工干预。广义地说,选择什么样的数据集、选择什么模型、怎么定义参数、对模型结果的干预等等都属于人工干预的范畴。这些干预的过程很多是算法人员进行的干预(如特征构建、模型选择、参数选择等),在本篇文章中我们指的干预是指产品运营人员对推荐系统进行的产品策略、运营策略层面的干预,后面统一称为运营干预。作者在《推荐算法团队介绍》3.2.3 节中对运营团队对推荐系统的干预进行了简单介绍,至少包括如下 3 种干预方式:
(1) 调整位置与展示;
(2) 干预具体的推荐结果;
(3) 对算法逻辑的干预;
这只是一部分干预方式。一般来说,运营策略的干预包括算法之前的干预、算法过程中的干预、生成推荐结果之后的干预 3 大类,我们在第 3 节会进行更细致的讲解。上面提到的运营人员的 3 种干预属于对结果和过程的干预。
大家了解了什么是人工干预,下面我们来分析一下为什么要进行人工干预,人工干预到底有什么目的和价值。
26.2 为什么要进行人工调控
推荐算法与人工调控的关系,类似于经济学中的市场机制(market mechanism)和宏观调控机制(macro-control mechanism)之间的关系。推荐算法根据用户的行为构建模型进行推荐,是用户在平台上的自然行为的有效挖掘,这与市场机制是通过市场竞争配置资源(即资源在市场上通过自由竞争与自由交换来实现配置)的机制是非常类似的。人工调控是通过引进人工策略对推荐系统的运行加以优化、调节、引导,这与宏观调控机制是在国家层面统一协调下以计划、财税、金融手段为主,通过间接手段调控、引导市场活动也是非常类似的。
人工调控的作用是非常巨大的,也是非常有必要的。就拿肆虐全球的新冠病毒来说,中国进行了大量的政策和人工层面的干预,比如隔离、封路、封交通工具、医疗物资的定向供给等等,通过这些干预很好地控制了疫情,而西方国家由于政治体制的不一样,很难做到中国这样的有效干预,因此,疫情控制不容乐观。
在推荐系统中,人工调控的作用同样不容小觑,人工调控的主要目的是解决机器学习算法比较难解决的问题而进行的有效策略补充。一般说来,之所以进行人工干预,主要是满足如下 5 类需求,下面我们来分别详细介绍。
26.2.1 用户体验
推荐系统除了需要精准地挖掘出用户的兴趣,推荐用户感兴趣的标的物外,还需要满足惊喜度、多样性、新颖性等需求(读者可以参考《推荐系统评估》了解更多推荐系统评估指标及细节)。这些需求很多都是比较抽象的,机器学习算法很难量化,因而很难做好,需要人工增加一些策略上的补充和控制。
在视觉上也可能需要根据特定情况进行调整,绿色矩形框住的部分就是在双十一这个特定时间点做的特殊配色和 UI,图中这一区域也是淘宝个性化推荐的一种产品形态。通过在双十一做这样的调整,烘托出节日的气氛,提升用户的视觉体验,让用户更有点击的冲动。一般在重大节日、重大事件或者运营活动时,都可以做 UI 方面的调整,以营造气氛,提升用户感知度,优化体验。
对热点事件的把握、对内容的深度思考和深度关联,有专业素养的编辑运营人员是强于机器的,通过整合专业人员的理性思考,并将这些思考整合到推荐系统中,有助于提升标的物的浏览、点击、分发与转化,最终提升用户的满意度。
26.2.2 安全性
在某些行业(如视频、食品等)安全性至关重要,需要对待推荐的标的物的安全性进行人工把关,避免推荐不合适的标的物。比如一般电影都是有分级策略的,电影分级策略是指根据发行的电影中包括的性爱、暴力、毒品、粗俗语言等在内的成人内容的量和程度将其划分成特定级别,并给每一级定义好允许面对的观众群,以便运营人员有参照地、选择性地进行内容运营,避免在不合适的时机给不合适的用户推荐不合适的内容,起到促进所有观众身心健康的作用(读者可以看看参考文献 3 了解某条和 Facebook 在这方面遇到的麻烦)。绝大部分国家和地区如美国、英国、日本、中国香港等都有完善的电影分级制度。在部分国家,电影分级制度不具有法律效力,但在行业内部具有约束力,只对观众起提示的作用,由观众实行自我保护。对于这类内容需要制定一些人工的策略,比如在家庭电视上,偏向成人的内容需要在晚上十点以后进行选择性推荐等,避免小孩看到,影响儿童身心健康。
随着手机摄像头技术的成熟及智能手机的普及化,UGC 内容是非常重要的一块内容补充,现在主流的 APP 基本都提供了用户上传内容的功能,比如某手、某站、某宝等,内容的可控性变得越来越困难也越来越重要。UGC 内容的安全性把控是这些产品的推荐系统必须要谨慎面对和有效控制的问题。
对于这些涉及到安全问题的内容,虽然算法可以做到一定程度的识别(比如通过 AI 算法进行鉴黄等),但是由于互联网信息的非结构特性(特别是图片、视频、音频等),机器处理难度较大,准确率有待提升,最终还是需要人工来处理。不过机器可以提供很好的辅助,最终减轻人的工作量。
26.2.3 商业价值
有时需要人工制定一些推荐的策略,让推荐系统可以获得更大的商业价值。通过制定一些人工的策略,对具备不同购买力的人推荐不同价格的商品,从而获得更多的商业价值。比如对于商务人士推荐头等舱而对于一般的人士推荐经济舱等。这样做也是道德的,是可以提升用户体验的。而根据不同用户对价格的敏感度不一样,对同一件商品给不同的人提供不同的价格,从而让企业获得更多的商业利润,这种做法可能就是不道德的,这就是所谓的“大数据杀熟”。
获取商业价值是公司生存的基础,也是运营人员最重要的日常工作和行动目标之一,推荐系统作为一种成熟的有商业化价值的技术手段,是运营人员在进行商业化决策中的有效工具。
26.2.4 运营需要
有时为了运营的需要也需要进行人工策略的调控。通过人工策略的引导,让资源达到某种程度的倾斜,最终让整个生态更加健康成熟,良性发展。
比如某宝等平台方在引进某些新品类的商品时,需要对它们进行一定的资源支持和流量倾斜,这时在推荐策略上会对该类商品增加更多曝光的概率,最终让该品类获得更大的市场空间。
某手作为短视频平台,希望提供普惠的价值观,所以在某手中的推荐策略是给普通人平等的曝光机会,而抖音更多的是运营导向,只有爆款内容才能得到好的资源,头部效应更加明显。
对于某些重大事件、节日、运营活动等,也会采取一些策略来对推荐系统进行一定的干预和引导,以配合这些事件和活动。策略的调整既可以是算法策略,也可以是 UI 交互方式,种类可以非常丰富。某条在推荐中置顶了两条推荐,都是与新冠病毒疫情相关的新闻,就是在当下特殊时期的人工干预策略。这种策略可以让更多的人对疫情有更好地了解,起到信息普及和告知的作用。
对于新功能、新模块、新产品的引流,也是常用的运营干预方式,比如某条推荐就会对问答、某音、小视频等内容进行引流。
26.2.5 减少内容运营人员数量,降低人力成本
如果在推荐系统中可以增加足够多的人工调控策略和手段,让调控手段更加灵活多样,将人的优势和机器的优势结合起来,那么所有的位置都可以给到推荐系统(或者说,所有的人工运营板块都可以整合算法能力),这样内容运营人员的工作量就会减少,也不需要这么多内容运营人员参与了,从而可以降低运营人员的人力成本。这时只需要花更少的钱招聘少量足够优秀的、对内容有深度理解的高级运营就可以了。
总之,对于推荐系统来说,人工调控是非常有必要的,不管是提升公司自身利益,还是帮助提升用户体验,亦或是构建完善的内容生态,都有极大的价值。既然人工调控这么有价值,那么读者一定想知道该从哪些方面进行调控,其实前面已经零碎地讲了一些,下面一节我们来系统性地介绍。
26.3 怎样进行人工调控
前面两节我们介绍了什么是人工调控以及人工调控的目的和价值,本节我们来讲解怎么进行人工调控,有哪些调控的方法和策略,以及可以从哪些维度进行干预。
推荐系统是一项非常专业化的系统软件工程,我们可以大致将推荐系统分为 6 个大的模块(阶段),分别是(生成)数据、(构建)特征、(训练)推荐模型、(生成)推荐结果、(渲染)前端展示的结果、(评估)推荐效果。其实,人工调控可以在这 6 个阶段中的每一个阶段进行控制,下面我们一一说明。
图 5:可以在推荐系统的 6 个阶段进行人工调控
26.3.1 数据层面的人工调控
推荐算法的数据至少包括两大类,一类是用户行为数据,一类是标的物相关数据,有些公司还可以收集更多的其他数据:包括用户相关数据、第三方数据等。一般用户行为数据用于推荐算法构建模型,具体采用什么数据、怎么使用数据构建模型都是算法工程师来决策,主要目的也是为了推荐算法更加精准,这一块一般运营人员不会进行干预。但是对于日志打点需要收集什么类型的数据,用户的每类操作对于用户是否产生点击行为的重要性等,运营人员可能会更有感觉。在这方面寻求运营人员的专业建议,对选择合适的特征、怎么构建特征等是非常有帮助的。为了收集到更多的有价值的用户行为数据,构建更有意义的特征,训练出效果更好的模型,需要算法人员跟运营人员多沟通。
对于标的物 metadata 数据,一般用于构建基于内容的推荐模型。可以采用文本、图片、音视频等信息来构建模型,算法人员基于目前已有的数据和技术能力来自己控制怎么选择和利用这些数据。其实很多数据是需要借助运营人员来补充和完善的,比如最典型的标的物的标签,就需要借助内容运营人员的专业能力进行规范和统一化,构建完善的标签体系。完善的标签更利于构建质量好的内容推荐模型,像某条、某 x 等都有庞大的编辑团队对内容进行标签化。
运营人员虽然对模型构建过程不需要进行干预,但对于能够推荐什么样的标的物、在什么范围内推荐标的物,运营人员是需要进行把控的。
基于特殊场景、安全性、标的物质量上的考虑,运营人员一般需要控制可以推荐的标的物池,在这个池子中进行标的物的推荐。前面提到的视频安全性中,就有这样的诉求。再举个例子,在视频行业中,在首页推荐的视频的海报图一般要很清晰,很多老电影海报图质量是比较差的,这时运营人员就可以选择海报图质量高的视频(如果视频 metadata 中没有海报图质量这个属性,可以基于年代来粗略筛选,最近十几年拍摄的视频一般海报质量会比几十年之前的好很多),在首页只能推荐这类有高质量海报图的视频。这种属于正向选择推荐池,反向操作也是可行的,剔除掉不满足一定需求的标的物,在剩下的标的物中进行推荐,这属于黑名单策略。
一般提供 UGC 内容的平台方,内容来源于第三方,这时推荐系统的一个重要作用是要维护好整个生态的稳定平衡。需要保证提供优质内容的生产方获得更多的曝光机会,而生产劣质内容(如低俗、标题党、低质量、暴力、性暗示、色情等)受到一定程度的限制和惩罚。这就需要采用一定的规则和策略对它们进行干预,这种干预可以采用人工调控的方式(比如选择对什么类型的标的物进行打压,打压的粒度等等,都需要人工制定规则和策略)。像某手这种提供普惠价值观(让每一个生活都被看见,见参考文献 1)的 APP,需要保证每个人提供的视频都可以被曝光,只要你的内容足够优质,你也可以成为热门,这里面肯定有很多人工的策略在里面,这种普惠的价值观其实就是一种最强的、价值观层面的人工策略。
数据和内容是整个推荐系统的核心基础,推荐系统给予运营人员一定范围的控制能力,并多结合他们的行业经验和对内容深度把握的优势,是可以让推荐系统变得更好的。
26.3.2 特征层面的人工调控
在这一阶段,通过特征工程,我们基于数据构建出模型可以直接使用的特征。特征是给算法用的,运营人员在这方面的调控可能更多是建议性质的。运营人员与用户距离近,更熟悉用户,更懂业务,可能更知道哪些特征对模型优化的指标是有正向价值的,哪些特征是没有什么帮助的,特征怎么进行交叉更有价值等。总之,运营人员更知道怎么构建合适的业务特征。
如果算法平台可以提供一个自动化、可视化地构建特征的工具,那么运营人员通过适当的培训是可以作为(业务)特征生产者的。下面的图 6 就包含特征构建的可拖拽模块,有了这样的工具,运营人员就可以发挥出他们业务敏感度和专业度的价值。
26.3.3 模型层面的人工调控
我们知道企业级推荐系统的算法模块一般包含召回、排序两个阶段(图 1 红色方块中前两个模块)。对于召回阶段可以有多种召回策略,内容运营人员根据自己对当下热点内容的把握和深度理解,结合当下的热点事件,可以人工整理一些优质的内容池,作为一种召回策略,这种召回方式是可以整合到整个召回策略中的,从而实现了在召回阶段中整合运营人员的专业能力。
基于产品发展或者商业化上的考虑,也需要对模型进行调控。前面提到的推荐系统中需要对新功能、新模块、新产品进行引流。在信息流推荐中,还需要插入广告,利用推荐来获取商业利益。这两种方式的干预都需要运营人员参与,这种干预涉及到多种类别内容的召回,算是对模型的一种干预。其实这里也涉及到其他方面的干预,比如控制广告的次数、控制对新模块导流的比例等属于结果层面的控制,在后面不再赘述了。
另外,如果推荐系统工程体系做得比较好的话,各个算法组件是可以模块化的,每个算法抽象为一个算子,算子的输入输出采用一定的数据交互协议规范化,这样就可以做到可视化、拖拽式地进行建模,作者团队也是采用这种思路做的,最终实现了一套模块化的推荐系统框架 Doraemon,可以像搭积木一样构建推荐算法体系(我们在《推荐系统的工程实现》中对 Doraemon 框架进行了深入的讲解),不过还没有做到可视化、可拖拽的构建模型,这也不是作者团队当前阶段主要考虑的事情,因此价值不大。
阿里云的 PAI 机器学习平台(包含推荐相关算子),思路也是一样的,并且做到了可视化、可拖拽式建模。做到这个程度了,运营人员只要懂算法的基本原理,就可以自己利用该平台进行机器学习模型的构建与测试,可以自行完成机器学习模型的训练,并部署到业务中。借助 AB 测试能力,通过不断迭代提升,最终产生业务价值。这种方式给不懂技术的运营人员提供了操作模型、调控模型的可能,通过技术赋能,让人人都可以成为推荐算法工程师。
26.3.4 结果层面的人工调控
在推荐结果层面的调控应该是最立竿见影、最直接有效的调控方式了。常用的调控方式有基于运营需要或者特殊事件置顶部分标的物,这在前面的已经做过介绍。在视频行业可能还存在监管的需要,推荐系统必须具备直接下线某个节目的能力,其他行业也会由于版权的问题,需要具备下线某个或者某一组标的物的能力。
这种控制的粒度不只限于某个标的物,还需要具备根据某个标签或者特征下线或者上线一批标的物的能力。比如由于侵权,平台方需要下线某个歌手所有的音乐。对标签或者特征的控制除了上下线这种比较极端的情况,还可能需要控制优先级、数量等。
对结果层面的其他调控还包括对某类标的物人工定义不同的权重从而影响标的物的最终排序。这种调控常见于运营活动中,对于重点推的某个品类的标的物或者某个标的物生产方的标的物进行有针对性性的提权。
除了控制权重,还可以对标的物的比例进行一定的控制,比如冷热节目的比例、标签的比例、类型的比例等。在家庭智能电视上的视频推荐场景中,如果家里有老人小孩的话,在首页的推荐就需要保证老人喜欢看的抗战类、小孩喜欢看的动画片等多个类别的节目都存在。
上面提到的权重、比例等控制,一般会放到排序后的业务调控阶段(参加图 1 中红色方框中的业务调控模块),通过算法工程师将这些业务控制逻辑转化为规则或者策略整合到算法体系中。
为了提升最终推荐结果的多样性和惊喜度,有时也需要加入一些运营人员制定的随机策略,对推荐标的物进行多维度的打散。
26.3.5 展示层面的人工调控
推荐系统链路中最后一环是 UI 展示,当前端获取到推荐结果时,通过渲染引擎将推荐结果展示出来呈现给用户,用户就看到了推荐的标的物。对于视觉展示方法也是可以进行人工控制的。
我们在 26.1.1 中提到了一种调控方式,即是配色、配图、文案等的调整。除了这些外,还可以进行的人工调控有如下几种:
(1) 字体颜色与大小的调控;
(2) 相互位置的调控,包括两个推荐标的物之间的距离,上下两行之间的距离;
(3) 交互形态的调控;
(4) 展示的海报图大小或者形状的调控;
(5) 模块位置的调控;
(6) 推荐标的物数量多少的调控;
(7) 实时推荐中节目刷新的频次、一次更新的条数的控制等;
这些调控都是需要后端提供一套完善的内容编排系统、需要前端提供展示支持的,否则是无法做到的。这些调控也是有限度的,很多都依赖于所拥有的的资源,比如只做了两种不同大小的海报图,那么只能支持这两种海报图之间的切换。
下面我们拿某猫的产品举一些例子让读者更好地理解。某猫的首页推荐,其中可人工调控的是左边导航栏的标题、图片等(例如,现在是疫情期间,增加了一个战疫情的 tab),中间的海报图有横条的长方形还有竖直的长方形,横条的长方形是竖直长方形的两倍大小,对于某个节目是可以选择这两种 UI 的(只要这个视频具备这两类 UI)。对于下面的兴趣推荐,兴趣推荐这四个字是可以调整的,下面兴趣推荐有多少行、选择什么样的海报图、兴趣推荐在产品中所在的位置等都是可以人工干预调整的。
某猫电影频道的主题推荐,其中爱情和惊悚片是两个用户感兴趣的主题,属于主题个性化推荐,这里面可以人工调控的有:主题的个数(这里是 2 个主题)、每一个主题包含几行(这里是 1 行)、每一行包含多少个节目(这里是 6 个)、主题在上下的位置等。
26.3.6 效果层面的人工调控
企业在产品中引入推荐系统是有目的,期望通过推荐系统更好地进行内容分发、提升用户体验、促进用户活跃、增强用户粘性、产生更多的商业价值等(我们已经在《推荐系统的商业价值》中详细介绍了推荐系统商业价值方面的知识)。这些目标在公司不同阶段有不同的重要性和优先级,有些目标之间是互相冲突的,需要进行权衡。怎么定义这些目标,在不同阶段以什么目标为重,这些都是运营人员可以控制的。特别是在运营驱动的公司中,这些指标可能就是运营团队来背的,因此一定是运营人员来决定的。
上面我们从推荐系统业务流的角度从 6 个维度介绍了运营人员可以控制的部分及具体的控制策略。其实控制策略可以更广泛,在产品形态等其他方面运营人员也可以进行干预,(产品)运营人员可以确定推荐产品形态的数量,决定哪些产品形态是最重要的。
调控的目的一定是优化用户体验、提升标的物曝光、点击和转化的,甚至是产生更多的商业价值。那么人工控制到底起到了作用吗?我们怎么评估人工调控的价值呢?下面我们就来探讨这个问题。
26.4 怎样评估人工调控的价值
前面提到了很多进行人工调控的方法和策略,我们期望人工调控是可以给推荐系统带来巨大价值的,在第二节也讲到了人工调控的价值,那么我们怎么来评估人工调控的价值呢?一般我们至少可以从如下 4 个角度来评估人工调控的价值。
26.4.1 从宏观指标上的趋势变化来看待人工调控的价值
对于每一类产品都会有一些反应产品整体价值的较缓慢变化的宏观指标,这些指标是公司非常看重的业务指标。拿视频行业来说,日人均播放时长是一个比较重要的指标。我们可以基于过去一段时间的运营实践和数据统计分析,确定某个需要人工干预的推荐模块(或者在人工运营中整合个性化运营能力的模块)的基准指标值,后续持续运营与优化,通过不断提升基准值让产品做得更好。如果在人工干预运营期间有算法迭代优化的话,这里面可能需要区分出到底是人工运营产生的价值还是算法优化的价值了,这就需要借助下面提到的 AB 测试。
26.4.2 通过科学的 AB 测试来评估人工调控的价值
我们知道 AB 测试是一种科学的评估工具,广泛运用于互联网公司的产品迭代中,通过 AB 测试也可以很好地评估人工调控的价值。通过将用户流量分为 AB 两组,一组是无人工调控的,另外一组是包含人工调控的,通过一段时间的用户使用,收集用户行为数据,在关键指标(我们在《推荐系统评估》有对评估指标详细的介绍)上对比这两组指标值的差异,就可以评估出人工调控对关键指标的影响和价值。AB 测试一般用于评估比较复杂的人工干预,特别是对模型层面和特征层面的干预,通过 AB 测试是比较好的评估方式。
26.4.3 通过用户调研来评估人工的价值
上面 1、2 中评估的都是一些宏观的商业化指标或者用户体验指标,实际上这些指标高并不等价于用户体验真正好。并且很多指标也是无法用 1、2 这种方法评估出来的,如安全性等。某种程度上用户的真实体验是至关重要的,它决定了用户对你的产品的忠诚度和满意度。这方面的洞察可以通过用户调研来获得。我们可以通过问卷、电话访谈、面对面交流等方式来了解用户对推荐系统的看法,以及对不同人工策略的建议等。对这方面知识的掌握和了解,可以更好地帮助运营人员和推荐算法人员了解用户的心理,从而迭代出更符合用户心理预期的推荐产品。
26.4.4 通过抽查来评估人工的价值
运营人员可以对推荐依赖的数据进行控制,比如运营人员打的标签,可以通过抽查,或者交叉验证等方式来评估内容运营人员人工生成的标签数据的质量。对于其他可以直接影响推荐结果的控制(结果层面和展示层面的控制),一般是可见即所得的,因此是可以直接在 UI 界面上查看调整效果的,这样就可以进行人工肉眼评估了,如果有什么重大问题是可以立马发现的。
26.5 人工调控面临的挑战
人工调控是在整个推荐系统的生命周期中引入人的因素,特别是运营人员的知识和经验,让推荐系统更加灵活可控,更好地提升用户体验、获取商业价值。但推荐系统是一个复杂的系统工程,怎么引入人工调控,人工可以怎样调控都会面临着比较大的挑战,在本节我们来进行简单说明。
26.5.1 知识层面的脱节,沟通不畅
一般运营人员更懂用户、更懂业务,而对算法方面的知识有限,而推荐算法人员熟悉算法和工程体系,但是缺乏对用户的了解和研究,离业务也比较远,业务敏感度较低。要想让推荐系统整合运营人员的经验,首先在沟通上就可能存在障碍,算法人员很难让运营人员理解调控的影响,运营人员也很难让算法人员体会到人工调控的价值。
算法人员与运营人员分属于不同的团队,也可能会存在一定的利益冲突,这更加剧了沟通困难。这需要公司引入各种管理和机制层面的保障,努力让双方可以多沟通,互相学习。算法人员需要了解一些业务知识,深入了解用户,对运营的一些操作流程有所熟悉。运营人员同样需要了解一些工程和算法的基本原理。只有这样,双方才可能沟通顺畅,最终迭代出一套真正有价值的可运营的推荐系统。
26.5.2 推荐系统流程长、算法结构复杂,很难精确评估影响范围
推荐系统本身非常复杂,包含非常多的模块,控制流程长。同时很多推荐算法,如深度学习等,本身就是一个黑盒模型,根据输入的调整与变化很难知道对结果的具体影响。这两点导致了很难知道调控影响的范围和结果,也无法做到可见即所得。很多时候需要借助多年的实践经验及 AB 测试等科学工具来评估运营控制的成效。
26.5.3 提供一个供运营人员方便操控的界面是一件复杂的事情
前面一节提到运营控制涉及到推荐系统的各个模块,方方面面都可以进行人工干预,那么怎么让人工干预更好地落地就是很有挑战的事。怎么给运营人员提供一个可操作的界面是非常关键的,操作还必须要响应及时、流畅,这样可以提升运营调控的效率,他们也更能够理解怎么去进行调整,也更容易进行调整,如果能够做到可见即所得,那么就是一个比较好的操作界面了。另外,为了安全起见,运营人员的操作需要进行记录,方便对操作历史的追查,同时在操作出错时还需要能够方便地回退到操作前的状态。
虽然本节我们讲了很多人工调控面临的困难和挑战,但是人工调控是非常有价值的,也是不可或缺的。在当前机器是无法取代人的价值的,最好的方式是人与机器良好协作,通过协同将两者的价值最大程度的发挥出来。下面我们花一点篇幅来探讨人和机器有效协作的问题。
26.6 人与机器的有效协作
前面几节我们讲了人工调控的方法、价值、以及人工调控面临的困难。目前 AI 技术还只能在简单领域超越人类,在推荐系统领域,在很多方面(第三节的内容)还是需要人工的干预才能做得更好,人和机器只有更好地紧密配合才能产生最大的价值(参考资料 2 中提到抖音利用人和机器对 UGC 内容进行双重审核,这是人和机器协作很好的案例)。
机器(推荐算法)最大的价值是可以做到全天候、无人工干预(当模型部署上线后基本不需要人工帮助了,在模型构建和训练中是需要算法工程师参与的)、自动化、近实时地为用户提供个性化的内容推荐。机器也不会受到情绪的影响,判断是完全理性客观的。同时机器可以做到很低的边际成本。这里面提到的点都是人工不具备或者做的不够好的。
运营人员最大的长处在于对行业知识的深刻洞察、对趋势的判断与把握、对复杂因果关系本质的分析、对人性的洞察、对情感的关怀、对跨领域概念的连接等,人更有创造力,这些都是机器很难做到、做好的。
推荐系统是一种运营的工具,最终服务的是人,最了解人类自身的还是自己。因此,在推荐系统中整合人的因素、整合人的决策策略,可以让推荐系统更加人性化,更有温度,最终让用户可以感受到更多的人文关怀,从而增强用户对推荐产品的情感联系,提升用户体验的同时,保证了高粘性。
综上所述,一个好的、有温度的推荐系统,一定是人工和算法有效配合的产物,只有发挥两者的优势,互相补足,才能让推荐系统更加完美。
总结
本章我们对推荐系统的人工调控进行了全面的介绍。我们介绍了什么是人工调控:一切对推荐系统的人工干预都算人工调控,但本章指的调控主要聚焦在运营人员对推荐系统的干预。
人工调控是非常有价值的,它的价值体现在用户体验、安全性、商业、运营需要、节省人力成本等多个维度。人工干预的形式是多种多样的,我们可以对推荐系统流程中的各个方面进行人工干预。对于人工干预,我们需要明确它的价值,也需要知道做好人工干预是一件很困难的事情。人和机器都有各自的优缺点,只有很好地结合两者的优势,才能打造出更加精准、更加人性化的推荐产品。
作者认为人工智能和人类在构造上的不同(机器是物理性构造、人类是生物化学构造)决定了机器永远也无法替代人。在信息爆炸和科技快速发展的当代,那些善于利用和挖掘人与机器协同价值的公司才能在竞争中获得生存的主动权。
参考文献
1. [书]《快手是什么》
2. 图解抖音推荐算法https://mp.weixin.qq.com/s/EuQBuezHo5w7nBq0LQTsFg
3. [某 Tube 和某很委屈:暴力的锅推荐系统该不该背] https://mp.weixin.qq.com/s/jhuFVLOnbjO0-J27B3cYiA
版权声明: 本文为 InfoQ 作者【数据与智能】的原创文章。
原文链接:【http://xie.infoq.cn/article/0de93e61165304cab51db722b】。文章转载请联系作者。
评论