写点什么

微博:公布热搜算法!

  • 2022-11-16
    北京
  • 本文字数:3896 字

    阅读完需:约 13 分钟

2021 年 8 月,微博官方通过官方账号“微博管理员”公布了微博热搜的产品规则和算法机制。


热搜算法是怎样构成的

根据微博的介绍,热搜数据的逻辑是根据用户的真实行为计算得来的。 

微博平台实时关注平台内正在受到用户广泛关注的热点内容,并据此形成热搜榜单。

榜单的排序代表着话题的受关注程度,排名越靠前,意味着在同一 时间段内该话题越受关注。

但是受关注程度又是如何被量化的呢?

此次公开的就是微博热搜的热度计算公式:(搜索热度+讨论热度+传 播热度)x 互动率。微博平台每分钟计算一次话题及热度,取前 50 名话题进行展示。

事实上,这并不是微博首次公开热搜算法。

从时间线来看,在这款国民级产品的“门面担当”的发展历史中,其算法经历了两次升级、三种面貌。而每次算法升级和新功能发布都伴随着规则或算法的公开说明。

2014 年,热搜功能在微博手机端上线,计算方式以“搜索量“为基础, 每 10 分钟更新一次榜单。

2018 年 3 月,热搜算法迎来了第一次大的升级。在原有“搜索热度”的 基础上,将热点的讨论、传播和互动数据一并纳入计算。此时,微博热搜的计算公式优化为:(搜索热度+传播热度)x 话题因子 x 互动因子。

得益于新的评价维度的引入,算法的升级使得热搜的抓取和排序更加客 观准确。根据微博热搜团队的介绍,热搜的几次算法升级代表着团队对热点认知不断进化的进程。

上线之初,热搜主要依靠搜索数据进行排序,问题在于, 并非所有的热点都能够通过搜索特征来挖掘和呈现。而后续的升级,通过在 算法上扩充讨论、传播、互动热度的计算,能够更准确地覆盖微博中热议的 内容。

但是对于这样的升级,也有不同的观点存在。比如,郑州大学新闻与传 播学院讲师王茜就指出,搜索量具有隐蔽性,因此往往更加真实,但是“转评赞” 等维度的数据常常含有表演的成分,这就意味着它更容易被操纵。

2021 年 8 月的声明可以视为热搜算法的第三次升级与公开。这次算法升 级新添了 “讨论热度”数据维度,并且去掉了 “话题因子”这一看起来更加 主观化的标准。这样的调整正是为了更全面真实地计算热点的完整热度。

此次声明的背景与前几次有类似之处,也存在着一些不同。

根据微博的声明,自 2021 年以来,关于热搜的揣测和谣言甚嚣尘上,社会各界对热搜给予了更多的关注。正因如此,微博发布公告,公开了微博热搜的产品规则和 算法机制。由此可见,此次声明主要因为有外部压力的触发。

在讨论此次声明之前,我们先来思考一个问题:微博热搜到底面临着哪些质疑?


微博的出发点

微博热搜面临的最大的质疑,就是榜单的客观性。具体而言,是“买热搜” 的问题。

“买热搜“是指想要让自己的话题登上热搜榜单的主体,通过向第三方机构付费,利用刷数据的方式使话题登上热搜榜,以此实现加强事件曝光或营销的目的。过去几年,质疑部分话题买热搜的声音频频出现。而类似质疑反映了微博作为一款国民级产品的社会影响力和受关注程度。

热搜通过对搜索词进行数据化、自动化、程序化的处理,以排行榜的方式供用户浏览和点击。在这个过程中,复杂的现实世界被转化为井然有序的信息条目。算法通过对信息条目进行收纳、过滤和排名,决定哪些话题可以成为公众关注的焦点,哪些话题会被淹没在信息的汪洋大海之中。

可以说,热搜是微博平台流量流向的一种展示。由于微博已经成为社会资讯的聚集地之一,微博热搜则在相当程度上反映了当下每分每秒中国人最关心的话题。

用郑州大学新闻与传播学院讲师王茜的话来讲,热搜满足的是用户渴望获取新闻的“社会知觉”:“在信息快速、大量流动的当下,以微博热搜为代表的热搜榜单对最近被热议的话题和新近发生的大事进行呈现,对网络舆论的引导起到一定的指向标的作用,也会对公众的价值判断和审美导向有很大的影响。” 

此前也有报道指出,热搜已经成为高校学生获取新闻资讯的主要渠道。其实不仅仅是高校学生,在信息快速流动的当下,热搜也已经成为公众判断 某个事件、现象、人物的社会关注度的重要依据。

正是因为微博热搜的地位如此重要,所以“买热搜” “刷热搜”这样的数据造假行为就显得不能容忍,这也是用户和监管方对其十分重视的原因, 同时也是微博频频治理此类行为的出发点。

2020 年 3 月 1 日开始施行的《网络信息内容生态治理规定》将“热搜” 列为重点对象。文件中的第十一条鼓励网络信息内容服务平台坚持主流价值 导向,优化信息推荐机制,加强版面页面生态管理。


热搜机制透明化

在这个时间节点上,面对质疑,微博于 2021 年 8 月选择公开微博热搜的产品规则和算法机制,显然是一种姿态的展示。

根据微博的公开信息,微博热搜算法主要参考搜索热度、讨论热度、传 播热度、互动率几项热度指标。

这些热度指标,虽然都是反映话题传播热度的因素,但是又各自指向不同的方向。

具体而言,“搜索热度”是基于搜索行为建立的热度模型,反映用户对热点的关注和探索程度;“讨论热度”是基于原创和转发的发博行为建立的热度模型,反映用户参与讨论的热情;“传播热度”则是基于热搜结果的关联微博在全站的阅读量建立的热度模型,反映热点在微博体系内的传播情况;“互动率”反映用户消费内容的意愿。

这样的热度计算模型是结合微博平台的特性设定的。一个普通的微博用户对热点的关注会存在不同的层次,热点触达、主动探索热点、参与热点讨论,都能够证明热点的热度。整合到数据维度上,体现为搜索热度、讨论热度、 传播热度三大热度。在三大热度之外,互动率体现的是热点的质量和可消费性。

三大热度的模型实现了不同数据维度上初始的量纲转换对齐。

比如一次阅读和一次搜索,代表的关注度和参与度是不一样的,也就是 行为的价值不同,这是一层转换。同时由于不同领域的热点的起源和发酵的路径不同,三大热度的表现也不同,因此在算法上实现了不同领域通道热点计算模型的差异。比如在社会热点的发酵过程中,引发用户讨论是一个很重要的能体现差异的衡量指标。在社会热点的热度计算中,用户的讨论情况受重视程度更高,在热度计算中所占的权重更高。

除了公开热搜算法,微博也公开了热搜算法之外的许多规则,比如一系列维护热搜纯洁性的措施。

“买热搜“实际上与我们大部分人印象中的“给钱就能上榜单“ “随便上 哪个榜单位置都可以“ “可以买热搜也能撤热搜“并不一样。

在 2021 年 8 月的这次声明中,微博声明了热搜排序中不存在任何商业售卖位置,在热搜榜排序之外,有两个广告资源位,一个在第 3 位,一个在第 6 位。而通过这种方式“登“上热搜榜的商业广告,除了不参与排序,也会有明确的“商”字标签。同时,对于广告内容,微博官方提供了严格的审核机制和上榜规则。

热搜榜的广告资源位并不采用竞价模式,而是采用定价模式,按时段(天或小时)售卖,定价一般按照年来更新。

除此之外的几种“买热搜” “刷热搜”的行为都不是官方许可的行为, 并且是官方持续着力打击的行为,比如水军刷数据、明星粉丝做数据,等等。微博在公告中提到,针对上述两种行为,热搜算法中包括了严格的排水军和反垃圾机制。

2019 年之前,第三方机构更多采用机器刷搜索量的方式来实现刷榜的目的。为此,热搜重点加强了搜索防刷 Mo 2019 年之后,由于搜索防刷机制 的不断升级,刷搜索量的方式已经很难实现刷榜的目的了。

同时,由于热搜算法开始全面升级,除了搜索热度,还增加了讨论热度、 传播热度、互动率等维度。一些机构开始从热点传播角度入手,采用大号集 中发博、水军伪造真实用户参与话题讨论的手段,试图通过刷讨论数据和刷 互动数据提升热度,实现刷榜的目的。

由于热搜算法核心依赖的数据来源于微博的搜索行为、讨论行为、互动行为,传播热度依赖于微博讨论而存在,所以,针对数据造假行为,热搜算法也相应地构建了搜索行为防刷、微博讨论防刷、互动防刷三套体系,通过用户层、行为层、内容层等不同层次设定防刷策略,去除异常数据。

近年来,热搜算法采取更严格的用户过滤机制,排除刷榜营销用户和异 常行为用户,防范通过低质用户伪造热度的行为,疑似垃圾用户、水军、假设备账号等异常账号都会被排除在热搜计算之外。在行为上,算法也对行为来源进行多维度特征管理,过滤疑似异常的行为日志。同时,通过热点下聚集行为的特征分析,包括用户群分布、终端系统分布、内容特征等维度,算法能识别可能存在异常热度的热点内容,对这些内容进行严格防范甚至惩罚。

防刷机制在线上持续实时计算,预防内容通过刷数据行为上榜,如果内容上榜后开始刷数据,就会触发自动防刷处罚机制。对于数据存在异常的内容和账号,平台会定期发布处罚公告,进行禁止上榜、搜索不收录等处罚。

为了保证算法能够正常发挥作用,微博热搜在话题的选择和排序上加强了人工管理,不但对热搜信息加强人工调控,而且对全部上榜热词进行人工审核。

为提升内容审核能力,微博单独设立了内容编辑中心,整体负责热搜、 热门话题,包括热门微博等曝光量较大的产品,对全部上榜热词进行人工审核和判断。

经过多年的发展,微博热搜从社区搜索排行榜单产品,到社区原生热点内容榜单产品,再到现在结合了媒体新闻热点,成为一个更加综合性的热点榜单产品。

“热搜是什么”其实取决于“公众需要什么样的热搜”。

不管承载的内容如何转变,作为一个内容型产品,热搜一直在随着时代发展、随着 大众的认知变化而成长,其本质都是希望为用户提供新鲜真实的资讯。

根据微博的反馈,接下来,微博还会朝着热搜透明化的方向做进一步的尝试。比如,针对热搜用于热度计算的几大热度指标(搜索热度、讨论热度、 传播热度、互动率),直接做到实时可查询。在系统可解释的道路上,微博也在计划公布更细化的内容管理规则,进一步推动热搜机制的透明化。

本文节选自《科技向善:从银发、乡村到无障碍的商业新范式》,更多精彩内容欢迎阅读本书!




京东满 100 减 50,快快扫码抢购吧!

用户头像

还未添加个人签名 2019-10-21 加入

还未添加个人简介

评论

发布
暂无评论
微博:公布热搜算法!_博文视点Broadview_InfoQ写作社区