内容平台与热点挖掘思考
一 简介
“内容平台”成为最近一个比较火的概念。早期的内容产出大多靠新闻、门户网站,由新闻专业人士生产内容,其他人都是作为内容获得者的角色,二次编辑较少。近些年随着 web2.0 的发展,更多的用户参与到了内容的提供和编辑,也赋予内容平台更广泛的信息来源。
“热点”(hot spot)指的是比较受广大群众关注,或者欢迎的新闻或者信息,或指某时期引人注目的地方或问题,如“社会热点”。“爆款”是指在商品销售中,供不应求,销售量很高的商品。不过最近也经常被用到文章上,例如某个话题下的十万+文章。
二 热点示例
下面几张图分别是新浪微博、今日头条、百度的热点推荐:
头条:
百度热榜:
三 热点形式
可见热点组织形式包括热点话题和热门新闻两种,除了新闻/话题标题足够吸引人外,还通常会标记“热度”,使用访问量、评论数,或标记爆/新等等。目的都是利用人们的从中心里,快速吸引用户兴趣,并促成打开/阅读/停留时长转化。
四 热点内容挖掘过程
4.1 内容来源
以头条为例,“今日头条并不生产内容,只做新闻的搬运工”,从这句话上就可以理解出,很多新闻客户端并不会亲自做内容,而是做分发平台,把已有的新闻内容分发到感兴趣的用户阅读。当然,现在中间会增加自媒体来源和已有新闻的二次编辑环节,丰富了分发的内容。
4.2 内容挖掘
有了内容(原始/二次编辑后),接下来就需要考虑信息如何呈现给用户、以怎样的形式提供。过去门户网站千篇一律的模式显然不再适合,头条等新内容平台的快速发展,就是基于用户兴趣 &意图的识别,推荐相关内容。
而这个“挖掘”,为了达到更好的效果,可能会涉及到很多环节。例如内容的沉淀积累、标签覆盖的完整程度和准确度、用户行为的收集、样本集分析和效果的验证等等。每个环节都可能包含大量的工作,例如打标签,早期都避不开大量的人工工作。随着文本分析模型的丰富和完善,才有了自动打标签方法和系统,来减少人工工作,但依然不能完全替代。
人际关系在模型中的作用也越来越重要。在很早的时候,就有“协同过滤”算法做内容推荐,利用某兴趣相投、拥有共同经验之群体的喜好来推荐用户感兴趣的信息,个人通过合作的机制给予信息相当程度的回应(如评分)并记录下来以达到过滤的目的进而帮助别人筛选信息。而如果能获取到更明确的用户好友关系、更多且更精确的共同兴趣标签或关系的远近程度,那么无疑将使推荐更为精确(当然,也更容易让人产生被监控的不良反应)。
4.3 热点推送
4.3.1 推送目的
消息推送,对于用户来说是及时获取信息;对运营来讲,能够提⾼⽤用户活跃度。例如基于某文章中的一份统计数据:在今日头条推送后能够提升 20%左右的 DAU,如果没有推送,会影响 10%左右 DAU(2015 年数据)。
4.3.2 推送内容
可以简单分为热点咨询和用户订制信息。
热点资讯包括行业咨询、快讯等,重点考虑热门内容,并利用大家的从众心态;用户订制信息,包括关注话题、发布内容的评论、点赞等等互动信息。
4.3.3 推送评价指标
推送后要关注的指标:点击率,点击量,能够监测到 App 卸载和推送禁用数量。
推送的主要内容:突发与热点咨讯,有人评论回复,站外好友注册加入。
4.3.4 推送服务
在客户端中,推送服务包括 APNs 和 GCM。iOS 的推送服务叫 APNs,所有的推送通知都是由苹果的 APNs 控制。Android 的官方推送服务器是 GCM。因为 GCM 在国内被墙,所以国内用户无法使用,大部分互联网企业用第三方推送服务或者自建服务,保证 APP 能收到推送。
因为苹果的封闭性,iOS 统计不了到达数,也统计不了打开数。你只能知道推送出去了多少用户,其余数据需要估算。
根据一些统计结果,打开率波动在 10~15%左右属于比较好的情况。
五 热点挖掘技术体系
以头条为例,本质上是一个强大的智能推荐引擎(来自文章: 今日头条技术架构分析):
目前还没有找到最新的架构方案,参考一下 18 年某篇文章中的系统架构描述:
六 关于热点挖掘与推送的几点思考
6.1 热点推送:实时性保障
1)物料实时性
尽可能直接对接新闻来源,避免中间环节降低时效
2)挖掘能力
准确性和低延迟,考虑流式计算方案,实时/接近实时的分析能力搭建
3)推送触达实时性
推送系统能力;如果全网能力不足,考虑根据用户活跃度进行分批触达确保核心用户接收信息的时效性。
6.2 热点挖掘能力
头条 &抖音目前已经无疑是新闻和短视频领域的行业第一,那么竞争者如果想在某些领域超越,是否还有机会或者可以尝试的方向?
个人感觉或许可以在以下几点做些尝试:
1、内容覆盖
更多的内容来源,提供商 &创作者入驻。内容提供商这点可能不太好扩充,但通过适当投入与优质得领域创作者合作应该还可以考虑,当然会有所侧重;
2、竞争对手深入分析
good case & bad case 整理与分析
3、用户画像体系沉淀
精准的用户画像体系是精细化运营的基础,完整性超越难度较大,但在某标签、某垂类下超越未必不行。发挥垂类优势,局部争取领先地位,并再次基础上逐步扩展,那么或许可以有数据上超越的可能。
面对行业内具备绝对优势的领头羊,直接铺开正面冲突恐怕效果不佳;无论是数据积累还是技术厚度都难以直接抗衡;那么,局部突破,依靠策略和部分人工来弥补技术劣势可能也是一种可行的选择。当然目前还只是纸上谈兵,有待后续持续验证。
版权声明: 本文为 InfoQ 作者【程序员架构进阶】的原创文章。
原文链接:【http://xie.infoq.cn/article/c2b257aeaa4d7eff476abad58】。文章转载请联系作者。
评论