写点什么

小说内容理解

用户头像
DataFunTalk
关注
发布于: 2020 年 12 月 30 日
小说内容理解

导读:本文主要跟大家分享连尚文学在做免费小说业务时,从推荐系统的算法角度对小说文学的内容理解。主要内容包括:


  • 小说文学的特点

  • 小说的算法和成果


小说文学的特点

1. 小说是什么?

首先看下小说的定义:


小说是通过塑造人物、描写背景、叙述故事、描写环境来反映生活、表达思想的一种文学体裁,它是拥有完整布局、发展及主题的文学作品。想象丰富,内容情节跌宕起伏,也反映了人们现实生活中的无奈,以及无奈的那种向往美好生活的渴望!(摘自百度百科)


2. 小说文学的特点

通过小说的定义可以发现,小说的这种文学体裁,有它独自的特点。下面从推荐业务角度,可以归纳为以下几点:


  • 小说容量大,包含多种人物,丰富的情节和场景。例如网络小说,可以写几千章,甚至还会连载。

  • 从小说和读者之间匹配角度来说,读者对小说认知过程长,并且选择成本高。

  • 网络小说同质化严重,良莠不齐,而优质的小说价值巨大。


以上即是特点,也是对推荐业务的巨大挑战。下面我们看下几个写作手法差异的例子,来展现这些特点对于业务推荐的影响。


这两段内容,出自不同作者写的小说,但是描述的都是上门女婿相同的情节。但是两者对比可以看到,在同样的主题和同样的情节,写作手法上有很大差异。但是从业务或者推荐系统角度上讲,这种差异会导致受众群体有区别。在不同的受众群体中,小说的点击率、阅读完成率等有很大的差异。

再看同一个作者写的小说,如下图:


《剑来》、《雪中悍刀行》都是同一个作者写的。上面的两段内容,都是这两篇小说的开篇。能看到虽然是同一个人写的,但文字的修饰和写作手法存在不一样。在推荐给读者时,读者的接受程度也是不一样的。而且从推荐系统角度来说,《雪中悍刀行》是优于《剑来》的,行文节奏很显著。从小说的开篇的读者接受程度来看,《剑来》的长尾读者可能会很长,这样会一开始损失部分读者。


3. 小说标签

目前在小说的领域,基本上一开始会以标签的形式刻画小说以及它的内容。



用标签刻画的小说对于业务推荐来说,会存在一些困难的问题。具体问题如下:


  • 语义范畴存在重复和不精确性。例如,专情、爱情、言情、感情等。

  • 标签语义权重计算困难。

  • 标签难以量化,因此作品之间的相似度难以正确计算。

  • 用户阅读小说行为少,大多数用户仅会深度阅读 1 到 2 本小说书籍。


使用标签刻画小说的内容,本身就存在不准确和不确定性。


小说的算法和成果

1. 阅读小说过程

在介绍具体算法之前,我们来首先看下读者阅读小说的过程:


这个阅读的过程,其实也是读者做决策的过程。我们希望我们的推荐算法,可以帮助读者顺利完成从开始接受小说,到最后完成深度阅读的决策过程。在 APP 中,读者最先是看到小说的列表,列表中会展示小说的封面、标题、评分、简介、标签等摘要信息。读者可以从这些摘要信息中,决定是否对某篇小说感兴趣。感兴趣的就会点击,然后跳转到小说详情页中。如果读者感兴趣,会继续跳转到阅读器中,并阅读内容的页面。所以在一开始,可以帮助读者快速建立对小说的准确理解和认知。在这之后,读者就会进入到相对深入的阅读。


2. 小说的多模态特征表示

所以对于推荐系统来说,要通过一种手段来做这些信息综合的表征,最后帮助用户完成决策和提高决策的成功率。通常使用点击率和阅读率来做推荐的一个指标,同时也会查看读者的阅读率和深度阅读率,来评价推荐效果。对于这些信息综合表征,可总结为下图:

3. 多模态特征融合

上面这些特征最终处理好后,会做一个多模态的特征融合:



对多模态的特征融合,我们其实会尝试使用多种的方式。最早的是把几个向量粘贴在一起,输入给图中的算法模型进行训练和学习。但是这种方法会存在模态之间冗余信息,这样会导致信息不准确。基于这些问题,引进了多模态特征融合的方法,来消除冗余信息,提高信息准确率,从而提升模型整体的效果。


4. 端到端语义建模:双塔


上图是做的一个端对端语义的模型,是一个标准的双塔模型。左塔用来表征用户的信息,右塔来表示目标用户阅读历史的信息。塔也分为两层,下层是表示层,上层是卷积层。最终取用的是右塔的 FC 层。


5. 书籍语义聚类

完成上面的训练后,然后做了些聚类,下面是聚类后可视化的结果:



从可视化结果上看,左右两图实际上不是一个对比的关系。从可视化结果上看,还是很好地表现了语义相近性。


6. 召回建模:Youtube DNN



这是对用户建模的一个过程,用了 Youtube DNN 的方法。也是分成了 2 层,下面是表示层,上面是 FC 层,最后的目标是 Softmax 提取 FC 层最后一层作为用户语义向量。


嘉宾介绍:

吴震华,现为 wifi 万能钥匙集团旗下连尚文学推荐和搜索部门负责人,曾历任爱奇艺推荐中台算法总监,英威诺算法 VP,Intel(中国)高级部门经理,曾经负责建设千万级日活资讯推荐产品。目前专注于文学内容画像建设以及迁移学习在推荐系统中的深度应用。


原文链接:小说内容理解


用户头像

DataFunTalk

关注

还未添加个人签名 2019.12.10 加入

还未添加个人简介

评论

发布
暂无评论
小说内容理解