百度搜索中“鱼龙混杂”的加盟信息,如何靠 AI 解决?
导读:从粗放式流量覆盖到精细化用户时长提升的转变,以及构建个性化、场景化文案创意的生成,迫切需要一套自动化、系统化的智能内容生成解决方案,来缓解人工创作下的耗时长、成本高等问题。本文将从行业背景出发,全面介绍下招商加盟行业下内容场景的特点,最后重点介绍加盟星在招商加盟行业下探索的 AI 创作解决方案。
全文 5103 字,预计阅读时间 16 分钟
在百度搜索引擎中,每天有几百万的流量是招商加盟相关的,但招商加盟行业的信息鱼龙混杂,仿冒、虚假的信息不但给用户造成了困扰,甚至有可能让人蒙受金钱上的损失。目前加盟服务平台众多,众多『三快』平台通过截流品牌方的流量,诱导用户点击,对用户和加盟方都是严重的伤害。加盟星是百度招商加盟行业的解决方案,通过对加盟品牌的资质认证达到去伪存真的目的,保证加盟信息的真实可靠。因此,加盟星对用户加盟需求的覆盖满足程度,决定了加盟星发挥作用的上限,因此,扩大加盟星自有认证内容能够更大程度的驱逐『劣币』市场流量。
一、背景
招商加盟行业下,用户对加盟需求的认知可以归类为三种:
第一类是问答流程类,是用户对特定品牌加盟的加盟检索,属于品牌需求,希望得到关于特定品牌的费用、流程以及加盟条件的相关信息,这类的搜索需求和品牌方提供的信息相关,存在一定的结构性和通用性;
第二类是优劣对比类需求,是品类需求,是对某个行业上加盟信息的查找,满足这部分用户的需求需要加盟星具有一定规模的物料和对物料的认知;
第三类是无特定行业或品牌下的泛意图需求,存在『加盟』『赚钱』的需求,但自己也没有明确的方向。
上述三种流量分布并不均衡,满足上述每种检索需求的难度也不一样。同时,随着加盟星的发展,每种检索需求的优先级也是在不断变化的,因此需要配套的内容覆盖满足机制。
在建设内容覆盖机制的过程中,我们首先从流量的头尾分布来分析,著名品牌的检索流量占总体的 60%以上,对应的品牌数量只有几百,而剩余长尾的流量涵盖的品牌数量却是数万的量级。在对头部品牌的内容覆盖中,量级是比较有限的,可以通过定向写作、定向抓取等方式,保证高质量的情况下进行有序的提升覆盖率。对于非头部的流量,则很难通过上述方式达到有效的提升。非头部流量具有不确定性,以月度为周期统计,相邻两个月份的非头部流量重叠率只有 60%,这就导致了定向人工写作或抓取的方式,往往带来的效果不太理想。因此,希望通过 AI 创作的方式,自动、批量的生成内容,以便于能够快速、高效的提升内容覆盖率。因此在加盟星业务中,进行了 AI 创作的探索和建设,来满足加盟星内容覆盖的提升。
二、整体设计
整体流程上,我们可以看做是三个模块的串行:流量分析是一个离线模块,提供对近期搜索流量的拆解分析,指导后续内容生成的方向;内容生成模块通过对不同的生成需求,采用不同的方法产出对应的内容,最终数据模块将生成的数据进行质量校验、建库以及添加到检索逻辑中,进行最终的展现。
系统实现上,分为离线部分和在线部分,离线部分包括流量分析、生成层和数据校验层;在线部分是基于业务逻辑对内容的展现,不作为本文的重点介绍内容。
流量分析是离线模块的起点,针对搜索流量、日志记录信息等数据,借助 query 分析等服务,实现对当前流量的有效覆盖分析,进而指导生成模块的内容生成;
生成层分为 AI 生成和定向生成,其中定向生成包括人工写作以及定向引流,主要适用于小批量、高精准的头部流量的覆盖,AI 创作包含四种不同的方法,是对不同内容生成需求的满足;
数据校验层是对内容质量的把控,通过非法内容过滤、质量校验、重合度计算以及人工干预等手段,保证落库数据的质量,避免在检索结果上出现违规不合适的内容。
数据层是对生成的内容数据、用户的检索数据以及分析挖掘的结果数据进行存储,在数据层也需要完成对数据完整性的校验、建库和索引的生成;检索逻辑实现对自有内容和生成内容的检索,在该层能够实现对自有内容和生成内容的展现权重、顺序、PV 等的调整控制;最上层是对内容的展现,包括自建阿拉丁卡片、SEO 流量以及广告流量等。下面就主要流程的探索,分别展开描述。
2.1 流量分析模块
检索日志:是通过行业流量判别模型,得到的一段时间(周或者月粒度)内用户的检索流量。其中包含我们已经覆盖的流量和未覆盖的流量,即属于行业流量但我们未能在任何一个渠道返回结果的流量,这部分流量是我们要提升覆盖的目标。
过滤:用户的输入可能包含了一些不合适的内容,例如暴力、黄色或者反动的信息,同时,在业务发展的不同阶段关注的流量重点也是不同的,因此需要我们对检索日志中包含负面情绪的流量以及不符合业务当前发展重心的流量剔除掉。
query 分析:我们拿到用户输入的 query 后,需要理解用户的搜索需求是如何的,比如感兴趣的行业或品牌、投资水平、加盟意图的强度等,通过加盟星自建的 query 分析服务实现对 query 的意图、类型、层级、实体、价格、地域等信息的解析,产出对所有 query 的解析结果,助力后续的模块。
外部/竞品:指的是和业务同类型、同方向的外部业务网站,关注外部竞品信息,能够及时的了解自身业务的不足和行业的发展,我们在这里是关注外部竞品网站的内容覆盖情况。
覆盖分析:通过 query 分析模块对近期用户的检索需求的拆解,结合站内已有的物料以及展现情况,进行当前状态下的流量覆盖分析,同时将当前流量和外部竞品结合,分析外部竞品的覆盖情况,如果外部竞品覆盖情况优于目前站内,应该触发抓取模块,获取外部的内容原料并写库沉淀;否则直接将覆盖分析结果输出到下游。
抓取模块:当需要增加定向内容的时候,触发该模块来获取指定的外部/竞品内容,当做生成模块的输入信息。
2.2 内容生成模块
我们通过对历史数据的分析,了解到当前站内对用户搜索需求的满足情况后,可以开始着手内容的生成。在该步骤中,整体流程可以看做是接受传入的生成需求,然后根据不用的生成内容需求调用不用的生成接口,产出对应的内容然后通过校验模块校验后,决定给是否重新生成还是可以落库。
内容生成上,我们将其分为了人工和 AI 两种类型,其中人工定向生成内容主要是满足头部流量以及行程一种用户习惯和行业效应,AI 生成内容能够覆盖大多数的搜索流量,也是为了弥补人工定向生成中周期长、扩量慢等问题。
其中人工定向生成内容包括大咖说、加盟日志、创业者说、探店视频、轮播视频等内容,从文章到视频,形成对项目的全方位内容覆盖,也能够提升用户对加盟星内容覆盖维度的认知,产生积极的效应。但人工定向也存在比较严重的问题:速度慢、周期长、无法批量化等。这些问题的存在促进了我们去积极的探索 AI 创作内容的可行性。
不同的用户具有不同的加盟需求,在加盟意图、强度或者方向(行业)上具有多样性,因此,我们定义了四种不同的生成方法:模板式、摘要式、改写式以及自由生成。不同的生成方法在准确度、覆盖面、目标流量、实现方式上存在差异,以满足用户不同场景下的搜索需求。
2.2.1 模板式生成
通过对用户搜索流量的分析,对于加盟流程、加盟费用、加盟城市等具备固定答案的搜索需求,我们可以制定模板,以完形填空的方式将特定的项目(品牌)数据填充进去,形成针对用户搜索需求的内容覆盖。
在模板式生成的建设过程中,考虑到视频是当下比较受欢迎的内容形式,构建了基于模板的视频生成接口,能够根据传入的文本、图文,利用已有的模板自动生成对应的视频。其中音频的生成支持外部传入或者文本转音频,如果只有文本的情况下,会进行文本转图片的操作,当传入了图片的情况下,会根据音频的节拍调整图片的展示时长,展示 demo 如下:
我们可以看出,这种方式利用了已有的信息生成特定格式的内容,足够迅速和准确,针对用户加盟流程、加盟优势、加盟费用等特定搜索需求,具有一定的满足性。但是,局限性也比较大,严重依赖项目数据的完备性。因此,一定程度上引入外部的有效数据是很有必要的,基于引入的外部数据,为了避免不必要的问题,我们建设以下的生成接口:摘要式生成和改写式生成。
2.2.2 改写式和摘要式生成
自动摘要是一种 NLG 任务,可以分为生成式摘要和抽取式摘要,前者通过文档内容,通过模型生成对文章的自然语言描述,而后者是从原文中提取现成的重要句子作为摘要。两者各有利弊,建设难度和使用阶段也不同。站内建设初期缺少大量文本和对应的摘要数据,可以通过抽取式摘要的方法,例如 MMR、TextRank 或者多种方法的加权组合,达到摘要生成的目的,随着数据的积累,有了足够的训练数据时,可以进行摘要生成式模型的训练。但抽取式的结果也是可以当做辅助信息输入模型,指导模型输出的内容尽量通畅。
文本改写,也叫做文本复述,通过对搜索数据、同义词或者模型等,找到不同表述的近义表达,对文本进行同样语义下的再次表述。在此处,我们把改写看做是一种翻译行为,通过原始语句和改写语句对当做训练数据,进行模型的训练,但目前生成质量还有进一步提升。
改写式或者摘要式都可以看做是一种翻译任务,通过原始 source 语句,获取 target 语句输出的模式,是一种标准的 Seq2Seq 范式,因此在建设过程中,可以考虑基于 Transformer 的预训练模型。改写式或者摘要式需要依赖一个原始文本内容的输入,是针对已有内容的生成,当外部数据也无法满足的时候,就需要自由式生成方法来解决了。
2.2.3 自由式生成
文本的自由生成是针对长尾流量的有效解决方案:没有外部有效数据可以参考,又存在用户的搜索需求需要满足。目前主流的的文本自由生成(预训练)模型包括 ERNIE 2.0/3.0、GPT-2/3 以及基于中文 CPM 等。
在预训练模型的基础上,我们通过对大量招商加盟行业资讯文本语料的微调,获得专属招商加盟行业的生成模型,对用户感兴趣的搜索需求进行自由的生成,从而在一定程度满足用户的搜索意图。
但目前来看,自由生成的文本在超过一定长度后,通畅性、文章价值、困惑度等指标都会急剧下降,在短文本上表现比较符合预期。对于长文本的生成,后续可以参照 RNN 的方式,每一次都生成较短的文本,对生成结果进行校验后,迭代的进行生成,这是后续可能探索的一种方式,目前来看,只依赖模型的结果而缺少先验知识的情况下,生成的内容可用性比较低,这也是将来重点探索的方向。
2.3 数据校验模块
通过 AI 创作生成的文章,在内容上存在一定的不可控性,如果直接推送建库可能带来一些问题,例如黄反暴等负面情绪的言论、重复内容的问题、内容质量问题等等,在数据校验模块中,通过人工或自动的方式,自动评测上,我们可以采用的线下点击率预估的方式,对比生成文案与已有文案在预估点击率上的差异性,从而得到生成文案在业务上带来的价值,另外基于 N-gram 匹配的 BLUE、基于编辑距离以及基于覆盖率的指标,例如困惑度、重合度、simhash 值、情感极性等,也可以用于对生成内容的评估。人工评测上,更多是辅助调整生成结果与业务目标的匹配程度。
在实际的业务逻辑中,AI 创作生成的内容,等同站内自由的内容,但需要添加标记位进行区分,以便于出现 case 的时候定位来源,积累的生成内容的 case 能够反向推动生成模块的迭代。
2.4 加盟星应用场景
AI 创作内容,不仅仅局限于提升站内内容的覆盖率,满足用户的搜索需求,在推荐和广告场景下,也能带来巨大的业务价值,满足个性化、定制化的内容生成。以加盟星广告为例,如果能够根据用户、展现场景、自动生成创意文案,满足个性化的生成,更加符合用户的认知,在一定程度上去提升业务指标。同样的,在推荐上,通过自动生成推荐理由、排行榜理由等,可能会更好的满足带动业务指标的提升。加盟星在这方面希望打造一套智能内容生成的高质量、系统化的解决方案,从而为加盟星业务场景的发展助力。
三、总结反思
AI 创作能够有效的提升业务对用户搜索的覆盖程度,但随着从结构化的模板生成到半结构化直到完全非结构化的自由文本生成,创作的难度是逐渐增加的,对于生成内容的结果也是越来越不可控的,因此,对生成内容的把控尤为重要,避免出现不合时宜的内容产生从而带来不必要的损失。希望后续能够逐步完善优化整个招商加盟行业的内容创作框架,引入更多的先验知识生成更加完备的内容。
推荐阅读:
---------- END ----------
百度 Geek 说
百度官方技术公众号上线啦!
技术干货 · 行业资讯 · 线上沙龙 · 行业大会
招聘信息 · 内推信息 · 技术书籍 · 百度周边
欢迎各位同学关注
版权声明: 本文为 InfoQ 作者【百度Geek说】的原创文章。
原文链接:【http://xie.infoq.cn/article/0afedd393d15004c4e0b115e4】。文章转载请联系作者。
评论