开放搜索电商行业模版驱动业务增长实践
讲师:徐希杰--阿里巴巴技术专家
视频地址:https://developer.aliyun.com/live/246673
电商行业模板介绍:https://www.aliyun.com/page-source//data-intelligence/activity/opensearch
开放搜索简介
开放搜索是阿里集团搜索业务中台 AIOS 体系打造的智能搜索云平台。 目前阿里集团内 500+业务接入,主要包括钉钉、盒马、菜鸟口碑等,整个集群在索引的文档数量已经超过了 600 亿 ,日均的 PV 已经超过了百亿。在双十一当天查询的 QPS 分值超过了百万,文档实时更新 TPS 峰值 15 万+ ,并且整个服务非常平稳,没有任何降级。在 2014 年开放搜索正式通过阿里云进行商业化输出。
一站式智能搜索业务开发平台
开放搜索产品优势:
相比于开源和自建的搜索,在核心引擎上面更稳定,更高性能;
达摩院多年在 NLP 领域相关积累,通过查询分析和排序搜索等形式开放,使用户在初始阶段就具备了一个高质量搜索效果;
搜索引导功能支持千人千面;
强开放性,支持多种定制的手段,可以有内置的模型,也可以回流用户自己的模型。
免运维,无需做运维操;
AI.OS 引擎系统
阿里巴巴搜索推荐事业部自研的 AI.OS 技术体系服务于阿里集团内部 90%以上的搜索业务,AI.OS 系统天生具有弹性扩缩容,故障快速恢复的能力,比自建或开源的系统更加稳定、更加高效,能够支持海量的数据处理。
电商/O2O 场景搜索常见问题
电商行业智能搜索系统
query 处理流程
用户在搜索框中输入查询词,然后后端的系统根据对它进行分析,分析的结果发送给搜索引擎,找到用户想要的商品做排序返回用户最想要的商品,最后将这些商品做一些人工干预,或者是直接最终返回的搜索结果页给用户展示出来。
如何构建电商行业智能搜索系统
如果我们从零开始去构建一个电商行业的智能搜索系统,我们需要解决哪些问题那?
商品如何建库? 如何准确的理解用户的查询意图?
如何为用户提供个性化的搜索体验?
如何根据用户的查询返回最匹配的结果?
常见的外围功能怎么构建?比如下拉提示、热词、底纹等;
相关技术人员问题;
开放搜索电商行业模板搜索架构
商品建库
电商行业模板在应用结构和索引结构上面为用户提供了一个默认的模板。 比如说将商品常用的字段抽象成了它的应用结构,并且根据搜索积累,为这些为电商搜索应用创建的对应的,默认的索引结构,用户可能不需要有相关的领域知识就可以创建出搜索系统应用,查询分析和用意图理解方面,并且结合行业的特征做针对性的分词的优化,行业实体识别的优化,同义词纠错的优化和类目预测的优化。
查询分析链路
电商行业分词
分词是影响搜索效果的最基础的模块。开放搜索集成了淘宝搜索同款的电商分词器,训练语料来自淘宝搜索多年积累的百万级有标注的电商行业数据。
分词效果对比:
电商语义理解
命名实体识别
电商 NER 问题定义
对电商 Query 和标题进行实体词打标识别其中的品牌、品类、品类修饰、型号、款式等 40 种类别 ;
难点
品牌更新快歧义大;
例:播(女装品牌)、老爸(食品品牌
品类存在修饰关系 ;
例:华为手机(品类修饰)透明手机壳(品类)
解决思路
现有框架知识库更新
基于老模型链路重新构建全量知识库,F1 69 -> 74
标注训练数据,使用神经网络模型
标注 10 万条数据,耗时 4 个月,BiLSTM-CRF 模型,F1 74 -> 78
神经网络模型结合知识库
技术创新 GraphNER 框架结合监督模型与知识库,F1 78 -> 82
查询分析行业增强版效果
query 改写
文本 query
针对查询词处理之后改写的 query
个性化 query
在查询词改写基础之上引入个性化信息,比如 u2i,i2i,u2s2 等
向量 query
在查询词改写基础之上引入向量信息,需要对查询词进行向量化
多路召回技术
电商排序
支持两轮排序机制,粗排和精排
粗排参与的文档数量比较多,可能是几万到几十万量级,所以对排序的耗时要求比较严格,从而导致它能使用的特征就比较少。
精排参与的排序的数量比较少,所以打分使用特征可以多一些。
定制排序-Cava 脚本
Cava 与排序表达式相比有更高的灵活性和开放性,方便用户自由的定制自己的排序规则,它是开放搜索自己研发的一个类 java 的语言,性能和 C++相当,支持面向对象的程和即时编译;不同的数据类型支持类的定义,多种运算符和一些简单的控流程控制语句。
另外一个很重要的部分是在开发语言的基础之上,开放搜索封装了通用的排序特征和为了方便用户开发排序新的排序特征,也封了一些框架类的相关特征。 通过这些特征,用户可以直接在脚本中引用,从而开发出自己新的排序脚本,大大简化了开发成本。
搜索引导功能
内置热搜、底纹、下拉提示多样搜索引导算法模型,无需开发系统每天自动训练模型,对用户搜索意图起到重要的引导作用,大大降低后续查询意图理解、相关性、排序、运营干预等环节的调优难度,对提升整体业务目标可以起到非常好的铺垫作用。
搜索前引导:
搜索中引导:
电商行业模板实践案例
案例 1 客户情况:
某电商购物平台, 与淘宝天猫等一线商家合作,每日选择优惠券供用户领取使用,导购电商行业排名前 TOP5;
行业模板应用效果:
功能和性能远超同类竞品,无结果率下降 20%,CTR 绝对值提升 3%;
工程架构类开发和系统运维人力成本降低,团队成员专注业务开发,帮助业务发展速度更快;
搜索引导成交的 GMV 显著提升;
案例 2 客户情况:
某上市的电商分期购物平台,为年轻人提供正规化、透明化、个性化的消费金融产品与服务;
行业模板应用效果:
商品交易额增长:通过搜索服务增加了商品曝光率,带动商品下单转化,转化率同比增长 15% 订单转化提升:
从商品详情页到下单页的转化率同比增长 20% 接口性能大幅提升;
搜索接口耗时从 100ms 降低到 20ms 使企业能够将资源精力着重投入到用户拉新、升级现金业务等的核心业务上;
弹性扩容,预估容量峰值,满足双十一大促等特殊时段的搜索服务需求;
如果您对搜索与推荐相关技术感兴趣,欢迎加入钉钉群内交流
【开放搜索】新用户活动:阿里云实名认证用户享 1 个月免费试用
评论