专利解析|多维建模结合 AI 识别商品特征的方法
企业采购数字化转型的背景
国家“十四五”规划纲要提出要推进产业数字化转型,在供给侧结构性改革大背景下,国家出台了《企业数字化采购实施指南》,大大促进了企业采购电商化的发展。企业电商化采购能提高企业的采购效率、加快物流速度、降低物流成本、提高采购透明度。未来企业电商化采购场景会不断扩大,将由标准化采购向非标准化采购、定制化采购方向拓展。
在企业采购数字化转型的浪潮中,越来越多的企业建立了企业内部电子采购平台,不仅对接很多大型的渠道商,也引进和入驻了很多独立供货商,企业通过电商平台在企业的经营活动中上沉淀了大量的商品数据,如何分析这些商品数据,挖掘商品数据背后的价值,洞察市场发展,是企业经营者非常关心的一个课题。
商品特征标准化需求及其价值
商品主数据通常由商品名称和商品的特征值构成,在企业的商品采购系统中,商品数据具有一套内部的标准体系,但是企业商城中入驻的供应商的商品数据和企业内部标准商品主数据往往标准不统一,因此在商品采购系统中非常重要的需求就是需要将供应商的商品数据映射到商品标准主数据,不同供应商的商品数据与标准商品主数据需要对齐,其中包括商品分类、商品标准名称、商品标准特征等信息的对齐,其需求的本质是商品的特征标准化以及商品特征的识别技术。
商品特征识别的一个有价值的应用场景是同类商品的比价,大型的电商平台上有很多供应商在售卖自家的商品,每家供应商的商品都有自己的商品分类和商品编码体系,通常商家在上架商品的时候,为了让自家的商品能被更多的搜索到,会将商品的很多特征信息一起包含在名称里,比如:
HP 惠普 P1106 黑白激光打印机小型迷你学生家庭作业家用 A4 办公凭证纸打印 P1108 1020plus 打印机
对于电商平台来说,如何在众多的不同供应商的商品描述中识别出不同商家上架的商品其实为同一件商品,从而实现在同种商品之间比价、智能报价等企业经营需求,实现数据的增值服务。
商品特征标准化的挑战
商品信息如商品名称和商品特征如何标准化,是实现商品特征识别的基础,商品特征识别技术就是识别出商品的标准名称及其相关特征的技术,这是目前很多企业面临的难题,商品特征识别的难度在于商品数据中存在一些识别难度较高的信息,如何从一段无固定形式的文字描述中识别出究竟是什么商品,并且这个商品具有什么特征对于电商平台来说是一件很具有挑战的事情,比如这一段商品的描述信息:
联想 ThinkPad X13 2022 12 代酷睿 i5 英特尔 Evo 平台 13.3 英寸轻薄笔记本电脑(i5-1240P 16G 512G WiFi6)4G 版
因为商品的描述是以一种不规范的格式存在,即便是同一种商品,因为供应商的不同,其商品的描述差异很大,体现在商品描述中的关键字的位置顺序不同、关键词汇不同、描述的内容也千差万别,因为这些数据没有太强的正则特征,很难采用正则表达式进行识别,我们探索了人工智能在商品特征识别上的应用,研究结果表明,以深度学习为代表的人工智能技术,可以在很大程度上提高商品主数据标准化的效率以及商品特征识别效果。
应用 AI 进行商品特征识别
采购系统在对接大量供应商的时候,在供应商商品上架的时候采用 AI 技术对商品的描述信息进行识别,从中提取出商品的标准名称以及商品的特征,通过商品名称以及特征的比对识别出相同的商品,相比较采用其他方式识别方法而言具有更高的准确性、可行性和经济性。
典型的供应商经营的商品数据存在这几样特点:
根据以上商品数据的几样特点,我们介绍一种基于商品主数据的多维建模方法结合 AI 技术的商品特征识别方法,此方法首先利用主数据的多维建模能力建立商品主数据模型,在商品数据的采集过程中,利用人工智能识别出商品名称,并抽取其特征数据,分析出商品的各种特征,并将清洗后的数据沉淀在标准的商品数据库中,通过在经营活动中不断反馈和完善标准的商品数据,再进行机器学习,不断的提高商品识别效果。
(图一:品名识别流程图)
详细的步骤如下:
1、 建立标准的品名品名就是商品的标准名称,是经过规范化形成的名称。
比如这一段商品描述:
“HP 惠普 P1106 黑白激光打印机小型迷你学生家庭作业家用 A4 办公凭证纸打印 P11081020plus 打印机” ,通过专家的判断,这里可提取出来的品名是打印机,那如何定义品名,可以由两种方法结合起来定义:
(图二:品名流程图)
从商品描述中识别出标准规范的品名,需要利用 AI 技术对文本数据的处理能力,这在人工智能领域里属于一个非常大的领域:自然语言处理(Natural Language Processing)NLP。利用现有少量品名标注数据,进行模型的训练,形成的识别模型,可以对新的商品数据进行品名的识别。
在一个典型的电商平台中,末级分类可能非常多,品名可理解为比分类更进一步的细化,这样品名有可能会达到上万甚至几十万的量级,这对文本分类是非常有挑战的;我们考虑建模作为一个文本序列标注的问题,举例来说“得力 S910/HB 原木铅笔盒装学生六角形 学生铅笔 12 支”,模型要做的就是把其中的“原木铅笔”四个关键字标注出来,作为推荐的品名。品名识别的算法可以建模为序列标注,也可以建模为语义问答匹配。前者多采用 LSTM-CRF 模型,但是对于标签数过大的场景,速度和效果都会受到极大制约。因此,考虑后一种建模方式,利用目前最先进的深度自然语言模型 BERT,可以将品名识别问题建模为语义匹配模型,从候选品名列表中匹配到相应品名是比较合适的方案。同时,为了解决某些开放场景,使用分词+textrank 的启发式算法可以增强品名列表之外的识别能力。
2、建立特征库特征属性是对于一个产品的技术特征和其它特征的描述,用以区别一种产品与另一种产品。产品生命周期不同阶段,对属性的需求不一样,属性的描述和定义可以不断增加,特征数据是采集的大量数据的积累,从中提取出来的规范化数据,同时也存在很多符合国家标准、行业标准规定的数据,比如:
(图三:特征库示例)
建立特征库的目的是为了将商品数据结构化,为了辅助机器学习,数据清洗,通过不断的学习和监督反馈沉淀出能真实的反应出商品特征的数据。
3、通过多维建模建立品名的特征库品名和描述该品名不同用途的特征,构成“品名特征表”;这里最大的问题在于不同的品名可能具有不同的特征属性的,一台电脑笔记本和一台打印机肯定具有不同的特征属性的。图片
在描述品名的所有特征中,可选择能唯一性标识该商品的一些特征,
比如在下述的商品描述中
“HP 惠普 P1106 黑白激光打印机小型迷你学生家庭作业家用 A4 办公凭证纸打印 P11081020plus 打印机”
其表现出来的特征如下:
(图四:品名特征表)
针对此种打印机,其中特征品牌+型号基本可唯一确定具体的商品,则品牌+型号两个特征属性可称为唯一性特征属性,而其他的属性都属于非唯一性特征属性。唯一性特征属性是判断商品唯一性的重要标志,确定唯一性特征的需要结合人工和行业专家的判断。
基于品名特征表构建和积累的品名和特征数据我们称为标准产品。
4、选择合适的 AI 算法 我们提出了一种基于深度学习+迭代模型的多渠道商品清洗和智能检索的方法,本方法从多维度构建商品特征库,根据用户输入的文字,智能识别出商品以及商品的分类,集数据清洗和特征匹配于一体,在少量专家标注数据的情况下,利用监督学习和迭代学习技术,使得商品主数据的特征识别可以达到比较好的效果和效率。
为了准确识别上述关键信息,我们使用不同的深度模型进行训练
1) 品名模型:给定商品描述信息,从上万的品名库中匹配最佳品名,逐个匹配的时间成本很高,需要使用召回+精排的两阶段模型策略,提高匹配效果和效率。使用召回+排序的两阶段模型。召回阶段使用 Tfidf/句向量召回候选品名。使用 BERT 模型对候选品名的语义相似度进行打分,返回得分排名前 k 的品名,作为最终结果返回。
2) 特征模型:特征属性提取的场景非常复杂,涉及到相对开放的语义场景,对算法设计的要求非常高。特征模型用于提取商品名称中的特征属性,比如“HP 惠普 P1108 黑白激光打印机 小型迷你 学生家庭作业家用 A4 办公凭证纸打印 P1108 1020plus 打印机”中的”型号”是“P1108”,“支持幅面”是”A4”,”颜色”是“黑白”。传统方式使用命名实体识别算法(NER),将句子中的相应位置标记为“型号”和“支持幅面”,但是对于实体数量巨大而且实体类型比较开放的情况,NER 的训练很慢且泛化能力较弱。我们设计了结合规则、词典树,以及李飞飞博士提出的注意力机制和序列标注的开放命名实体识别算法 OpenTag,可以极大减少人工标注量,并提高识别的精度。
3) 系统迭代:监督训练迭代过程中,系统会利用算法判断数据价值,选择推送高价值数据供业务人员标注,标注完成再推送进入商品标准库,由触发条件推送到算法调度器,再进行监督训练,通过商品特征模型的迭代训练,可以逐步提高整个主数据系统匹配的精度。
总 结
元年多维建模具有很灵活的建模能力,其结合 AI 技术可将非结构化的商品描述数据转换为结构化、特征化、标准化的商品数据,通过此方法来识别商品的唯一性,能大大的提供商品识别的效率和准确率,同时对识别的商品信息进行统一的编码,具有相同品名以及唯一性特征的数据将被统一编码,这些标准而规范的商品数据不断的被沉淀下来为企业决策和经营活动提供数据支持。
【参考文献】
1. Devlin, Jacob, et al. "Bert: Pre-training of deep bidirectional transformers for language understanding." arXiv preprint arXiv:1810.04805 (2018).
2. Zheng, Guineng, et al. "Opentag: Open attribute value extraction from product profiles." Proceedings of the 24th ACM SIGKDD International Conference on Knowledge Discovery & Data Mining. 2018.
版权声明: 本文为 InfoQ 作者【元年技术洞察】的原创文章。
原文链接:【http://xie.infoq.cn/article/843944271f6a9c2405319652a】。文章转载请联系作者。
评论