倒排索引 Inverted Indexes
倒排索引 inverted indexes,文字内容来自 B 站中华石杉 Elasticsearch 高手进阶课程。
假设有两个文档(两句话)
doc1:I really liked my small dogs, and I think my mom also liked them.
doc2:He never liked any dogs, so I hope that my mom will not expect me to liked him.
分词,初步的倒排索引的建立
演示了一下倒排索引最简单的建立的一个过程
搜索 mother like little dog,不可能有任何结果
这个是不是我们想要的搜索结果???绝对不是,因为在我们看来,mother 和 mom 有区别吗?同义词,都是妈妈的意思。like 和 liked 有区别吗?没有,都是喜欢的意思,只不过一个是现在时,一个是过去时。little 和 small 有区别吗?同义词,都是小小的。dog 和 dogs 有区别吗?狗,只不过一个是单数,一个是复数。
normalization,建立倒排索引的时候,会执行一个操作,也就是说对拆分出的各个单词进行相应的处理,以提升后面搜索的时候能够搜索到相关联的文档的概率
时态的转换,单复数的转换,同义词的转换,大小写的转换
重新建立倒排索引,加入 normalization,再次用 mother liked little dog 搜索,就可以搜索到了
mother like little dog,分词,normalization
doc1 和 doc2 都会搜索出来
doc1:I really liked my small dogs, and I think my mom also liked them.
doc2:He never liked any dogs, so I hope that my mom will not expect me to liked him.
版权声明: 本文为 InfoQ 作者【escray】的原创文章。
原文链接:【http://xie.infoq.cn/article/5a900830750f8498c079db10f】。
本文遵守【CC-BY 4.0】协议,转载请保留原文出处及本版权声明。
评论