写点什么

倒排索引 Inverted Indexes

用户头像
escray
关注
发布于: 2021 年 02 月 11 日
倒排索引 Inverted Indexes

倒排索引 inverted indexes,文字内容来自 B 站中华石杉 Elasticsearch 高手进阶课程。


假设有两个文档(两句话)


doc1:I really liked my small dogs, and I think my mom also liked them.

doc2:He never liked any dogs, so I hope that my mom will not expect me to liked him.


分词,初步的倒排索引的建立



演示了一下倒排索引最简单的建立的一个过程


搜索 mother like little dog,不可能有任何结果


motherlikelittledog
复制代码


这个是不是我们想要的搜索结果???绝对不是,因为在我们看来,mother 和 mom 有区别吗?同义词,都是妈妈的意思。like 和 liked 有区别吗?没有,都是喜欢的意思,只不过一个是现在时,一个是过去时。little 和 small 有区别吗?同义词,都是小小的。dog 和 dogs 有区别吗?狗,只不过一个是单数,一个是复数。


normalization,建立倒排索引的时候,会执行一个操作,也就是说对拆分出的各个单词进行相应的处理,以提升后面搜索的时候能够搜索到相关联的文档的概率


时态的转换,单复数的转换,同义词的转换,大小写的转换


mom —> motherliked —> likesmall —> littledogs —> dog
复制代码


重新建立倒排索引,加入 normalization,再次用 mother liked little dog 搜索,就可以搜索到了



mother like little dog,分词,normalization


mother	--> momlike	--> likelittle	--> littledog	--> dog
复制代码


doc1 和 doc2 都会搜索出来


doc1:I really liked my small dogs, and I think my mom also liked them.

doc2:He never liked any dogs, so I hope that my mom will not expect me to liked him.


发布于: 2021 年 02 月 11 日阅读数: 19
用户头像

escray

关注

Let's Go 2017.11.19 加入

在学 Elasticsearch 的项目经理

评论

发布
暂无评论
倒排索引 Inverted Indexes