写点什么

中文分词

0 人感兴趣 · 7 次引用

  • 最新
  • 推荐

ElasticSearch 拼音搜索自定义扩展插件 (长拼音序列)

  当前的中文搜索引擎都支持拼音搜索,但是在使用过程中会出现各种各样的场景,当前的自定义插件,用来处理在拼音搜索过程中如果遇到长拼音序列的情况,应该如何进行处理。

https://static001.geekbang.org/infoq/ab/ab80088bb27cbe32bce75975d27329ab.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

可能是全网第一个使用 RediSearch 实战的项目

实战项目地址newbeemall,集成RediSearch,代码开源已上传,支持的话可以点个star😁

https://static001.geekbang.org/infoq/8a/8acf36cd1dae10e01122d07188278ad0.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

深入理解搜索引擎——初识 query 理解

用户头像
药老算法
2021-07-09

每一个简短的搜索词背后都隐藏着用户最真实的查询意图,这就需要搜索引擎使用很多不同策略去挖掘用户背后的需求,这就涉及到“搜索query理解”。

https://static001.geekbang.org/infoq/de/de774f63f029fc4db9c2b0537c1d5225.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

ES 终于可以搜到“悟空哥”了!

用户头像
悟空聊架构
2021-04-21

Elasticsearch 搜索引擎内置了很多种分词器,但是对中文分词不友好,所以我们需要借助第三方中文分词工具包。

https://static001.geekbang.org/infoq/1e/1ed86d492904239c65240a546362874e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

ElasticSearch 如何使用 ik 进行中文分词?

在前一篇文章中,我们讲解了 ElasticSearch 如何在数据存储方面支持全文搜索和复杂条件查询,本篇文章则着重分析 ElasticSearch 在全文搜索前如何使用 ik 进行分词,让大家对 ElasticSearch 的全文搜索和 ik 中文分词原理有一个全面且深入的了解。

https://static001.geekbang.org/infoq/02/0291ebbf8e8c2b31cd9893e48e40533e.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

介绍一下自研开源 NLP 工具库 ---MYNLP

用户头像
陈吉米
2020-05-27

万事开头难,创业之初,没资金、没资源,由于技术需要,不得不直面这些底层NLP技术研发。最初的几年里,使用了ansj开源项目,后来开始使用hanlp。随着业务的推进,不断暴露出很多问题,不能满足业务需要,如控制分词粒度、纠错等等。。。

https://static001.geekbang.org/infoq/13/13c859c8696e3743de1df89f81febbcc.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

Lucene 的 Smart CN 实现分词、停用词、扩展词

用户头像
Page
2020-05-24

Lucene 中提供了 SmartCN 为中文提供分词功能,实际应用中还会涉及到停用词、扩展词(特殊词、专业词)等,因此本文将聚焦在 SmartCN 而暂时不考虑其他中文分词类库。

中文分词_中文分词技术文章_InfoQ写作社区