0 人感兴趣 · 1 次引用
如果单纯通过文档的向量,用count vector来计算词频,然后用矩阵来表示,其实会有很大的弊端。因为词的频率高,不代表其重要性。因此,我们还需要考虑到其权重,也就是质量,引入质量可以通过Tf-idf。
生命中任何一件事都值得全力以赴
InfoQ签约作者
我的工作是常年写bug|公众号:编程架构之美
⚡InfoQ签约作者
企业数据库创新实践者