写点什么

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

  • 2023-08-12
    浙江
  • 本文字数:4798 字

    阅读完需:约 16 分钟

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索

Similarities 相似度计算、语义匹配搜索工具包,实现了多种相似度计算、匹配搜索算法,支持文本、图像等。

1. 文本相似度计算(文本匹配)

  • 余弦相似(Cosine Similarity):两向量求余弦

  • 点积(Dot Product):两向量归一化后求内积

  • 汉明距离(Hamming Distance),编辑距离(Levenshtein Distance),欧氏距离(Euclidean Distance),曼哈顿距离(Manhattan Distance)等


2.图像相似度计算(图像匹配)

3.图文相似度计算

4.匹配搜索

  • SemanticSearch:向量相似检索,使用 CosineSimilarty + topk 高效计算,比一对一暴力计算快一个数量级

6.Demo 展示

Compute similarity score Demo: https://huggingface.co/spaces/shibing624/text2vec



Semantic Search Demo: https://huggingface.co/spaces/shibing624/similarities


6.1 中文文本匹配模型评测结果


结果值使用 spearman 系数


Model:


  • Cilin

  • Hownet

  • SimHash

  • TFIDF


  • Install


pip3 install torch # conda install pytorchpip3 install -U similarities
复制代码


or


git clone https://github.com/shibing624/similarities.gitcd similaritiespython3 setup.py install
复制代码

7.使用场景推荐

7.1. 文本语义相似度计算

example: examples/text_similarity_demo.py


from similarities import Similarity
m = Similarity()r = m.similarity('如何更换花呗绑定银行卡', '花呗更改绑定银行卡')print(f"similarity score: {float(r)}") # similarity score: 0.855146050453186
复制代码


Similarity 的默认方法:


Similarity(corpus: Union[List[str], Dict[str, str]] = None,            model_name_or_path="shibing624/text2vec-base-chinese",           max_seq_length=128)
复制代码


  • 返回值:余弦值score范围是[-1, 1],值越大越相似

  • corpus:搜索用的 doc 集,仅搜索时需要,输入格式:句子列表List[str]或者{corpus_id: sentence}的Dict[str, str]格式

  • model_name_or_path:模型名称或者模型路径,默认会从 HF model hub 下载并使用中文语义匹配模型shibing624/text2vec-base-chinese,如果是多语言景,可以替换为多语言匹配模型shibing624/text2vec-base-multilingual

  • max_seq_length:输入句子的最大长度,最大为匹配模型支持的最大长度,BERT 系列是 512

7.2. 文本语义匹配搜索

一般在文档候选集中找与 query 最相似的文本,常用于 QA 场景的问句相似匹配、文本相似检索等任务。


example: examples/text_semantic_search_demo.py


import sys
sys.path.append('..')from similarities import Similarity
#1.Compute cosine similarity between two sentences.sentences = ['如何更换花呗绑定银行卡', '花呗更改绑定银行卡']corpus = [ '花呗更改绑定银行卡', '我什么时候开通了花呗', '俄罗斯警告乌克兰反对欧盟协议', '暴风雨掩埋了东北部;新泽西16英寸的降雪', '中央情报局局长访问以色列叙利亚会谈', '人在巴基斯坦基地的炸弹袭击中丧生',]model = Similarity(model_name_or_path="shibing624/text2vec-base-chinese")print(model)similarity_score = model.similarity(sentences[0], sentences[1])print(f"{sentences[0]} vs {sentences[1]}, score: {float(similarity_score):.4f}")
print('-' * 50 + '\n')#2.Compute similarity between two listsimilarity_scores = model.similarity(sentences, corpus)print(similarity_scores.numpy())for i in range(len(sentences)): for j in range(len(corpus)): print(f"{sentences[i]} vs {corpus[j]}, score: {similarity_scores.numpy()[i][j]:.4f}")
print('-' * 50 + '\n')#3.Semantic Searchmodel.add_corpus(corpus)res = model.most_similar(queries=sentences, topn=3)print(res)for q_id, c in res.items(): print('query:', sentences[q_id]) print("search top 3:") for corpus_id, s in c.items(): print(f'\t{model.corpus[corpus_id]}: {s:.4f}')
复制代码


output:


如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡, score: 0.8551...
如何更换花呗绑定银行卡 vs 花呗更改绑定银行卡, score: 0.8551如何更换花呗绑定银行卡 vs 我什么时候开通了花呗, score: 0.7212如何更换花呗绑定银行卡 vs 俄罗斯警告乌克兰反对欧盟协议, score: 0.1450如何更换花呗绑定银行卡 vs 暴风雨掩埋了东北部;新泽西16英寸的降雪, score: 0.2167如何更换花呗绑定银行卡 vs 中央情报局局长访问以色列叙利亚会谈, score: 0.2517如何更换花呗绑定银行卡 vs 人在巴基斯坦基地的炸弹袭击中丧生, score: 0.0809花呗更改绑定银行卡 vs 花呗更改绑定银行卡, score: 1.0000花呗更改绑定银行卡 vs 我什么时候开通了花呗, score: 0.6807花呗更改绑定银行卡 vs 俄罗斯警告乌克兰反对欧盟协议, score: 0.1714花呗更改绑定银行卡 vs 暴风雨掩埋了东北部;新泽西16英寸的降雪, score: 0.2162花呗更改绑定银行卡 vs 中央情报局局长访问以色列叙利亚会谈, score: 0.2728花呗更改绑定银行卡 vs 人在巴基斯坦基地的炸弹袭击中丧生, score: 0.1279
query: 如何更换花呗绑定银行卡search top 3: 花呗更改绑定银行卡: 0.8551 我什么时候开通了花呗: 0.7212 中央情报局局长访问以色列叙利亚会谈: 0.2517
复制代码


余弦score的值范围[-1, 1],值越大,表示该 query 与 corpus 的文本越相似。

7.2.1 多语言文本语义相似度计算和匹配搜索

多语言:包括中、英、韩、日、德、意等多国语言


example: examples/text_semantic_search_multilingual_demo.py

7.3. 快速近似文本语义匹配搜索

支持 Annoy、Hnswlib 的近似语义匹配搜索,常用于百万数据集的匹配搜索任务。


example: examples/fast_text_semantic_search_demo.py

7.4. 基于字面的文本相似度计算和匹配搜索

支持同义词词林(Cilin)、知网 Hownet、词向量(WordEmbedding)、Tfidf、SimHash、BM25 等算法的相似度计算和字面匹配搜索,常用于文本匹配冷启动。


example: examples/literal_text_semantic_search_demo.py


from similarities import SimHashSimilarity, TfidfSimilarity, BM25Similarity, \    WordEmbeddingSimilarity, CilinSimilarity, HownetSimilarity
text1 = "如何更换花呗绑定银行卡"text2 = "花呗更改绑定银行卡"
corpus = [ '花呗更改绑定银行卡', '我什么时候开通了花呗', '俄罗斯警告乌克兰反对欧盟协议', '暴风雨掩埋了东北部;新泽西16英寸的降雪', '中央情报局局长访问以色列叙利亚会谈', '人在巴基斯坦基地的炸弹袭击中丧生',]
queries = [ '我的花呗开通了?', '乌克兰被俄罗斯警告']m = TfidfSimilarity()print(text1, text2, ' sim score: ', m.similarity(text1, text2))
m.add_corpus(corpus)res = m.most_similar(queries, topn=3)print('sim search: ', res)for q_id, c in res.items(): print('query:', queries[q_id]) print("search top 3:") for corpus_id, s in c.items(): print(f'\t{m.corpus[corpus_id]}: {s:.4f}')
复制代码


output:


如何更换花呗绑定银行卡 花呗更改绑定银行卡  sim score:  0.8203384355246909
sim search: {0: {2: 0.9999999403953552, 1: 0.43930041790008545, 0: 0.0}, 1: {0: 0.7380483150482178, 1: 0.0, 2: 0.0}}query: 我的花呗开通了?search top 3: 我什么时候开通了花呗: 1.0000 花呗更改绑定银行卡: 0.4393 俄罗斯警告乌克兰反对欧盟协议: 0.0000...
复制代码

7.5. 图像相似度计算和匹配搜索

支持CLIP、pHash、SIFT 等算法的图像相似度计算和匹配搜索。


example: examples/image_semantic_search_demo.py


import sysimport globfrom PIL import Image
sys.path.append('..')from similarities import ImageHashSimilarity, SiftSimilarity, ClipSimilarity

def sim_and_search(m): print(m) # similarity sim_scores = m.similarity(imgs1, imgs2) print('sim scores: ', sim_scores) for (idx, i), j in zip(enumerate(image_fps1), image_fps2): s = sim_scores[idx] if isinstance(sim_scores, list) else sim_scores[idx][idx] print(f"{i} vs {j}, score: {s:.4f}") # search m.add_corpus(corpus_imgs) queries = imgs1 res = m.most_similar(queries, topn=3) print('sim search: ', res) for q_id, c in res.items(): print('query:', image_fps1[q_id]) print("search top 3:") for corpus_id, s in c.items(): print(f'\t{m.corpus[corpus_id].filename}: {s:.4f}') print('-' * 50 + '\n')
image_fps1 = ['data/image1.png', 'data/image3.png']image_fps2 = ['data/image12-like-image1.png', 'data/image10.png']imgs1 = [Image.open(i) for i in image_fps1]imgs2 = [Image.open(i) for i in image_fps2]corpus_fps = glob.glob('data/*.jpg') + glob.glob('data/*.png')corpus_imgs = [Image.open(i) for i in corpus_fps]
#2.image and image similarity scoresim_and_search(ClipSimilarity()) # the best resultsim_and_search(ImageHashSimilarity(hash_function='phash'))sim_and_search(SiftSimilarity())
复制代码


output:


Similarity: ClipSimilarity, matching_model: CLIPModelsim scores:  tensor([[0.9580, 0.8654],        [0.6558, 0.6145]])
data/image1.png vs data/image12-like-image1.png, score: 0.9580data/image3.png vs data/image10.png, score: 0.6145
sim search: {0: {6: 0.9999999403953552, 0: 0.9579654932022095, 4: 0.9326782822608948}, 1: {8: 0.9999997615814209, 4: 0.6729235649108887, 0: 0.6558331847190857}}
query: data/image1.pngsearch top 3: data/image1.png: 1.0000 data/image12-like-image1.png: 0.9580 data/image8-like-image1.png: 0.9327
复制代码


7.6. 图文互搜

CLIP 模型不仅支持以图搜图,还支持中英文图文互搜:


import sysimport globfrom PIL import Imagesys.path.append('..')from similarities import ImageHashSimilarity, SiftSimilarity, ClipSimilarity
m = ClipSimilarity()print(m)#similarity score between text and imageimage_fps = ['data/image3.png', # yellow flower image 'data/image1.png'] # tiger imagetexts = ['a yellow flower', '老虎']imgs = [Image.open(i) for i in image_fps]sim_scores = m.similarity(imgs, texts)
print('sim scores: ', sim_scores)for (idx, i), j in zip(enumerate(image_fps), texts): s = sim_scores[idx][idx] print(f"{i} vs {j}, score: {s:.4f}")
复制代码


output:


sim scores:  tensor([[0.3220, 0.2409],        [0.1677, 0.2959]])data/image3.png vs a yellow flower, score: 0.3220data/image1.png vs 老虎, score: 0.2112
复制代码


参考链接:https://github.com/shibing624/similarities


更多优质内容请关注公号:汀丶人工智能;会提供一些相关的资源和优质文章,免费获取阅读。




发布于: 刚刚阅读数: 3
用户头像

本博客将不定期更新关于NLP等领域相关知识 2022-01-06 加入

本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!

评论

发布
暂无评论
Similarities:精准相似度计算与语义匹配搜索工具包,多维度实现多种算法,覆盖文本、图像等领域,支持文搜、图搜文、图搜图匹配搜索_人工智能_汀丶人工智能_InfoQ写作社区