写点什么

DashText- 快速开始

作者:DashVector
  • 2024-10-30
    陕西
  • 本文字数:4229 字

    阅读完需:约 14 分钟

DashText-快速开始

快速开始

DashText,是向量检索服务 DashVector 推荐使用的稀疏向量编码器(Sparse Vector Encoder),DashText 可通过 BM25 算法将原始文本转换为稀疏向量(Sparse Vector)表达,通过 DashText 可大幅度简化使用 DashVector[关键词感知检索]能力。


说明


  1. 需要使用您的 api-key 替换示例中的 YOUR_API_KEY、您的 Cluster Endpoint 替换示例中的 YOUR_CLUSTER_ENDPOINT,代码才能正常运行。

  2. 本示例仅对 Sparse Vector 进行功能演示,请根据实际情况设置您的向量维度。简化起见,本文示例代码中将向量(Dense Vector)维度设置为 4。

Step1. 创建支持 Sparse Vector 的 Collection

Python 示例

import dashvector
client = dashvector.Client(api_key='YOUR_API_KEY', endpoint='YOUR_CLUSTER_ENDPOINT')assert client
ret = client.create('hybrid_collection', dimension=4, metric='dotproduct')assert ret
collection = client.get('hybrid_collection')assert collection
复制代码


Java 示例

import com.aliyun.dashvector.DashVectorClient;import com.aliyun.dashvector.DashVectorCollection;import com.aliyun.dashvector.models.requests.CreateCollectionRequest;import com.aliyun.dashvector.models.responses.Response;import com.aliyun.dashvector.proto.CollectionInfo;
DashVectorClient client = new DashVectorClient("YOUR_API_KEY", "YOUR_CLUSTER_ENDPOINT");
CreateCollectionRequest request = CreateCollectionRequest.builder() .name("hybrid_collection") .dimension(4) .metric(CollectionInfo.Metric.dotproduct) .dataType(CollectionInfo.DataType.FLOAT) .build(); Response<Void> response = client.create(request);System.out.println(response);
DashVectorCollection collection = client.get("hybrid_collection");
复制代码


重要

仅内积度量(metric='dotproduct')支持 Sparse Vector 功能


Step2. 创建 SparseVectorEncoder

使用内置 Encoder

Python 示例

from dashtext import SparseVectorEncoder
encoder = SparseVectorEncoder.default()
复制代码


Java 示例

import com.aliyun.dashtext.encoder.SparseVectorEncoder;
SparseVectorEncoder encoder = SparseVectorEncoder.getDefaultInstance();
复制代码


说明


内置 Encoder 使用中文Wiki语料进行训练,采用Jieba进行中文分词

基于自有语料创建 Encoder

Python 示例

from dashtext import SparseVectorEncoder
encoder = SparseVectorEncoder()
# (全部)自有语料corpus = [ "向量检索服务DashVector基于阿里云自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务", "DashVector将其强大的向量管理、向量查询等多样化能力,通过简洁易用的SDK/API接口透出,方便被上层AI应用迅速集成", "从而为包括大模型生态、多模态AI搜索、分子结构分析在内的多种应用场景,提供所需的高效向量检索能力", "简单灵活、开箱即用的SDK,使用极简代码即可实现向量管理", "自研向量相似性比对算法,快速高效稳定服务", "Schema-free设计,通过Schema实现任意条件下的组合过滤查询"]
# 基于自有语料训练Encoderencoder.train(corpus)
复制代码


Java 示例

import com.aliyun.dashtext.encoder.SparseVectorEncoder;import java.util.*;
SparseVectorEncoder encoder = new SparseVectorEncoder();
//(全部)自有语料List<String> corpus = Arrays.asList( "向量检索服务DashVector基于阿里云自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务", "DashVector将其强大的向量管理、向量查询等多样化能力,通过简洁易用的SDK/API接口透出,方便被上层AI应用迅速集成", "从而为包括大模型生态、多模态AI搜索、分子结构分析在内的多种应用场景,提供所需的高效向量检索能力", "简单灵活、开箱即用的SDK,使用极简代码即可实现向量管理", "自研向量相似性比对算法,快速高效稳定服务", "Schema-free设计,通过Schema实现任意条件下的组合过滤查询");
// 基于自有语料训练Encoderencoder.train(corpus);
复制代码


说明


  1. 内置 Encoder 可直接使用,无需使用原始语料进行训练,使用起来更加方便,同时泛化能力较强。但面对原始语料中专业术语较多等场景,准确性偏弱

  2. 基于自有语料创建 Encoder,需要预先根据(全部)原始语料进行训练,准确性较高,自有语料创建 Encoder 具体使用可参考进阶使用

  3. 用户需根据自身业务场景和需求来选择 Encoder,对于特定领域(大量专属词汇)的场景推荐基于自有语料创建 Encoder

Step3. 插入带有 Sparse Vector 的 Doc

Python 示例

from dashvector import Doc
document = "向量检索服务DashVector基于阿里云自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务。"doc_sparse_vector = encoder.encode_documents(document)
print(doc_sparse_vector)# 基于内置Encoder的output: # {380823393: 0.7262431704356519, 414191989: 0.7262431704356519, 565176162: 0.7262431704356519, 904594806: 0.7262431704356519, 1005505802: 0.7262431704356519, 1169440797: 0.8883757984694465, 1240922502: 0.7262431704356519, 1313971048: 0.7262431704356519, 1317077351: 0.7262431704356519, 1490140460: 0.7262431704356519, 1574737055: 0.7262431704356519, 1760434515: 0.7262431704356519, 2045788977: 0.8414146776926797, 2141666983: 0.7262431704356519, 2509543087: 0.7262431704356519, 3180265193: 0.7262431704356519, 3845702398: 0.7262431704356519, 4106887295: 0.7262431704356519}
collection.insert(Doc( id='A', vector=[0.1, 0.2, 0.3, 0.4], sparse_vector=doc_sparse_vector))
复制代码


Java 示例

String document = "向量检索服务DashVector基于达摩院自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务。";Map<Long, Float> sparseVector = encoder.encodeDocuments(document);
System.out.println(sparseVector);// 基于内置Encoder的output: // {380823393: 0.7262431704356519, 414191989: 0.7262431704356519, 565176162: 0.7262431704356519, 904594806: 0.7262431704356519, 1005505802: 0.7262431704356519, 1169440797: 0.8883757984694465, 1240922502: 0.7262431704356519, 1313971048: 0.7262431704356519, 1317077351: 0.7262431704356519, 1490140460: 0.7262431704356519, 1574737055: 0.7262431704356519, 1760434515: 0.7262431704356519, 2045788977: 0.8414146776926797, 2141666983: 0.7262431704356519, 2509543087: 0.7262431704356519, 3180265193: 0.7262431704356519, 3845702398: 0.7262431704356519, 4106887295: 0.7262431704356519}
Vector vector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();
// 构建带有Sparse Vector的DocDoc doc = Doc.builder() .id("28") .sparseVector(sparseVector) .vector(vector) .build();
// 插入带有Sparse Vector的DocResponse<Void> response = collection.insert(InsertDocRequest.builder().doc(doc).build());
复制代码

Step4. 关键词感知的向量检索

Python 示例

query = "什么是向量检索服务?"sparse_vector = encoder.encode_queries(query)
print(sparse_vector)# 基于内置Encoder的output: # {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}
docs = collection.query( vector=[0.1, 0.1, 0.1, 0.1], sparse_vector=sparse_vector)
复制代码


Java 示例

String query = "什么是向量检索服务?";
Map<Long, Float> sparseVector = encoder.encodeQueries(query);
System.out.println(sparseVector);// 基于内置Encoder的output: // {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}
Vector vector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build(); // 构建QueryDocRequest QueryDocRequest request = QueryDocRequest.builder() .vector(vector) .sparseVector(sparseVector) .topk(100) .includeVector(true) .build();
Response<List<Doc>> response = collection.query(request);System.out.println(response);
复制代码

Step5. 基于权重的关键词+语义检索

Python 示例

from dashtext import combine_dense_and_sparse
query = "什么是向量检索服务?"sparse_vector = encoder.encode_queries(query)
# 权重因子alpha = 0.7dense_vector = [0.1, 0.1, 0.1, 0.1]scaled_dense_vector, scaled_sparse_vector = combine_dense_and_sparse(dense_vector, sparse_vector, alpha)
docs = collection.query( vector=scaled_dense_vector, sparse_vector=scaled_sparse_vector)
复制代码


Java 示例

String query = "什么是向量检索服务?";
Map<Long, Float> sparseVector = encoder.encodeQueries(query);
System.out.println(sparse_vector);// 基于内置Encoder的output: // {1169440797: 0.2947158712590364, 2045788977: 0.7052841287409635}
Vector denseVector = Vector.builder().value(Arrays.asList(0.1f, 0.2f, 0.3f, 0.4f)).build();
// 通过alpha因子调整稠密向量和稀疏向量float alpha = 0.1;sparse_vector.forEach((key, value) -> sparse_vector.put(key, value * (1 - alpha)));denseVector = Vector.builder().value( denseVector.getValue().stream().map(number -> number.floatValue() * alpha).collect(Collectors.toList()) ).build();
// 构建QueryDocRequest QueryDocRequest request = QueryDocRequest.builder() .vector(denseVector) .sparseVector(sparseVector) .topk(100) .includeVector(true) .build();
Response<List<Doc>> response = collection.query(request);System.out.println(response);
复制代码


说明


参数 alpha 是控制稠密向量距离和稀疏向量距离加权的权重因子,alpha=0.0 表示只采用稀疏向量进行距离度量,alpha=1.0 表示只采用稠密向量进行距离度量。

API 参考

更多 DashText API 详情可参考:



发布于: 刚刚阅读数: 5
用户头像

DashVector

关注

还未添加个人签名 2024-05-14 加入

向量检索服务DashVector基于通义实验室自研的高效向量引擎Proxima内核,提供具备水平拓展能力的云原生、全托管的向量检索服务。

评论

发布
暂无评论
DashText-快速开始_大数据_DashVector_InfoQ写作社区