写点什么

Xinference 实战指南:全面解析 LLM 大模型部署流程,携手 Dify 打造高效 AI 应用实践案例,加速 AI 项目落地进程

  • 2024-08-16
    浙江
  • 本文字数:16118 字

    阅读完需:约 53 分钟

Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程

Xinference 实战指南:全面解析 LLM 大模型部署流程,携手 Dify 打造高效 AI 应用实践案例,加速 AI 项目落地进程

Xorbits Inference (Xinference) 是一个开源平台,用于简化各种 AI 模型的运行和集成。借助 Xinference,您可以使用任何开源 LLM、嵌入模型和多模态模型在云端或本地环境中运行推理,并创建强大的 AI 应用。通过 Xorbits Inference,可以轻松地一键部署你自己的模型或内置的前沿开源模型


  • 官网:https://xorbits.cn/inference

  • github:https://github.com/xorbitsai/inference/tree/main

  • 官方手册:https://inference.readthedocs.io/zh-cn/latest/index.html




  • Xinference 功能特点:

  • 模型推理:大语言模型,语音识别模型,多模态模型的部署流程被大大简化。一个命令即可完成模型的部署工作。

  • 前沿模型:框架内置众多中英文的前沿大语言模型,包括 baichuan,chatglm2 等,一键即可体验!内置模型列表还在快速更新中!

  • 异构硬件:通过 ggml,同时使用你的 GPU 与 CPU 进行推理,降低延迟,提高吞吐!

  • 接口调用:提供多种使用模型的接口,包括 OpenAI 兼容的 RESTful API(包括 Function Calling),RPC,命令行,web UI 等等。方便模型的管理与交互。

  • 集群计算,分布协同: 支持分布式部署,通过内置的资源调度器,让不同大小的模型按需调度到不同机器,充分使用集群资源。

  • 开放生态,无缝对接: 与流行的三方库无缝对接,包括 LangChain,LlamaIndex,Dify、FastGPT、RAGFlow、Chatbox。


1. 模型支持

1.1 大模型支持

参考链接:https://inference.readthedocs.io/zh-cn/latest/models/builtin/llm/index.html



所有主流模型都兼容支持

1.2 嵌入模型

参考链接:https://inference.readthedocs.io/zh-cn/latest/models/builtin/embedding/index.html



开源的词嵌入模型也都支持


1.3 重排序模型(Reranker)

参考链接:https://inference.readthedocs.io/zh-cn/latest/models/builtin/rerank/index.html



1.4 IMAGE 模型

Xinference 还支持图像模型,使用图像模型可以实现文生图、图生图等功能。Xinference 内置了几种图像模型,分别是 Stable Diffusion(SD)的各个版本。部署方式和文本模型类似,都是在 WebGUI 界面上启动模型即可,无需进行参数选择,但因为 SD 模型比较大,在部署图像模型前请确保服务器上有 50GB 以上的空间。

1.5 CUSTOM 模型

语音模型是 Xinference 最近新增的功能,使用语音模型可以实现语音转文字、语音翻译等功能。在部署语音模型之前,需要先安装ffmpeg组件,以 Ubuntu 操作系统为例,安装命令如下:


sudo apt update && sudo apt install ffmpeg
复制代码

1.6 模型来源

Xinference 默认是从 HuggingFace 上下载模型,如果需要使用其他网站下载模型,可以通过设置环境变量XINFERENCE_MODEL_SRC来实现,使用以下代码启动 Xinference 服务后,部署模型时会从 Modelscope[5] 上下载模型:


XINFERENCE_MODEL_SRC=modelscope xinference-local
复制代码

1.7 模型独占 GPU

在 Xinference 部署模型的过程中,如果你的服务器只有一个 GPU,那么你只能部署一个 LLM 模型或多模态模型或图像模型或语音模型,因为目前 Xinference 在部署这几种模型时只实现了一个模型独占一个 GPU 的方式,如果你想在一个 GPU 上同时部署多个以上模型,就会遇到这个错误:No available slot found for the model。

1.8 管理模型

除了启动模型,Xinference 提供了管理模型整个生命周期的能力。同样的,你可以使用命令行:


列出所有 Xinference 支持的指定类型的模型:  xinference registrations -t LLM列出所有在运行的模型:  xinference list停止某个正在运行的模型:  xinference terminate --model-uid "qwen2"
复制代码


更多内容参考 3.1 节

2. Xinference 安装

安装 Xinference 用于推理的基础依赖,以及支持用 ggml 推理 和 PyTorch 推理的依赖。

2.1 Xinference 本地源码安装

首先我们需要准备一个 3.9 以上的 Python 环境运行来 Xinference,建议先根据 conda 官网文档安装 conda。 然后使用以下命令来创建 3.11 的 Python 环境:


conda create --name xinference python=3.11conda activate xinference 
复制代码


以下两条命令在安装 Xinference 时,将安装 Transformers 和 vLLM 作为 Xinference 的推理引擎后端:


pip install "xinference"pip install "xinference[ggml]"pip install "xinference[pytorch]"
#安装xinference所有包pip install "xinference[all]"
复制代码


pip install "xinference[transformers]" -i https://pypi.tuna.tsinghua.edu.cn/simplepip install "xinference[vllm]" -i https://pypi.tuna.tsinghua.edu.cn/simplepip install "xinference[transformers,vllm]" # 同时安装#或者一次安装所有的推理后端引擎pip install "xinference[all]"  -i https://pypi.tuna.tsinghua.edu.cn/simple
复制代码


如果你想使用 GGML 格式的模型,建议根据当前使用的硬件手动安装所需要的依赖,以充分利用硬件的加速能力。在 Xinference 安装过程中,有可能会安装 PyTorch 的其他版本(其依赖的 vllm[3] 组件需要安装),从而导致 GPU 服务器无法正常使用,因此在安装完 Xinference 之后,可以执行以下命令看 PyTorch 是否正常:


python -c "import torch; print(torch.cuda.is_available())"
复制代码


如果输出结果为True,则表示 PyTorch 正常,否则需要重新安装 PyTorch。

2.1.1 llama-cpp-python 安装

 ERROR: Failed building wheel for llama-cpp-pythonFailed to build llama-cpp-pythonERROR: Could not build wheels for llama-cpp-python, which is required to install pyproject.toml-based projects
复制代码


错误原因:使用 pip install llama-cpp-python 安装时,是通过下载源码编译安装的(llama_cpp_python-0.2.55.tar.gz (36.8 MB))。这时候如果系统没有相应的 cmake 和 gcc 版本,会弹出这个错误。


根据系统选择官方编译后的 whl 下载进行离线安装。


  • 网址:https://github.com/abetlen/llama-cpp-python/releases



参考链接:告别卡顿,畅享GitHub:国内开发者必看的五大加速访问与下载技巧


找一个加速器就好


wget https://git.886.be/https://github.com/abetlen/llama-cpp-python/releases/download/v0.2.88-cu122/llama_cpp_python-0.2.88-cp311-cp311-linux_x86_64.whl
复制代码


  • 安装命令例子


 pip install llama_cpp_python-0.2.88-cp311-cp311-linux_x86_64.whl
复制代码

2.2 Docker 安装 xinference

参考链接:Docker 镜像安装官方手册


当前,可以通过两个渠道拉取 Xinference 的官方镜像。


  1. 在 Dockerhub 的 xprobe/xinference 仓库里。

  2. Dockerhub 中的镜像会同步上传一份到阿里云公共镜像仓库中,供访问 Dockerhub 有困难的用户拉取。拉取命令:docker pull registry.cn-hangzhou.aliyuncs.com/xprobe_xinference/xinference:<tag> 。目前可用的标签包括:

  3. nightly-main: 这个镜像会每天从 GitHub main 分支更新制作,不保证稳定可靠。

  4. v<release version>: 这个镜像会在 Xinference 每次发布的时候制作,通常可以认为是稳定可靠的。

  5. latest: 这个镜像会在 Xinference 发布时指向最新的发布版本

  6. 对于 CPU 版本,增加 -cpu 后缀,如 nightly-main-cpu。


Nvidia GPU 用户可以使用 Xinference Docker 镜像 启动 Xinference 服务器。在执行安装命令之前,确保系统中已经安装了 Docker 和 CUDA。你可以使用如下方式在容器内启动 Xinference,同时将 9997 端口映射到宿主机的 9998 端口,并且指定日志级别为 DEBUG,也可以指定需要的环境变量。


docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0 --log-level debug
复制代码


需要修改<your_version>为实际使用版本,也可以为 latest:


docker run -e XINFERENCE_MODEL_SRC=modelscope -p 9998:9997 --gpus all xprobe/xinference:latest xinference-local -H 0.0.0.0 --log-level debug
复制代码


  • --gpus 必须指定,正如前文描述,镜像必须运行在有 GPU 的机器上,否则会出现错误。

  • -H 0.0.0.0 也是必须指定的,否则在容器外无法连接到 Xinference 服务。

  • 可以指定多个 -e 选项赋值多个环境变量。

2.2.2 挂载模型目录

默认情况下,镜像中不包含任何模型文件,使用过程中会在容器内下载模型。如果需要使用已经下载好的模型,需要将宿主机的目录挂载到容器内。这种情况下,需要在运行容器时指定本地卷,并且为 Xinference 配置环境变量。


docker run -v </on/your/host>:</on/the/container> -e XINFERENCE_HOME=</on/the/container> -p 9998:9997 --gpus all xprobe/xinference:v<your_version> xinference-local -H 0.0.0.0
复制代码


上述命令的原理是将主机上指定的目录挂载到容器中,并设置 XINFERENCE_HOME 环境变量指向容器内的该目录。这样,所有下载的模型文件将存储在您在主机上指定的目录中。您无需担心在 Docker 容器停止时丢失这些文件,下次运行容器时,您可以直接使用现有的模型,无需重复下载。


如果你在宿主机使用的默认路径下载的模型,由于 xinference cache 目录是用的软链的方式存储模型,需要将原文件所在的目录也挂载到容器内。例如你使用 huggingface 和 modelscope 作为模型仓库,那么需要将这两个对应的目录挂载到容器内,一般对应的 cache 目录分别在 <home_path>/.cache/huggingface 和 <home_path>/.cache/modelscope,使用的命令如下:


docker run \  -v </your/home/path>/.xinference:/root/.xinference \  -v </your/home/path>/.cache/huggingface:/root/.cache/huggingface \  -v </your/home/path>/.cache/modelscope:/root/.cache/modelscope \  -p 9997:9997 \  --gpus all \  xprobe/xinference:v<your_version> \  xinference-local -H 0.0.0.0
复制代码

3.启动 xinference 服务(UI)

Xinference 默认会在本地启动服务,端口默认为 9997。因为这里配置了-H 0.0.0.0 参数,非本地客户端也可以通过机器的 IP 地址来访问 Xinference 服务。


xinference-local --host 0.0.0.0 --port 7861
复制代码


  • 启动输出结果



2024-08-14 15:37:36,771 xinference.core.supervisor 1739661 INFO     Xinference supervisor 0.0.0.0:62536 started2024-08-14 15:37:36,901 xinference.core.worker 1739661 INFO     Starting metrics export server at 0.0.0.0:None2024-08-14 15:37:36,903 xinference.core.worker 1739661 INFO     Checking metrics export server...2024-08-14 15:37:39,192 xinference.core.worker 1739661 INFO     Metrics server is started at: http://0.0.0.0:334232024-08-14 15:37:39,193 xinference.core.worker 1739661 INFO     Purge cache directory: /root/.xinference/cache2024-08-14 15:37:39,194 xinference.core.worker 1739661 INFO     Connected to supervisor as a fresh worker2024-08-14 15:37:39,205 xinference.core.worker 1739661 INFO     Xinference worker 0.0.0.0:62536 started2024-08-14 15:37:43,454 xinference.api.restful_api 1739585 INFO     Starting Xinference at endpoint: http://0.0.0.0:85012024-08-14 15:37:43,597 uvicorn.error 1739585 INFO     Uvicorn running on http://0.0.0.0:8501 (Press CTRL+C to quit)
复制代码

3.1 模型下载

vLLM 引擎

vLLM 是一个支持高并发的高性能大模型推理引擎。当满足以下条件时,Xinference 会自动选择 vllm 作为引擎来达到更高的吞吐量:


  • 模型格式为 pytorchgptq 或者 awq

  • 当模型格式为 pytorch 时,量化选项需为 none

  • 当模型格式为 awq 时,量化选项需为 Int4

  • 当模型格式为 gptq 时,量化选项需为 Int3Int4 或者 Int8

  • 操作系统为 Linux 并且至少有一个支持 CUDA 的设备

  • 自定义模型的 model_family 字段和内置模型的 model_name 字段在 vLLM 的支持列表中。

Llama.cpp 引擎

Xinference 通过 llama-cpp-python 支持 ggufggml 格式的模型。建议根据当前使用的硬件手动安装依赖,从而获得最佳的加速效果。


不同硬件的安装方式:


  • Apple M 系列


    CMAKE_ARGS="-DLLAMA_METAL=on" pip install llama-cpp-python
复制代码


  • 英伟达显卡:


    CMAKE_ARGS="-DLLAMA_CUBLAS=on" pip install llama-cpp-python
复制代码


  • AMD 显卡:


    CMAKE_ARGS="-DLLAMA_HIPBLAS=on" pip install llama-cpp-python
复制代码

SGLang 引擎

SGLang 具有基于 RadixAttention 的高性能推理运行时。它通过在多个调用之间自动重用 KV 缓存,显著加速了复杂 LLM 程序的执行。它还支持其他常见推理技术,如连续批处理和张量并行处理。


初始步骤:


pip install 'xinference[sglang]'
复制代码

3.2 模型部署



在部署 LLM 模型时有以下参数可以进行选择:


  • Model Format: 模型格式,可以选择量化和非量化的格式,非量化的格式是 pytorch,量化格式有 ggml、gptq、awq 等

  • Model Size:模型的参数量大小,如果是 Llama3 的话,则有 8B、70B 等选项

  • Quantization:量化精度,有 4bit、8bit 等量化精度选择

  • N-GPU:选择使用第几个 GPU

  • Model UID(可选): 模型自定义名称,不填的话就默认用原始模型名称


参数填写完成后,点击左边的火箭图标按钮即开始部署模型,后台会根据参数选择下载量化或非量化的 LLM 模型。部署完成后,界面会自动跳转到 Running Models 菜单,在 LANGUAGE MODELS 标签中,我们可以看到部署好的模型。

3.2.1 flashinfer 安装

参考链接:https://gitcode.com/gh_mirrors/fl/flashinfer/overview?utm_source=artical_gitcode&index=bottom&type=card&webUrl


参考链接:https://docs.flashinfer.ai/installation.html


  • 提供了适用于 Linux 的预编译轮子,可以通过以下命令尝试 FlashInfer:


#针对CUDA 12.4及torch 2.4pip install flashinfer -i https://flashinfer.ai/whl/cu124/torch2.4#对于其他CUDA和torch版本,请访问 https://docs.flashinfer.ai/installation.html 查看详情
复制代码


  • 或者你可以从源代码编译安装:


git clone https://github.com/flashinfer-ai/flashinfer.git --recursivecd flashinfer/pythonpip install -e .
复制代码


  • 若需减小构建和测试时的二进制大小,可以这样做:


git clone https://github.com/flashinfer-ai/flashinfer.git --recursivecd flashinfer/python#参考 https://pytorch.org/docs/stable/generated/torch.cuda.get_device_capability.html#torch.cuda.get_device_capabilityexport TORCH_CUDA_ARCH_LIST=8.0pip install -e .
复制代码



查看 torch 版本:


import torchprint(torch.__version__)#2.4.0+cu121
复制代码


  • OS: Linux only

  • Python: 3.8, 3.9, 3.10, 3.11, 3.12

  • PyTorch: 2.2/2.3/2.4 with CUDA 11.8/12.1/12.4 (only for torch 2.4)

  • Use python -c "import torch; print(torch.version.cuda)" to check your PyTorch CUDA version.

  • Supported GPU architectures: sm80, sm86, sm89, sm90 (sm75 / sm70 support is working in progress).


pip install flashinfer -i https://flashinfer.ai/whl/cu121/torch2.4/
复制代码


如果觉得太慢了,就用 whl


  • github 网址:https://github.com/flashinfer-ai/flashinfer/releases


Downloading https://github.com/flashinfer-ai/flashinfer/releases/download/v0.1.4/flashinfer-0.1.4%2Bcu121torch2.4-cp311-cp311-linux_x86_64.whl (1098.5 MB)
wget https://git.886.be/https://github.com/flashinfer-ai/flashinfer/releases/download/v0.1.4/flashinfer-0.1.4+cu121torch2.4-cp311-cp311-linux_x86_64.whl
pip install flashinfer-0.1.4+cu121torch2.4-cp311-cp311-linux_x86_64.whl
复制代码


  • 又遇到问题,可能是量化模型不支持问题



尝试使用 qwen2:1.5b 遇到一下问题:


Bfloat16 is only supported on GPUs with compute capability of at least 8.0. Your Tesla V100-SXM2-16GB GPU has compute capability 7.0. You can use float16 instead by explicitly setting the`dtype` flag in CLI, for example: --dtype=half
复制代码


  • GPU 的 Compute Capability 列表:



由此可见 Tesla V100 的 Compute Capability 是 7.0,也就是不能用 Bfloat16 进行计算,要对 Bfloat16 减半转换为 float16,所以运行时的 dtype 是 half 或者 float16,否则 vLLM 会报错。


在国内需要设置环境变量 VLLM_USE_MODELSCOPE=True,然后就可以启动一个 vLLM 大模型 API 服务了:


CUDA_VISIBLE_DEVICES=0,1 nohup python -m vllm.entrypoints.openai.api_server --model pooka74/LLaMA3-8B-Chat-Chinese --dtype=half --port 8000 &> ~/logs/vllm.log &
复制代码


  • 界面修改参考:

  • 命令行就是 --dtype half,界面上 extra +号点击,key 是 dtype,值是 half。




  • 查看 GPU 资源占用


3.2.2 分布式部署

分布式场景下,需要在一台服务器上部署一个 Xinference supervisor,并在其余服务器上分别部署一个 Xinference worker。 具体步骤如下:


(1)启动 supervisor 执行命令 xinference-supervisor -H "{supervisor_host} 为 supervisor 所在服务器的实际主机名或 IP 地址。


(2)启动 workers 其余服务器执行命令 xinference-worker -e "http://${supervisor_host}:9997"


Xinference 启动后,将会打印服务的 endpoint。这个 endpoint 用于通过命令行工具或编程接口进行模型的管理:


本地部署下,endpoint 默认为 http://localhost:9997


集群部署下,endpoint 默认为 http://{supervisor_host} 为 supervisor 所在服务器的主机名或 IP 地址。

3.3 模型使用

模型下载并启动后,会自动打开一个本地网页,你可以在这里与模型进行简单的对话,测试其是否成功运行。


复制标题下方的 Model ID,可以在其他 LLMops 上使用

3.3.1 快速 Gradio 对话


3.3.2 集成 Dify 智能问答



模型部署完毕,在 Dify 中使用接入模型,在 设置 > 模型供应商 > Xinference 中填入:


  • 模型名称:qwen2-instruct

  • 服务器 URL:http://<Machine_IP>:7861 替换成您的机器 IP 地址

  • 模型 UID:qwen2-instruct

  • "保存" 后即可在应用中使用该模型。


Dify 同时支持将 Xinference embed 模型 作为 Embedding 模型使用,只需在配置框中选择 Embeddings 类型即可。

3.4 自定义模型

参考链接:参考下文



xinference registrations --model-type LLM --endpoint "http://127.0.0.1:7861"
复制代码


Type    Name                         Language                                                      Ability             Is-built-in------  ---------------------------  ------------------------------------------------------------  ------------------  -------------LLM     aquila2                      ['zh']                                                        ['generate']        TrueLLM     aquila2-chat                 ['zh']                                                        ['chat']            TrueLLM     aquila2-chat-16k             ['zh']                                                        ['chat']            TrueLLM     baichuan                     ['en', 'zh']                                                  ['generate']        TrueLLM     baichuan-2                   ['en', 'zh']                                                  ['generate']        TrueLLM     baichuan-2-chat              ['en', 'zh']                                                  ['chat']            TrueLLM     baichuan-chat                ['en', 'zh']                                                  ['chat']            TrueLLM     c4ai-command-r-v01           ['en', 'fr', 'de', 'es', 'it', 'pt', 'ja', 'ko', 'zh', 'ar']  ['chat']            TrueLLM     chatglm                      ['en', 'zh']                                                  ['chat']            TrueLLM     chatglm2                     ['en', 'zh']                                                  ['chat']            TrueLLM     chatglm2-32k                 ['en', 'zh']                                                  ['chat']            TrueLLM     chatglm3                     ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     chatglm3-128k                ['en', 'zh']                                                  ['chat']            TrueLLM     chatglm3-32k                 ['en', 'zh']                                                  ['chat']            TrueLLM     code-llama                   ['en']                                                        ['generate']        TrueLLM     code-llama-instruct          ['en']                                                        ['chat']            TrueLLM     code-llama-python            ['en']                                                        ['generate']        TrueLLM     codegeex4                    ['en', 'zh']                                                  ['chat']            TrueLLM     codeqwen1.5                  ['en', 'zh']                                                  ['generate']        TrueLLM     codeqwen1.5-chat             ['en', 'zh']                                                  ['chat']            TrueLLM     codeshell                    ['en', 'zh']                                                  ['generate']        TrueLLM     codeshell-chat               ['en', 'zh']                                                  ['chat']            TrueLLM     codestral-v0.1               ['en']                                                        ['generate']        TrueLLM     cogvlm2                      ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     csg-wukong-chat-v0.1         ['en']                                                        ['chat']            TrueLLM     deepseek                     ['en', 'zh']                                                  ['generate']        TrueLLM     deepseek-chat                ['en', 'zh']                                                  ['chat']            TrueLLM     deepseek-coder               ['en', 'zh']                                                  ['generate']        TrueLLM     deepseek-coder-instruct      ['en', 'zh']                                                  ['chat']            TrueLLM     deepseek-vl-chat             ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     falcon                       ['en']                                                        ['generate']        TrueLLM     falcon-instruct              ['en']                                                        ['chat']            TrueLLM     gemma-2-it                   ['en']                                                        ['chat']            TrueLLM     gemma-it                     ['en']                                                        ['chat']            TrueLLM     glaive-coder                 ['en']                                                        ['chat']            TrueLLM     glm-4v                       ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     glm4-chat                    ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     glm4-chat-1m                 ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     gorilla-openfunctions-v1     ['en']                                                        ['chat']            TrueLLM     gorilla-openfunctions-v2     ['en']                                                        ['chat']            TrueLLM     gpt-2                        ['en']                                                        ['generate']        TrueLLM     internlm-20b                 ['en', 'zh']                                                  ['generate']        TrueLLM     internlm-7b                  ['en', 'zh']                                                  ['generate']        TrueLLM     internlm-chat-20b            ['en', 'zh']                                                  ['chat']            TrueLLM     internlm-chat-7b             ['en', 'zh']                                                  ['chat']            TrueLLM     internlm2-chat               ['en', 'zh']                                                  ['chat']            TrueLLM     internlm2.5-chat             ['en', 'zh']                                                  ['chat']            TrueLLM     internlm2.5-chat-1m          ['en', 'zh']                                                  ['chat']            TrueLLM     internvl-chat                ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     llama-2                      ['en']                                                        ['generate']        TrueLLM     llama-2-chat                 ['en']                                                        ['chat']            TrueLLM     llama-3                      ['en']                                                        ['generate']        TrueLLM     llama-3-instruct             ['en']                                                        ['chat']            TrueLLM     llama-3.1                    ['en', 'de', 'fr', 'it', 'pt', 'hi', 'es', 'th']              ['generate']        TrueLLM     llama-3.1-instruct           ['en', 'de', 'fr', 'it', 'pt', 'hi', 'es', 'th']              ['chat']            TrueLLM     minicpm-2b-dpo-bf16          ['zh']                                                        ['chat']            TrueLLM     minicpm-2b-dpo-fp16          ['zh']                                                        ['chat']            TrueLLM     minicpm-2b-dpo-fp32          ['zh']                                                        ['chat']            TrueLLM     minicpm-2b-sft-bf16          ['zh']                                                        ['chat']            TrueLLM     minicpm-2b-sft-fp32          ['zh']                                                        ['chat']            TrueLLM     MiniCPM-Llama3-V-2_5         ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     MiniCPM-V-2.6                ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     mistral-instruct-v0.1        ['en']                                                        ['chat']            TrueLLM     mistral-instruct-v0.2        ['en']                                                        ['chat']            TrueLLM     mistral-instruct-v0.3        ['en']                                                        ['chat']            TrueLLM     mistral-large-instruct       ['en', 'fr', 'de', 'es', 'it', 'pt', 'zh', 'ru', 'ja', 'ko']  ['chat']            TrueLLM     mistral-nemo-instruct        ['en', 'fr', 'de', 'es', 'it', 'pt', 'zh', 'ru', 'ja']        ['chat']            TrueLLM     mistral-v0.1                 ['en']                                                        ['generate']        TrueLLM     mixtral-8x22B-instruct-v0.1  ['en', 'fr', 'it', 'de', 'es']                                ['chat']            TrueLLM     mixtral-instruct-v0.1        ['en', 'fr', 'it', 'de', 'es']                                ['chat']            TrueLLM     mixtral-v0.1                 ['en', 'fr', 'it', 'de', 'es']                                ['generate']        TrueLLM     OmniLMM                      ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     OpenBuddy                    ['en']                                                        ['chat']            TrueLLM     openhermes-2.5               ['en']                                                        ['chat']            TrueLLM     opt                          ['en']                                                        ['generate']        TrueLLM     orca                         ['en']                                                        ['chat']            TrueLLM     orion-chat                   ['en', 'zh']                                                  ['chat']            TrueLLM     orion-chat-rag               ['en', 'zh']                                                  ['chat']            TrueLLM     phi-2                        ['en']                                                        ['generate']        TrueLLM     phi-3-mini-128k-instruct     ['en']                                                        ['chat']            TrueLLM     phi-3-mini-4k-instruct       ['en']                                                        ['chat']            TrueLLM     platypus2-70b-instruct       ['en']                                                        ['generate']        TrueLLM     qwen-chat                    ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     qwen-vl-chat                 ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     qwen1.5-chat                 ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     qwen1.5-moe-chat             ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     qwen2-instruct               ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     qwen2-moe-instruct           ['en', 'zh']                                                  ['chat', 'tools']   TrueLLM     seallm_v2                    ['en', 'zh', 'vi', 'id', 'th', 'ms', 'km', 'lo', 'my', 'tl']  ['generate']        TrueLLM     seallm_v2.5                  ['en', 'zh', 'vi', 'id', 'th', 'ms', 'km', 'lo', 'my', 'tl']  ['generate']        TrueLLM     Skywork                      ['en', 'zh']                                                  ['generate']        TrueLLM     Skywork-Math                 ['en', 'zh']                                                  ['generate']        TrueLLM     starchat-beta                ['en']                                                        ['chat']            TrueLLM     starcoder                    ['en']                                                        ['generate']        TrueLLM     starcoderplus                ['en']                                                        ['generate']        TrueLLM     Starling-LM                  ['en', 'zh']                                                  ['chat']            TrueLLM     telechat                     ['en', 'zh']                                                  ['chat']            TrueLLM     tiny-llama                   ['en']                                                        ['generate']        TrueLLM     vicuna-v1.3                  ['en']                                                        ['chat']            TrueLLM     vicuna-v1.5                  ['en']                                                        ['chat']            TrueLLM     vicuna-v1.5-16k              ['en']                                                        ['chat']            TrueLLM     wizardcoder-python-v1.0      ['en']                                                        ['chat']            TrueLLM     wizardlm-v1.0                ['en']                                                        ['chat']            TrueLLM     wizardmath-v1.0              ['en']                                                        ['chat']            TrueLLM     xverse                       ['en', 'zh']                                                  ['generate']        TrueLLM     xverse-chat                  ['en', 'zh']                                                  ['chat']            TrueLLM     Yi                           ['en', 'zh']                                                  ['generate']        TrueLLM     Yi-1.5                       ['en', 'zh']                                                  ['generate']        TrueLLM     Yi-1.5-chat                  ['en', 'zh']                                                  ['chat']            TrueLLM     Yi-1.5-chat-16k              ['en', 'zh']                                                  ['chat']            TrueLLM     Yi-200k                      ['en', 'zh']                                                  ['generate']        TrueLLM     Yi-chat                      ['en', 'zh']                                                  ['chat']            TrueLLM     yi-vl-chat                   ['en', 'zh']                                                  ['chat', 'vision']  TrueLLM     zephyr-7b-alpha              ['en']                                                        ['chat']            TrueLLM     zephyr-7b-beta               ['en']                                                        ['chat']            True
复制代码


  • 通过 Web 注册模型

4. 终端命令

上面如果修改了端口,可以根据下面对应的修改端口


#https://hf-mirror.com/ export HF_ENDPOINT=https://hf-mirror.comexport XINFERENCE_MODEL_SRC=modelscope#log缓存地址export XINFERENCE_HOME=/root/autodl-tmp#端口修改了重新设置环境变量export XINFERENCE_ENDPOINT=http://0.0.0.0:7863
复制代码


修改完了就可以对应的启动相对应的服务,下面是分别启动 chat / embedding / rerank 三种模型的 cmd 命令, 其他模型命令可以参考 xinference 主页。 启动完了,会返回对应模型的 UID(后期在 Dify 部署会用到)


#部署chatglm3xinference launch --model-name chatglm3 --size-in-billions 6 --model-format pytorch --quantization 8-bit#部署 bge-large-zh embeddingxinference launch --model-name bge-large-zh --model-type embedding#部署 bge-reranker-large rerankxinference launch --model-name bge-reranker-large --model-type rerank
复制代码

API 调用

​ 如果你不满足于使用 LLM 模型的 Web 界面,你也可以调用 API 接口来使用 LLM 模型,其实在 Xinference 服务部署好的时候,WebGUI 界面和 API 接口已经同时准备好了,在浏览器中访问 http://localhost:9997/docs / 就可以看到 API 接口列表。


​ 接口列表中包含了大量的接口,不仅有 LLM 模型的接口,还有其他模型(比如 Embedding 或 Rerank )的接口,而且这些都是兼容 OpenAI API 的接口。以 LLM 的聊天功能为例,我们使用 Curl 工具来调用其接口,示例如下:


curl -X 'POST' \  'http://localhost:9997/v1/chat/completions' \  -H 'accept: application/json' \  -H 'Content-Type: application/json' \  -d '{    "model": "chatglm3",    "messages": [      {        "role": "user",        "content": "hello"      }    ]  }'
#返回结果{ "model": "chatglm3", "object": "chat.completion", "choices": [ { "index": 0, "message": { "role": "assistant", "content": "Hello! How can I help you today?", }, "finish_reason": "stop" } ], "usage": { "prompt_tokens": 8, "total_tokens": 29, "completion_tokens": 37 }}
复制代码


如果想测试模型是否已经部署到本地,以 rerank 模型为例可以执行下面这个脚本, 或者执行


from xinference.client import Client
#url 可以是local的端口 也可以是外接的端口url = "http://172.19.0.1:6006"print(url)
client = Client(url)model_uid = client.launch_model(model_name="bge-reranker-base", model_type="rerank")model = client.get_model(model_uid)
query = "A man is eating pasta."corpus = [ "A man is eating food.", "A man is eating a piece of bread.", "The girl is carrying a baby.", "A man is riding a horse.", "A woman is playing violin."]print(model.rerank(corpus, query))
复制代码


  • 或者执行查看已经部署好的模型


xinferencelist
复制代码


  • 如果需要释放资源


xinferenceterminate--model-uid"my-llama-2"
复制代码


  • 需要外网访问,需要查找本地 IP 地址 即 http://<Machine_IP>:<端口 port> , 查找 IP 地址的方式如下。


#Windowsipconfig/all
#Linuxhostname -I
复制代码

5. Xinference 官方 AI 实践案例

官方链接:https://inference.readthedocs.io/zh-cn/latest/examples/index.html



参考链接:


发布于: 刚刚阅读数: 5
用户头像

本博客将不定期更新关于NLP等领域相关知识 2022-01-06 加入

本博客将不定期更新关于机器学习、强化学习、数据挖掘以及NLP等领域相关知识,以及分享自己学习到的知识技能,感谢大家关注!

评论

发布
暂无评论
Xinference实战指南:全面解析LLM大模型部署流程,携手Dify打造高效AI应用实践案例,加速AI项目落地进程_人工智能_汀丶人工智能_InfoQ写作社区