写点什么

【AIOS 实践】ACE 平台部署 easy-dataset

作者:BoCloud博云

​相关背景

Easy Dataset 是一款专为大型语言模型(LLM)微调设计的开源数据集生成工具,由开发者 ConardLi 主导开发,支持 Windows、MacOS 和 Linux 系统,提供客户端、NPM 和 Docker 三种部署方式,核心功能聚焦于将领域知识转化为结构化训练数据,兼容所有遵循 OpenAI 格式的 LLM API。

Easy Dataset 的核心功能是生成垂直领域的对话数据集,因此,他可以产生很多种应用场景,例如:企业文档助手,智能客服助手,医疗对话助手等等。Easy Dataset 的具体流程就是通过将用户上传的文档分段,之后利用大模型来生成对应这个分段的问题以及答案。


功能介绍:

l 智能文档处理:支持 PDF、Markdown、DOCX 等多种格式智能识别和处理

l 智能文本分割:支持多种智能文本分割算法、支持自定义可视化分段

l 智能问题生成:从每个文本片段中提取相关问题

l 领域标签:为数据集智能构建全局领域标签,具备全局理解能力

l 答案生成:使用 LLM API 为每个问题生成全面的答案、思维链(COT)

l 灵活编辑:在流程的任何阶段编辑问题、答案和数据集

l 多种导出格式:以各种格式(Alpaca、ShareGPT)和文件类型(JSON、JSONL)导出数据集

l 广泛的模型支持:兼容所有遵循 OpenAI 格式的 LLM API

l 用户友好界面:为技术和非技术用户设计的直观 UI

l 自定义系统提示:添加自定义系统提示以引导模型响应


相关环境配置

01 本地安装 docker

1.1 本地打开 hyper-v

通过设置启用 Hyper-V 功能

打开 控制面板 -> 程序和功能 -> 启用或关闭 Windows 功能,勾选 Hyper-V 相关选项,确认,等待配置,提示重启,添加完成。



等待重启完成后,在菜单中就可以看到 Hyper-V 管理器的选项了


1.2 安装 docker 镜像

可以在官网中安装 docker 桌面版之后输入如下命令来启动 easy-dataset 服务:

1.2.1 获取 easy-dataset 项目:

git clone https://github.com/ConardLi/easy-dataset.git

cd easy-dataset

1.2.2 创建 docker image

docker build -t easy-dataset .


1.3 将创建好的 docker 镜像上传到阿里云平台

具体步骤在如下这个链接中

https://cr.console.aliyun.com/repository/cn-beijing/easy-dataset/easy-dataset-bocloud/details


1.4 将运行的 docker image 保存到本地



之后由于导出的镜像过大,因此我们需要将 tar 文件压缩至 tar.gz:

这里可以采用 7-zip


1.5 上传文件至镜像仓库



1.6 在 bmp 平台上部署服务:



选择刚才上传的镜像文件路径



设置相应的服务端口



设置资源配额(演示时可多给些资源)



之后确认发布即可



最终即可在对应的网址找到我们部署的 easy-dataset 服务



easy-dataset 操作指南

02 配置 easy-dataset 相关项目设置





这里需要上传对应的接口地址和密钥,这里我使用 bmp 平台的 deepseek14b 的模型


复制完成 api 后需要创建相关的 api-key:



之后将对应的 api 和 key 填入到 deepseek 的模板中即可,如下图所示



2. easy-dataset 的使用

可以通过这样的方式上传本地的 markdown 文件(如果是 pdf 文件的话可以使用 MinerU 来实现转化)



之后选择需要的节段进行问题生成(也可以批量生成所有的问题)



之后我们可以选择生成所有问题的答案



选择导出数据集即可:


之后可以选择合适的格式和 system prompt 来进行操作:



关于博云 AIOS


AIOS是博云专为 AI 应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向 AI 大模型、生信、仿真渲染、气象、智能控制、图像视频处理等领域的分布式计算提供调度器管理,在网络、存储等基础能力方面增强高性能适配,为 AI 应用提供稳定、高效、可观测的部署与服务运行时管理能力。

同时 AIOS 提供轻量化多框架 AI 训推工具链平台,支持多种分布式 AI 深度学习框架,模型推理框架,IDE 工具,算法、模型仓库,以及模型量化和转化能力,覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。

AIOS 可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力。



发布于: 刚刚阅读数: 5
用户头像

BoCloud博云

关注

微信ID:beyondcent 2019-04-09 加入

微信订阅号:beyondcent AI基础软件及算力管理引领者。

评论

发布
暂无评论
【AIOS实践】ACE平台部署easy-dataset_博云_BoCloud博云_InfoQ写作社区