【AIOS 实践】ACE 平台部署 easy-dataset
相关背景
Easy Dataset 是一款专为大型语言模型(LLM)微调设计的开源数据集生成工具,由开发者 ConardLi 主导开发,支持 Windows、MacOS 和 Linux 系统,提供客户端、NPM 和 Docker 三种部署方式,核心功能聚焦于将领域知识转化为结构化训练数据,兼容所有遵循 OpenAI 格式的 LLM API。
Easy Dataset 的核心功能是生成垂直领域的对话数据集,因此,他可以产生很多种应用场景,例如:企业文档助手,智能客服助手,医疗对话助手等等。Easy Dataset 的具体流程就是通过将用户上传的文档分段,之后利用大模型来生成对应这个分段的问题以及答案。
功能介绍:
l 智能文档处理:支持 PDF、Markdown、DOCX 等多种格式智能识别和处理
l 智能文本分割:支持多种智能文本分割算法、支持自定义可视化分段
l 智能问题生成:从每个文本片段中提取相关问题
l 领域标签:为数据集智能构建全局领域标签,具备全局理解能力
l 答案生成:使用 LLM API 为每个问题生成全面的答案、思维链(COT)
l 灵活编辑:在流程的任何阶段编辑问题、答案和数据集
l 多种导出格式:以各种格式(Alpaca、ShareGPT)和文件类型(JSON、JSONL)导出数据集
l 广泛的模型支持:兼容所有遵循 OpenAI 格式的 LLM API
l 用户友好界面:为技术和非技术用户设计的直观 UI
l 自定义系统提示:添加自定义系统提示以引导模型响应
相关环境配置
01 本地安装 docker
1.1 本地打开 hyper-v
通过设置启用 Hyper-V 功能
打开 控制面板 -> 程序和功能 -> 启用或关闭 Windows 功能,勾选 Hyper-V 相关选项,确认,等待配置,提示重启,添加完成。



等待重启完成后,在菜单中就可以看到 Hyper-V 管理器的选项了
1.2 安装 docker 镜像
可以在官网中安装 docker 桌面版之后输入如下命令来启动 easy-dataset 服务:
1.2.1 获取 easy-dataset 项目:
git clone https://github.com/ConardLi/easy-dataset.git
cd easy-dataset
1.2.2 创建 docker image
docker build -t easy-dataset .
1.3 将创建好的 docker 镜像上传到阿里云平台
具体步骤在如下这个链接中
https://cr.console.aliyun.com/repository/cn-beijing/easy-dataset/easy-dataset-bocloud/details
1.4 将运行的 docker image 保存到本地

之后由于导出的镜像过大,因此我们需要将 tar 文件压缩至 tar.gz:
这里可以采用 7-zip

1.5 上传文件至镜像仓库

1.6 在 bmp 平台上部署服务:

选择刚才上传的镜像文件路径

设置相应的服务端口

设置资源配额(演示时可多给些资源)

之后确认发布即可

最终即可在对应的网址找到我们部署的 easy-dataset 服务

easy-dataset 操作指南
02 配置 easy-dataset 相关项目设置



这里需要上传对应的接口地址和密钥,这里我使用 bmp 平台的 deepseek14b 的模型

复制完成 api 后需要创建相关的 api-key:

之后将对应的 api 和 key 填入到 deepseek 的模板中即可,如下图所示

2. easy-dataset 的使用
可以通过这样的方式上传本地的 markdown 文件(如果是 pdf 文件的话可以使用 MinerU 来实现转化)

之后选择需要的节段进行问题生成(也可以批量生成所有的问题)

之后我们可以选择生成所有问题的答案

选择导出数据集即可:

之后可以选择合适的格式和 system prompt 来进行操作:

关于博云 AIOS
AIOS是博云专为 AI 应用推出的企业级一站式人工智能操作系统,屏蔽底层异构算力差异,面向 AI 大模型、生信、仿真渲染、气象、智能控制、图像视频处理等领域的分布式计算提供调度器管理,在网络、存储等基础能力方面增强高性能适配,为 AI 应用提供稳定、高效、可观测的部署与服务运行时管理能力。
同时 AIOS 提供轻量化多框架 AI 训推工具链平台,支持多种分布式 AI 深度学习框架,模型推理框架,IDE 工具,算法、模型仓库,以及模型量化和转化能力,覆盖数据标注、算法开发、模型训练、模型推理的全生命周期。
AIOS 可以帮助企业和开发者自主构建人工智能业务,助力企业保持行业领先能力。

版权声明: 本文为 InfoQ 作者【BoCloud博云】的原创文章。
原文链接:【http://xie.infoq.cn/article/3b57d9f079c5b083bae062eee】。文章转载请联系作者。
评论