多模块更新,助力模型训练及应用|ModelWhale 版本更新
绿暗红稀,蝉鸣草长。本次更新中,ModelWhale 带来了一系列的功能优化,期待为你提供更好的使用体验。
本次更新中,ModelWhale 主要进行了以下功能迭代:
• 优化 模型与人工组合式数据标注(团队版✓ )
• 优化 Notebook 内文件下载及解压(基础版✓ 专业版✓ 团队版✓ )
• 优化 Notebook 内文件编辑(基础版✓ 专业版✓ 团队版✓ )
• 新增 模型服务依赖数据配置(专业版✓ 团队版✓ )
• 优化 模型服务调试日志查看(专业版✓ 团队版✓ )
• 新增 高性能计算机群(HPC)接入(私有化)
• 新增 离线任务结果跨项目保存整合(专业版✓ 团队版✓ )
• 新增 按群组批量停用账号(团队版✓ )
• 新增 功能模块文件夹(团队版✓ )
1、优化 模型与人工组合式数据标注(团队版✓ )
经标注处理的结构化数据可以更好地被算法模型训练使用,ModelWhale 标注工具支持模型打标、多人标注、多人审核等流程的组合式标注,现新增一目了然的工作流概览、更清晰的个人任务入口,同时优化了任务配置流程,满足多种协作场景的标注需求,如:(1)模型预打标:标注者在模型预打标的基础上进行人工标注调整,节省打标人力成本;(2)模型标注+自动审核:模型标注结果较准确的数据(打标分数大于你设置的阈值)自动审核通过,不准确的由人工审核调整;(3)多人标注(不使用模型辅助标注):人工标注后,人工审核;更多详见数据标注手册。
Tips:标注任务创建者、审核者可以点击“工作流卡片”,了解每一环节的具体工作进度。
2、优化 Notebook 内文件下载及解压(基础版✓ 专业版✓ 团队版✓ )
Notebook 项目整合分析过程的数据、代码、文件及环境信息于一体。进行大模型训练时,往往需要调用大量数据、大量文件。现 .zip/.tar/.tar.gz/.rar 格式的压缩文件均已支持在线解压;文件的解压进度、数据集的挂载进度,都可以通过右上角查看。
Tips:和 Notebook 一样,Canvas 也支持上述功能。
3、优化 Notebook 内文件编辑(基础版✓ 专业版✓ 团队版✓ )
一些模型文件、模型训练代码、模型调优代码可能来源于开源社区。在 Notebook 文件树上传这些 .ipynb 代码文件 后(或者通过压缩包形式上传并完成解压后),ModelWhale 现已支持直接将其打开为 “在线 Notebook” 以便你进行编辑修改(请选择“打开文件”)。文本文件(如 .txt/.md)现也已支持在 Notebook 内编辑修改(请选择“编辑文件”)。
Tips:文件树的目录层级现也已支持点击跳转。
4、新增 模型服务依赖数据配置(专业版✓ 团队版✓ )
ModelWhale 支持灵活的模型部署和使用,让模型成果的跨部门交付更加简单,业务人员也可以低代码、甚至零代码使用这些高价值的模型成果。当算法研究人员进行模型部署时,需要选择服务的相关配置,包括依赖语言、环境、文件等;依赖数据,现也已支持同时配置,可以来源于数据集、模型库、NAS(依赖数据、权重文件不再需要上传到 Notebook project 目录下)。相关依赖字段,平台会自动根据当前项目为你匹配填写,帮助提高工作效率。更多详见模型服务使用手册。
5、优化 模型服务调试日志查看(专业版✓ 团队版✓ )
将模型文件部署为服务后,你可以使用平台提供的「调试测试」功能:即时调用当前的模型服务进行数据预测,检测模型的可用性。通过查看下方的“测试结果”、分析“服务日志” 可以帮助你定位问题;更多详见模型服务使用手册。
6、新增 高性能计算机群(HPC)接入(私有化)
不少研究任务需要高性能算力的支持,ModelWhale 数据研究平台除了支持使用 CPU、GPU、GPU 集群资源外,也支持接入你已有的高性能计算机群(HPC)在平台上进行算力调用。组织管理员完成相关配置,并让用户配置自己的 “Slurm 用户名”、“Slurm Token”后,即可在 ModelWhale 调用 HPC。为高效完成复杂的运算任务,建议同时搭配使用 ModelWhale 提供的离线任务功能(常用于云端托管训练),更多详见离线任务操作手册。
Tips:该功能面向私有化客户开放;公有云用户建议使用「离线任务 + GPU 集群」的方式进行复杂的任务训练、代码运算。
7、新增 离线任务结果跨项目保存整合(专业版✓ 团队版✓ )
对重要用户群组进行周期性数据分析,可以帮助业务方及时了解当前用户情况以及变化趋势。算法工程师在创建分析模板后,可以通过输入不同用户参数、配置定时任务(每周/每双周/每月)、跨项目保存整合的方式,使用 ModelWhale 生成并整合相关数据周报。业务方获得周报后,可以基于 Notebook 的输入/输出直观了解分析逻辑;也可以自行调整 Notebook 代码、更改分析维度,形成更具针对性的分析报告。
Tips:ModelWhale 离线任务支持使用不同参数组合运行同一个 Notebook、定时运行、跨项目保存整合等功能,更多详见离线任务操作手册。
8、新增 按群组批量停用账号(团队版✓ )
数据科学是一门实践性很强的学科,真实动手实践可以帮助学生更好地理解数据科学方法,逐步认识到可以如何应用它们思考问题、解决问题。ModelWhale 配有专业的数据研究工具设施、丰富的学习资源,供学生高效学习;同时配有完善的课堂管理系统,供老师便捷开课。授课结束后,老师可以按群组批量停用账号(如:停用“八班”学生账号),达到释放账号、算力给新一期同学的目的。
Tips:平行班授课,往往使用同一份课堂教材,老师可以使用「课程复用」功能进行线上内容的快速复制。更多教学功能的使用,详见教学实训使用手册。
9、新增 功能模块文件夹(团队版✓ )
ModelWhale 工作台左侧边栏展示众多功能模块,你可以自行拖拽排序使其符合你的工作习惯。此外,现在也支持组织管理员通过“文件夹”对功能模块进行分类管理,为成员分发已经整理的功能结构,以便他们按照自身工作流使用平台设施完成工作。
以上就是本期 ModelWhale 版本更新的全部内容。
进入 ModelWhale.com,免费试用专业版(个人研究)或试用团队版(组织协同),获赠 CPU 和 GPU 算力!(建议使用电脑端进行试用体验)
如果对 ModelWhale 有任何建议、疑问,或有试用续期需求,欢迎【联系MW】,MoMo 很高兴为你服务、与你交流。
版权声明: 本文为 InfoQ 作者【ModelWhale】的原创文章。
原文链接:【http://xie.infoq.cn/article/4cff9f3d93938aa97b04bea0d】。未经作者许可,禁止转载。
评论