写点什么

助力大模型开发,澳鹏 MatrixGo 平台工作流再次升级

作者:澳鹏Appen
  • 2023-11-15
    上海
  • 本文字数:1477 字

    阅读完需:约 5 分钟

助力大模型开发,澳鹏MatrixGo平台工作流再次升级

科技世界的发展日益依托数据的驱动。对于近期备受关注的大语言模型(LLM)来说尤为如此。大模型往往需要大量的标注数据进行学习和优化,随着数据量的不断增加,标注过程的复杂性也在增加。


这种复杂性可以通过工作流的帮助予以简化。作为一种强大的工具,工作流连接数据采集和标注过程的多个步骤,在提高可扩展性的同时简化整个流程。


工作流与大模型部署


工作流是一组相互关联的任务,包括数据的采集、标注、质检和交付等。工作流的每一步都旨在确保数据的准确性、一致性和高质量。通过按逻辑顺序连接起这些任务,可以提高标注效率和可扩展性,减少大量数据所耗费的时间和精力。


基于大模型训练所需数据量大、对于数据质量要求高、数据流转需求多的特点,工作流对于大模型训练中,确保数据一致、准确和大规模地标注必不可少。


通过使用高质量的工作流来管理整个流程,模型能够很好地学习并生成与任务相关且连贯的文本;企业可以简化大模型和其他生成式 AI 应用的开发,从而能更快、更有效地将新产品和服务推向市场。


工作流有哪些用途


简化数据标注过程

工作流有助于简化和实现数据标注过程自动化,减少标注大量数据所需的时间和精力。


提高一致性和准确性

工作流确保数据标注的一致和准确,这对于开发高质量的 LLM 等 AI 模型至关重要。


提高数据质量

工作流将质量控制与检查集成到标注流程中,可帮助提高数据标注的整体质量。


提高可扩展性

工作流可以根据需要收缩或扩展,以灵活适应数据量或标注需求的变化。


加强协作

工作流有助于促进在同一项目中工作的团队间协作,使团队成员能够更加高效地协同工作。


支持自动化

工作流可以与自动化工具集成,以进一步简化数据标注流程,减少人工干预的需要。


加快 AI 模型的开发

工作流能够通过简化数据标注流程,提高一致性和准确性,从而帮助企业更快、更有效地开发 AI 模型。


澳鹏工作流解决方案


作为提供高质量数据服务的 AI 战略合作伙伴,澳鹏中国自主研发的人工智能辅助数据标注平台 MatrixGo 集成了灵活可视的工作流,用户可以根据项目的具体需求设置数据流转方案。


而近期,澳鹏团队在此前的 2.0 版本上对 MatrixGo 平台工作流再次进行了优化升级。目前已实现的功能优化主要集中在三大方面,更多功能亦在同步开发中。



▲ 升级版澳鹏 MatrixGo 平台工作流


1. 全流程的工作流支持,覆盖数据从采集、标注,到最终模型测试的全流程管理。


新增采集工作流支持

· 支持对数据采集任务、采集数据质检任务及处理脚本进行管理。

· 支持采集完成数据自动化流转到标注工作流。


2. 更灵活的任务执行与数据流转方式,可实现标注与质检并行,提升流转效率。


支持审核任务(私有化版本):质检人员可自行打包一批数据,整批数据完成质检后统一提交。


支持提前质检(私有化版本-点云拉框模版):质检人员在标注过程中可提前参与质检,无需等待标注过程完成,节省数据流转时间。


支持跳过操作:标注人员对目前存疑或自身标注有难度的数据可先行跳过,不会因某条数据阻塞而导致无法完成后续任务。


支持设置数据的有效性标签:无效数据可直接跳过。


3. 安全可追溯


数据在工作流中流转全记录:平台工作人员对数据在每个节点的操作,包括标注、打回、删除、导出等均有日志记录可查询。对于异常 ip、高频操作等非正常情况,平台设有预警机制。


工作流不同节点数据操作权限基于角色可定义


在大模型和其他生成式 AI 应用中,工作流用于简化数据标注流程,并确保模型在准确、高质量的数据基础上进行训练。


工作流是管理数据标注流程和提高数据质量的强大工具。它可以通过简化流程,提高数据一致性和准确性,增加可扩展性,并增强团队之间的协作。与自动化工具集成,工作流还可以进一步优化并助力加快 AI 模型的开发。

发布于: 刚刚阅读数: 4
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
助力大模型开发,澳鹏MatrixGo平台工作流再次升级_工作流_澳鹏Appen_InfoQ写作社区