写点什么

AI 生命周期 | 聊聊数据准备阶段的偏见问题

作者:澳鹏Appen
  • 2022-11-09
    上海
  • 本文字数:2037 字

    阅读完需:约 7 分钟

AI生命周期 | 聊聊数据准备阶段的偏见问题

AI 生命周期的四大阶段包括:数据获取、数据准备、模型训练和部署、人工模型评估。其中,数据获取、数据准备和模型评估往往充满挑战。这主要是由于,海量的数据需求使得 AI 从业者将 80%以上的时间都花在数据管理上。澳鹏 Appen 专注研究这三个阶段,以最佳的工具和服务提供 AI 生命周期中极其关键的高质量数据方案。



随着 AI 在各行各业得到更广泛的应用,挑战也应势而生。数据处理的偏见问题便是其中一个长期的关键问题。数据偏见是指数据集中某个元素的代表权重过大或不足。如果使用有偏见的数据来训练 AI/ML 模型,就会导致有偏差、不公正、不准确的结果。


澳鹏 Appen 正在深入探索 AI 生命周期各个阶段合乎道德的高质量 AI 数据。今天我们就来展开聊聊 AI 生命周期中数据准备阶段的偏见问题。



Bias in Data Preparation


数据准备阶段的偏见 


在 AI 部署生命周期的数据准备阶段,需要获取一组原始数据,对其进行排序、标注、清理和复核。澳鹏 Appen 通过结合人工标注与 AI 自动标注,以尽可能低的偏见交付高质量的数据。


不同数据类型的标注方式主要有:

· 为图像中的对象标注边界框

· 转录音频文件

· 将书面文本从一种语言翻译成另一种语言

· 标注文本文件或图像文件等


人工标注员完成标注后,数据便进入人机协同的质检阶段。如果数据不适合项目或数据标注错误,则将从数据集中进行删除。


在数据准备阶段的最后,也就是数据进入模型训练阶段之前,必须保证其干净、完整且一致。如果在这一阶段产生偏见,并通过多种方式引入道德问题,这些问题将随后被带入 AI 模型。


 常见的数据偏见类型有哪些?


数据中有缺口

数据缺口和数据代表性不足是 AI 数据集中潜入偏见的最常见情况。如果数据集中缺少某些分组或类型的数据,就会导致在数据和生成的 AI 模型输出中出现偏见。常见的数据缺口包括少数群体代表性不足,某类数据或罕见用例的代表性不足等。


数据标注员没有经过良好的训练

另一种引入偏见的常见情况是使用未经训练的数据标注员。如果数据标注员训练不足,不了解其工作的重要性,则标注过程中更有可能出现标注错误或是偷工减料的情况。为数据标注员提供全面的训练和支持性监督,能够限制数据准备过程中出现的错误数。


标注不一致

如果由多个标注员标注同一个数据集,务必要训练所有标注员在标注每个数据点时保持一致性。当相似类型的数据标注不一致时,就会产生回忆偏见,导致 AI 模型的准确性降低。


个人偏见

每个人对周围的世界都有一套独特的理解。在数据标注过程中,例如,如果标注员标注带有面部情绪的图像,那么来自两个不同国家的标注员可能会提供不同的标注。这类偏见在数据准备中无法避免,但可以通过全面的质检流程加以控制。此外,还可以为数据标注员提供避免无意识偏见的训练,设法减少偏见对数据标注的影响。


只使用人工或机器进行标注

从人工标注到机器标注,围绕两种标注方法的争论从未停止。将人工和机器进行结合,既使用人工标注员标注数据,同时也使用机器学习程序对数据标注进行质量检查,这样做才能构建一流质量的数据集。


数据过多或过少

如果训练数据太少,算法将无法理解数据中的模式。这被称为欠拟合。如果训练数据太多,模型的输出会不准确,因为它不能确定哪些是噪声,哪些是真实数据。这被称为过拟合。为 AI 模型创建大小合适的数据集,将能提高模型输出的质量。


排除“无关紧要”的数据

在数据准备过程中,认真检查数据并从数据集中删除不适用于模型的数据很重要。但需要注意的是,在这个阶段随意删除看似“无关紧要”的数据可能会导致偏见。有时,数据集的某个部分很小或是不常见,并不意味着它不重要。


几种应对偏见的解决方案  


雇佣多元化和有代表性的员工

在数据准备过程中消除偏见的一种重要的方法是,确保决策者和参与者具有广泛的代表性。雇佣多元化的员工对减少 AI 训练数据集中的偏见大有益处。


雇佣多元化的员工是第一步,我们还可以再进一步——为所有员工提供无意识偏见训练。无意识偏见训练能帮助员工更好地识别自己的个人偏见,并有意识地在所标注的数据中避免偏见。


在质检流程中增加偏见检查环节

大多数偏见都是无意的。然而,通过在质检流程中增加偏见检查环节,可以有意识地进行偏见检查。这样有助于提醒员工明确查找数据中的偏见,批判性地思考数据中应该和不应该包含哪些内容。


为标注员提供公平的待遇

工作报酬优厚的员工更有可能关注生产高质量的内容。企业善待员工,员工就更有可能以高质量的工作作为回报。本质而言,合乎道德的 AI 始于那些为训练 AI 模型而标注和清理数据的人。如果这些人的工作待遇不令人满意,偏见扩散的可能性就更大。


若要为 AI 模型建立一个更合乎道德的美好世界,就应该回归起点:从数据开始。在数据准备阶段,至关重要的是要有训练有素、享有公平待遇的员工,他们可以识别无意识的偏见,帮助模型尽可能多地消除偏见。澳鹏 Appen 可以提供多样化、可扩展的数据标注方案,帮助达到 AI 项目部署所需的高质量水平。凭借先进的 AI 辅助数据标注平台 MatrixGo,我们可为您的数据需求提供托管服务。澳鹏 Appen 拥有超过 25 年的专业经验,与您携手减少偏见,最大限度地优化数据质量。

发布于: 刚刚阅读数: 4
用户头像

澳鹏Appen

关注

还未添加个人签名 2021-03-15 加入

高质量的AI训练数据服务商

评论

发布
暂无评论
AI生命周期 | 聊聊数据准备阶段的偏见问题_人工智能_澳鹏Appen_InfoQ写作社区