机器学习模型验证:被低估的重要一环
AI Lifecycle
AI 生命周期的四大阶段包括:数据获取、数据准备、模型训练和部署、人工模型评估。其中,数据获取、数据准备和模型评估往往充满挑战。这主要是由于,海量的数据需求使得 AI 从业者将 80%以上的时间都花在数据管理上。澳鹏 Appen 专注研究这三个阶段,以最佳的工具和服务提供 AI 生命周期中极其关键的高质量数据方案。
在构建机器学习模型时,人们往往对测试模型和验证结果缺乏应有的关注。事实上,正确的验证技术有助于预测无偏见的广义模型的性能,并更好地理解模型训练的效果。而经过适当验证的模型才能够更加可靠地适应现实世界中的各种场景。
今天我们就来展开聊聊 AI 生命周期中不可忽视的一大阶段——机器学习模型验证。
模型验证有什么价值?
安全性
模型验证的一个最关键价值就在于寻找安全漏洞。机器学习模型可能会意外泄漏数据,而验证技术需要能够检查出相关漏洞。在将训练数据输入机器学习模型之前,采取严格的安全措施也很重要。例如,可以对数据进行匿名或化名处理。
可靠性
验证可以帮助我们更好地了解模型、了解它的优缺点,有助于解释和查找后期输出中的错误。了解模型的行为还有助于关注到可能发生的任何偏差和偏见。
避免偏见
机器学习技术的好与坏取决于它的创造者。了解如何在机器学习模型中寻找及修正偏见,是模型验证的一个重要价值,这将使机器学习的世界变得更美好、更公平。
预防概念偏差
概念偏差是指允许机器学习模型退化,允许其预测的结果与预期的结果不同的情况。概念偏差会发生,而模型偏差的方式却不可预测。概念偏差会随着时间的推移而发生,而这完全可以通过日常维护和定期测试加以预防。
常见的模型验证技术有哪些?
训练和测试拆分或保留
最基本的验证技术类型是训练和测试拆分。验证技术的重点是查看机器学习模型对以前从未见过的数据的反应。使用这种基本的验证方法,可以将数据分成两组:训练数据和测试数据。需要保留测试数据,在测试模型之前,不要向机器学习模型公开它们。大多数人按三七比例分割数据,70%的数据用于训练模型。
再带入
在再带入验证方法中,所有数据均被用作训练数据。将机器学习模型输出的错误率与训练数据集的实际值进行比较。该方法易于实现,它有助于快速找到数据中的漏洞。
K 折交叉验证
K 折交叉验证与测试拆分验证类似,不同之处在于前者将数据拆分为两个以上的组,“K”表示要拆分成的数据组的数量。例如,将数据分成 10 个组,一组被排除在训练数据之外,用于验证机器学习模型。接着进行交叉验证,作为训练数据使用的 9 个数据组也分别被用于测试机器学习模型。每次测试分数均可提供有关机器学习模型中有效性的新信息。
随机子抽样
随机子抽样的功能与训练和测试验证模型方法相同。关键的区别在于,前者将随机抽取数据的子样本,然后形成测试集。所有其他未在随机子样本中选择的数据均作为训练数据。
自助抽样
自助抽样使用放回抽样方法。这种验证方法对于估计总体数量最为有用。使用自助抽样验证方法时,将从整个数据集中抽取一个小样本。这个小样本中包括平均值或其他有意义的统计数据。需要替换数据,纳入计算的新统计数据,然后再次运行模型。
嵌套交叉验证
验证技术大多是为了评估结果的误差。嵌套交叉验证技术用于评估机器学习模型的超参数。用这种方法测试超参数可以防止过度拟合。要使用这种模型,需要将两个 K 折交叉验证循环相互嵌套。内环用于超参数整定,外环用于误差测试和准确性估计。
完美的机器学习模型并不存在
选择正确的验证模型并不容易。这意味着选择正确的验证技术,测试机器学习模型,知道它是安全、无偏见的,并且能够可靠地提供高质量的输出。
在构建机器学习模型的过程中,至关重要的是,使用正确的训练数据和正确的人员验证和维护模型。如果不验证模型,也不实施持续维护,机器学习模型可能会退化。
没有一种机器学习模型是完美的,它们也不会一直保持完美。虽然机器学习在经过训练后基本上是自主的,但验证和监控却需要人机协同。人工定期维护和检查机器学习模型对于确保模型准确、相关的信息输出至关重要。
在训练数据集上评估模型所产生的分数会有偏见。因此,要在保留的样本上对模型进行评估,以实现模型性能的无偏见估计。偏见会系统地低估或高估模型的性能。我们使用不同的超参数集调整模型,然后选择最优模型。通过验证测试中的测试误差确定最佳模型。
——澳鹏数据科学和机器学习专家 Shambhavi Srivastava
人工智能和机器学习模型正日益强大,它们的验证和监控也随之变得越来越复杂。模型验证对于确保模型的良好性能至关重要。麦肯锡称,约 87%的 AI 概念验证(POC)并未在生产中部署。模型的主动验证可以帮助缩小模型 POC 和产品部署之间的差距。
澳鹏 Appen 可以提供多样化、可扩展的数据标注方案,帮助达到 AI 项目部署所需的高质量水平。凭借先进的 AI 辅助数据标注平台 MatrixGo,我们可为您的数据需求提供托管服务。澳鹏 Appen 拥有超过 25 年的专业经验,与您携手探讨模型验证方案,最大限度地优化数据传输效率。
澳鹏 APPEN
澳鹏 Appen Limited (ASX:APX) 是全球领先的图像、文本、语音、音频、视频等 AI 训练数据服务提供商,拥有业内最先进的人工智能辅助数据标注平台、一体化的 AI 数据及资源管理平台及全球 100 多万名技能娴熟的众包资源,支持 292+种语言和方言。澳鹏 Appen 的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的领导者提供优质、安全、高效的服务。澳鹏 Appen 成立于 1996 年,客户和办事处遍布全球。点此联系我们。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/5de552c158ab6c9e855a061d4】。文章转载请联系作者。
评论