为 AI 另辟蹊径的“小”数据
在 AI 的世界里,“大数据”是一个炙手可热的流行词。那么你有听说过“小数据”吗?其实,易于访问和操作的小数据在我们的生活中无处不在:线上购物、航空推荐、天气预报等均依托小数据。随着 AI 在各行各业的发展,数据科学家越来越多地关注小数据,因为小数据只需要低水平的计算能力,且易于使用。
大数据 vs 小数据
大数据由大块的结构化和非结构化数据组成,规模庞大,需要高水平的计算机处理能力来解释。而小数据则不需要太多复杂的算法。算法将大数据转换成可操作的小数据块,每个小数据块都是大数据集的组成部分。因此,公司不需要在数据挖掘过程投入太多。
小数据有哪些优势?
管理难度低:大数据分析需要强大的计算机能力。而小数据分析则不需要投入太多的时间和精力。这意味着小数据比大数据更具可操作性。
应用场景广泛: 在许多应用场景中,小数据是一种快速、有效的分析方法,可以帮助我们深入了解各行业的用户。
关注终端用户:小数据可以用来解释终端用户的行为动机。通过小数据,研究人员可以将终端用户的需求放在首位。
机器学习中的小数据处理
传统的监督学习需要大量标注的训练数据来训练模型。而当模型只需要少量数据或模型训练数据不足时,数据科学家就会使用小数据。在这种情况下,数据质量就变得至关重要。此时,数据科学家可以使用以下任何一种机器学习技术:
少样本学习
少样本学习技术常应用于计算机视觉领域。在计算机视觉中,模型可能不需要很多示例来识别某一对象。少样本学习成本低且工作量小。在模型处于完全监督学习状态而训练数据不足时,就非常适合使用少样本学习。
知识图谱
知识图谱属于二级数据集,由一组具有定义含义并描述特定域的数据点或标签组成。知识图谱是一种非常有用的工具,以一种高度可解释和可重复使用的方式组织知识。
迁移学习
迁移学习技术,从本质上讲,是将一个模型的知识迁移到另一个模型。以原始模型为起点,再使用额外数据来进一步训练模型,从而培养模型处理新任务的能力。在自然语言处理和计算机视觉等需要大量计算能力和数据的领域,应用迁移学习技术可以减少任务的工作量和所需时间。
自监督学习
自监督学习的原理是,让模型从现有的数据中收集监督信号,利用现有数据来预测未观测到的或隐藏的数据。例如在自然语言处理中,数据科学家可能会在模型中输入一个缺少单词的句子,并从未隐藏的单词中获得足够的背景线索来识别句中隐藏的单词。
合成数据
当给定数据集存在缺失,而现有数据无法填补时,就可以利用合成数据。例如,在面部识别模型中,数据科学家可以人工创建深色人脸数据,以实现其代表的平等性。但机器学习专家必须在现实世界中更彻底地测试这些模型,并在计算机生成的数据集不足时,添加额外的训练数据。
“小数据的‘小’并不代表数据量小,而是指使用符合需求的数据类型构建模型,从而生成商业洞察和实现自动化决策。在创建“小”数据集时,应确保数据的相关性与多样性,依靠先进的机器学习技术,以数据为中心构建,并与训练数据专家合作”。
——澳鹏 Appen 数据科学总监 Rahul Parundekar
澳鹏 Appen 人工智能数据服务
澳鹏 Appen 提供数据采集和标注服务平台,以提升大规模机器学习质量。作为该领域的全球领导者,我们能够快速地在多种数据类型中提供大量高质量的训练数据,包括图像、视频、语音、音频、文本等,以满足特定的 AI 部署需求。我们拥有超过 25 年的专业经验,与您携手最大限度地优化数据效率。点击此处,与我们的专家联系。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/3d6953c98936cb47c3ff0f3c1】。文章转载请联系作者。
评论