吐血整理!42 个人工智能机器学习数据集推荐!
2022 年,人工智能早已成为各行各业科技转型最受关注的“顶流”。然而实际情况是:大多数 AI 项目由于种种因素最终无法实现成功部署。这其中一个重要因素就是数据质量低或数据不足。
解决数据瓶颈问题,购买或使用免费的成品数据集是一个良好的起点。成品数据集的优点主要包括:
合规性
在数据安全要求越来越严格的情况下,能够用于部署机器学习模型的数据也就变得更难获取。
减少偏见
通过成品数据集的数据来源,可以了解到数据在创建时是否已纳入偏见检查。
加快进入市场
收集和准备数据通常非常耗时,在速度至关重要的今天,现成的数据集能够快人一步。
成本效益
许多成品数据集可免费或以较低的价格获得,这在预算有限的情况下不失为一个好的选择。
在本文中,我们收集了现有的 42 个高质量机器学习数据存储库和数据集,并按照项目类型和行业对它们进行了分类。点击相应的文字链接即可一键 get,马上抱走并分享给小伙伴们吧!
01 数据存储库 / Data Repositories
Kaggle 是规模最大的在线数据集存储库之一,涵盖体育、医学和政府等一系列主题。它的平台由社区主导,这意味着用户可以上传自己的数据集。鉴于 Kaggle 的数据来源多种多样,彻底检查您取自其中的数据集的质量非常重要。此外,Kaggle 还提供关于机器学习主题的讨论以及关于关键流程的教程。
Google 提供一个数据集搜索引擎,您可以在其中按名称搜索数据集。该引擎允许您按多种功能对数据集进行排序,例如文件类型、主题、最新更新和相关性。它还可以从互联网上的数千个数据库中获取数据集,因此您可以真正地通过广泛的选项进行搜索。数据集的上传者包括众多国际组织,如哈佛大学和世界卫生组织。
Papers with Code 现有超过四千个数据集(还在不断增加)。这些数据集由社区上传。您可以按模态、任务和语言轻松地筛选这些数据集。数据库中还包含指向其他数据库的链接,后者也提供多种数据集。
DataFlair 链接到 70 多个机器学习数据集,还包括源代码和项目思路等有用信息。例如,在包含手写数字的数据集列表中,DataFlair 建议创建图像分类算法来识别纸张中的手写数字。利用该网站可以启发新思路。
EliteDataScience 包括免费数据集和最热门的聚合器的精选列表。这些数据集按用例组织,其中包括可用于深度学习、自然语言处理、网络抓取等的数据集。
UCI 拥有 500 多个机器学习数据集,可按文件类型、任务、应用领域和主题进行排序。其中许多数据集都包含可用于基准测试的学术论文链接。
Github 提供公共数据集的开源集合。您可以在其中查看目录,选择一个主题,主题涵盖农业、交通等领域。Github 还包括一般机器学习模型的集合。大多数链接的数据集都是免费的。
Microsoft Azure 拥有一个公共数据集数据库,开发人员可将其用于原型设计和测试。数据库类别包括美国政府和机构数据、其他统计和科学数据以及在线服务数据。此外,您还可以在其中阅读有关 SQL 以及如何构建移动和 Web 应用程序的文档。
Snowflake 包括超过 175 家第三方数据提供商和数据服务提供商的 650+个实时和随时可查询的数据集,为数据科学家、商业智能和分析专业人士以及所有希望数据驱动决策的人士提供了便利。
AWS 有一个注册表,其中包含可通过 AWS 资源获得的数据集。用户可以分享自己的数据集或添加如何使用特定数据集的示例。注册表中有超过 280 个可搜索的数据集。
KDNuggets 具有全面的数据存储库列表,其中包括各种各样的数据集。列表中包括超过 75 个数据存储库,其中一些是国际数据存储库。
02 计算机视觉数据集 / Computer Vision Datasets
ImageNet 是根据 WordNet 层次结构组织的一组名词,其中每个节点都有数千个相关联的图像。该存储库中的数据供研究人员免费使用。
MNIST 以手写数字图像为特色。其中包括 60,000 个示例的训练集和 10,000 个示例的测试集。
IMDB-Wiki 数据集提供最大的人脸图像集合,拥有超过 500,000 张图像。许多图像来自名人和维基百科。每张图像都附有性别和年龄标签。
LabelMe Dataset 使用 LabelMe 标注工具构建。该工具使用户能够勾勒出对象的轮廓,并为对象添加标签。这个数据集可用于图像识别项目。
MS COCO 全称为“Microsoft Common Objects in Context Dataset”,即 Microsoft 上下文中的常见对象数据集,为解决“上下文中的常见对象”问题而发布。它包含超过 120,000 张图像,每张图像都有多个与目标检测、分割等图像标注技术相关的标签。数据集中的图像分为 91 个类别。
Chars74K,顾名思义,它包括 74,000 张图像。数据包括自然图像中的字符识别(例如,餐厅标志的图像)。
Kinetics-700 包含一系列主要标注为人类行为的 YouTube 视频链接。其中有超过 65 万个视频片段,涵盖 700 种人类行为。
Places2 Database 是麻省理工学院发布的数据集,包含超过 1,000 万张图像,涵盖 400 多个场景。它对场景分类和场景解析等项目很有帮助。
Open Images 数据集是具有对象位置标注功能的最大数据集之一。它拥有超过 900 万张图像,每张图像都带有对象边界框、分割和其他标注。总共有 1600 万个边界框,涵盖 600 个类别。
MPII 人体姿态数据集包括约 25,000 张涉及 410 个人体姿态的图像。图像中包含大约 40,000 个不同的人,每张图像都标注了人体关节。这些图像收集自 YouTube 视频。
03 自然语言处理数据集 / Natural Language Processing Datasets
Google Blogger Corpus 包括来自 blogger.com 的近 700,000 篇博客文章。每一篇文章至少有 200 个英语单词。总体而言,这些博客文章包含许多常见的英语单词。
Yelp Reviews 数据集涵盖餐厅的排名和评论,包含与此主题相关的丰富信息。该数据集中的评论可用于情感分析项目。
WikiQA 语料库是一个问答数据集,由 Bing 搜索数据编译而成。它包括 3,000 多个问题,提供 29,000 个回答句,其中 1,500 个标注为回答句。
M-AI Labs 语音数据集包括近 1,000 小时的音频与转录。包括使用多种语言的男性和女性语音。
LibriSpeech 包括大约 1000 小时的语音数据,这些数据已经被分段和对齐。这些数据编译自 LibriVox 项目的有声读物。
WordNet 是一个按词义分组的英语单词数据库。共有 117,000 个同义词集(根据同义词配对的单词),然后链接到相关的同义词集。您在下一个文本分类项目就可以使用它。
OpinRank 数据集包含来自 Edmunds 和 TripAdvisor 的 300,000 条评论。它们根据旅游目的地、酒店和其他相关因素分类。
多域情感数据集包括 Amazon.com 四个领域的产品评论:DVD、书籍、厨房和电子产品。每个领域都有几千条评论,附有 1-5 星评级。顾名思义,这个数据集对情感分析项目很有用。
Twitter 情感分析数据集包括超过 150 万条分类推文。数据集的每一行都有一个排名:1 表示正面情绪,0 表示负面情绪。
20 Newsgroups 包含 20,000 个文档,顾名思义,它来自 20 多个不同的新闻组。它包含的主题很多,其中一些主题相对相似。该数据集包括三个版本:一个是初始版本,一个是删除日期的版本,还有一个是删除重复的版本。
04 按行业划分的数据集 / Datasets by Industry
美国政府数据门户包括美国承诺提供的所有政府数据。通过访问门户,您可以搜索超过 300,000 个数据集(例如,学生贷款数据和医疗机构收费数据)。
欧盟开放数据门户提供一种搜索欧盟机构数据的方法,如人口数据、教育数据等。
世界卫生组织提供涵盖世界饥饿、医疗保健和疾病等重要主题的数据。
博德研究所提供许多涉及癌症的数据集,涵盖从排序到分类等相关主题。
Google 金融包括超过 40 年的股票市场数据,并连续实时更新。
Berkeley DeepDrive 由加州大学伯克利分校创建,包括超过 100,000 个不同地理分布、环境和天气情况的视频剪辑。这些剪辑使用边界框进行标注,以检测对象、车道标线和各种形式的分割。该数据集可以用来帮助训练自动驾驶汽车。
Level5 由拼车公司 Lyft 创建。该数据集包括原始传感器摄像头和激光雷达数据,由众多自动驾驶汽车在特定的地理区域捕获。该数据集使用特定目标对象的三维边界框进行标注。
USDA 开放数据目录包括美国农业部捕获的数据。主题涵盖从美国农业的测量生产率到食源性疾病的成本估算等领域。
Fashion-MNIST 包括时装业产品的近 60,000 张图像和 10,000 张测试图像,分为 10 个类别。这些数据对产品分类项目很有用。
电子商务搜索相关性数据集包括各种产品的功能链接、这些产品在页面上的排名,提供结果的搜索查询以及其他相关属性。其中的数据来自 5 大英语电子商务网站。
05 澳鹏 Appen 成品数据集 / Appen off-the-shelf datasets
澳鹏 Appen 提供各种高质量的成品训练数据集。我们的目录包括 80 多种语言的 250+个可授权数据集,涵盖多种方言、机器学习用例及一系列文件类型(文本、图像、视频、语音、音频等)。例如:
▶ 用于广播、呼叫中心、车载和电话应用程序的完全转录语音数据集;
▶ 发音词典,包括通用词汇和特定领域的词汇(例如名称、地点、自然数等);
▶ 带有词性标记的词典和词库;
▶ 带有词法信息和名称实体符号的文本语料库。
当您决定进一步丰富成品数据集时,澳鹏 Appen 数据采集和标注服务及我们的高精度数据标注平台可帮助您获取大规模运行机器学习模型所需的数据。作为该领域的全球领导者,澳鹏 Appen 以超过 25 年的专业经验与您携手最大限度地优化数据效率,部署世界一流的人工智能。联系我们,进一步讨论您的训练数据需求。
澳鹏 APPEN
澳鹏 Appen Limited (ASX:APX) 是全球领先的图像、文本、语音、音频、视频等 AI 训练数据服务提供商,拥有业内最先进的人工智能辅助数据标注平台、一体化的 AI 数据及资源管理平台及全球 100 多万名技能娴熟的众包资源,支持 235+种语言和方言。澳鹏 Appen 的解决方案可为全球科技、汽车、金融服务、零售、制造和政府等行业的领导者提供优质、安全、高效的服务。澳鹏 Appen 成立于 1996 年,客户和办事处遍布全球。
版权声明: 本文为 InfoQ 作者【澳鹏Appen】的原创文章。
原文链接:【http://xie.infoq.cn/article/55d221656ec161cf39959fd4d】。文章转载请联系作者。
评论