写点什么

数据集

0 人感兴趣 · 23 次引用

  • 最新
  • 推荐

Maxcompute 数据上云一致性比对

当把数据集成到Maxcompute上后,用户其实最关心的一个技术问题就是集成数据是否与源端一致,本文中介绍的一致性方案比对方案是基于阿里云多个大数据项目实际项目交付实践总结。

https://static001.geekbang.org/infoq/e1/e1c39b6b210898d4e244e486d998403a.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

PyTorch 深度学习实战 | 基于 ResNet 的花卉图片分类

用户头像
TiAmo
03-22

本期将提供一个利用深度学习进行花卉图片分类的案例,并使用迁移学习的方法解决训练数据较少的问题。图片分类是根据图像的语义信息对不同的图片进行区分,是计算机视觉中的基本问题,也是图像检测、图像分割、物体跟踪等高阶视觉任务的基础。在深度学习领域,

https://static001.geekbang.org/infoq/56/56ea9afcd94e559845b5530c60e10645.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

程序员必备的数据库知识:数据存储结构

司马辽太杰是 NineData 工程师,本期介绍了五种常见数据存储结构,另外还有图、表格、链式、R-TREE等数据结构并未涉及,当然本文也只是对数据库存储结构的知识抛砖引玉,有兴趣的同学可以对每一种数据存储结构做更详细和深入的学习。

https://static001.geekbang.org/infoq/37/37ced872bcbac8f877e666875e827b6d.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

YOLOv5 全面解析教程②:如何制作训练效果更好的数据集

用户头像
OneFlow
2022-12-24

本文主要介绍 One-YOLOv5 使用的数据集格式以及如何制作一个可以获得更好训练效果的数据集。本节教程的数据集标准部分翻译了 Ultralytics/YOLOv5 wiki 中对数据集相关的描述(https://github.com/ultralytics/yolov5/wiki/Tips-for-Best-Training-Results) 。

https://static001.geekbang.org/infoq/13/136aa212dcdc19dc68125199213cf53b.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

寻找海量数据集用于大数据开发实战 (维基百科网站统计数据)

用户头像
程序员欣宸
2022-08-18

在学习spark的过程中,除了经典的WrodCount例子(用于统计文本文件中的单词出现次数),我们也在寻找其他海量数据来做更多实战以提高自己,今天介绍的是一个海量数据集的下载方法,以及数据内容的简介

https://static001.geekbang.org/infoq/92/9210c517d52b9325f40a227609c66628.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

十大靠谱“计算机视觉数据集”榜单

用户头像
澳鹏Appen
2022-06-28

小编搜罗了全网各种类型场景的开源/可购买数据集,整理了这份“十大最佳CV数据集榜单”,赶快收藏起来吧!

https://static001.geekbang.org/infoq/1e/1eff51cefdefc10a7bf1114a6201bccf.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

吐血整理!42 个人工智能机器学习数据集推荐!

用户头像
澳鹏Appen
2022-05-18

收集了现有的42个高质量机器学习数据存储库和数据集,并按照项目类型和行业对它们进行了分类,点击相应的文字链接即可一键get!

GAIA 数据集 V1.10 更新

此前,我们提供了 MicroSS 2021 年 7 月的数据。 正如之前所承诺的,我们现在将 GAIA 更新到 V1.10版本

https://static001.geekbang.org/infoq/7e/7edd893793f28309dfccbe44563f9d1a.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

今天聊一聊合成数据 (Synthetic Data)

用户头像
澳鹏Appen
2022-04-14

在无法获取真实数据的情况下,合成数据能够帮助我们生成创新、包容且更能代表终端用户的人工智能解决方案。

基于实例数据详解准确率和召回率

摘要:信息检索、分类、识别、翻译等领域两个最基本指标是准确率(precision rate)和召回率(recall rate),准确率也叫查准率,召回率也叫查全率。

论文解读丨文本行识别模型的再思考

​​摘要:本文研究了两个解码器(CTC[1]和 Transformer[2])和三个编码器模块(双向LSTM[3]、Self-Attention[4]和GRCL[5]),通过大量实验在广泛使用的场景和手写文本公共数据集上比较准确性和性能。

https://static001.geekbang.org/infoq/da/da00e9736545979a56a3cea686640e51.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

GAIA:智能运维领域通用公开数据集

# 技术黑板报 # 第二期为了进一步推动智能运维(AIOps)行业产学研协同发展,通过产业实践反哺学术研究,吸引学者共同探索、挖掘、解决AIOps领域问题,云智慧基于超过十年运维领域实践,推出GAIA(Generic AIOps Atlas)智能运维领域通用公开数据集。

带你读 AI 论文丨用于目标检测的高斯检测框与 ProbIoU

​​​​​​​​​​​​​​​​​​​​​​摘要:本文解读了《Gaussian Bounding Boxes and ProbabilisticIntersection-over-Union for Object Detection》,该论文针对目标检测任务,提出了新的高斯检测框(GBB),及新的计算目标相似性的方法(ProbIoU)。

多方安全计算:隐私保护集合求交技术

​​摘要:PSI全称隐私保护集合交集(Private Set Intersection, PSI),是指持有数据的两方能够计算得到双方数据集合的交集部分,而不暴露交集以外的任何数据集合信息。

带你入门目标检测算法

​​​​​​​​​​摘要:本文就目标检测算法的基础知识进行简要综述,方便大家学习查看。

https://static001.geekbang.org/infoq/35/353aad506f50ecaf0c305570d98acf96.png?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

1 分钟 get 什么是训练数据

用户头像
澳鹏Appen
2021-04-16

算法从数据中学习。算法从得到的训练数据中找到关系,形成理解,做出决策,并评估信心。训练数据越好,模型的表现就越好。

https://static001.geekbang.org/infoq/fa/fa7cd49d78a8aa1d89ecd88fea6d67db.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

企业为何开始选择使用成品训练数据集?

用户头像
澳鹏Appen
2021-04-07

许多企业都在向 AI/ML(人工智能/机器学习)领域投入巨资,但由于缺乏高质量的训练数据,很多项目难以投入生产。有些时候您可能已经有了适当的数据,可以进行标注并用来训练您的机器学习模型,但很多时候你没有这样的数据。

https://static001.geekbang.org/infoq/ec/eca1042b98a69e4b308b7a663db96fba.jpeg?x-oss-process=image%2Fresize%2Cw_416%2Ch_234

星环科技自动特征工程论文被 ICA3PP2020 接收

用户头像
星环科技
2020-12-17

日前,星环科技AI算法团队《可扩展的分布式自动特征工程关系数据集算法》被ICA3PP 2020接收。

实践案例丨 ACL2020 KBQA 基于查询图生成回答多跳复杂问题

摘要:目前复杂问题包括两种:含约束的问题和多跳关系问题。本文对ACL2020 KBQA 基于查询图生成的方法来回答多跳复杂问题这一论文工作进行了解读,并对相关实验进行了复现。

【华为云技术分享】DLI 跨源|当 DLI 遇见 MongoDB

MongoDB作为灵活高效易扩展的no-schema数据库,越来越受到互联网公司、游戏行业等开发者的青睐,但是MongoDB有着独特的语言接口,并不能很好满足数据分析师构建数据治理应用的需求,而数据湖探索DLI恰好解决了这一痛点。搭配华为云上DDS服务提供的MongoDB,D

AI 大有可为:NAIE 平台助力垃圾分类

摘要:生活垃圾的分类和处理是目前整个社会都在关注的热点,如何对生活垃圾进行简洁高效的分类与检测对垃圾的运输处理至关重要。AI技术在垃圾分类中的应用成为了关注焦点。

数据集永久下架,微软不是第一个,MIT 也不是最后一个

用户头像
神经星星
2020-07-03

麻省理工学院在近日发出通知,永久下线著名微小图像数据集  Tiny Images Dataset ,原因是被指出涉嫌种族歧视和女性歧视。

数据集_数据集技术文章_InfoQ写作社区