写点什么

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

作者:数据堂
  • 2025-09-24
    河北
  • 本文字数:2625 字

    阅读完需:约 9 分钟

版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域

近日,数据堂发布全新数据产品,覆盖多语种大模型预训练、多模态大模型、语音识别及计算机视觉等多个前沿方向。所有数据集经严格标注与质量控制,提供商业级使用授权且已获得科研使用许可,知识产权归属清晰可溯,可为企业及研发团队提供大规模、多样化、合规可靠的数据资源,有效助力大模型与 AI 技术迭代升级,赋能全球应用场景创新。



大模型预训练数据集



  • 319,214 册 K12 课件 PPT 数据

与专业教师合作 PPT 数据,数据包括小初高各年级和不同的学科。PPT 数据格式为 ppt 和 pptx,图像数据格式为 jpg、jpeg 等通用格式。每份 PPT 包括整份 PPT 数据和 PPT 拆解成单张图片数据 2 个部分。本数据可用于 PPT 生成等任务。

☞点击获取数据样例。


  • 10 万条英文大模型指令微调文本数据集

包含多种类型问答对,例如提问、提取、计算、分类、摘要等。专为 AI 模型优化设计的训练数据,可显著提升模型指令理解与执行能力,通过语言学专家和 AI 工程师双重校验,支持主流预训练模型的微调需求

☞点击获取数据样例。


多模态大模型数据集



  • 2.88 亿组 3D 模型和场景数据

包括 2.7 亿组 3D 模型和 1800 万组 3D 场景数据,其中 3D 模型覆盖静态模型、交互模型和物理增强模型等多种类型和室内家居环境的各类物体,3D 场景覆盖家居场景和商业空间场景,支持部件结构信息标注、静态模型新增、交互模型升级、模型位置调整等增值项。可用于 3D 资产生成、仿真训练场构建等任务。

☞点击获取数据样例。


  • 8000 万张矢量图图像数据

均为作者发布的正版图像作品。资源类型丰富多样,涵盖海报、花型、卡通、背景、插画、科技、图标、人物、扁平、办公素材等 50 多种类别。色彩还原度高,细节展现充分,能为计算机视觉领域的研究、图像识别算法的训练、创意设计的素材获取等众多场景提供强大支持,助力相关工作高效开展。

☞点击获取数据样例。


  • 20 万组多国地标建筑图文数据

每组数据包含一张图片及中英文描述文档。国家分布不少于 20 个,包括中、美、英、法、俄、德等国家。每个地标对应 1~10 张图片,包括不同角度、不同距离、不同时间段的地标信息。地标建筑类型多样,包含商业大厦、古老建筑、纪念碑、图书馆、景点等。标注内容包括地标国家、地标城市、地标具体地点、地标分类、地标描述。

☞点击获取数据样例。


多语种 &方言语音数据集



  • 3000 小时全双工普通话自然对话语音数据

约 3600 名录音人,男女比例均衡,覆盖多个年龄段。 无预制文本,录音人围绕话题以自然方式进行对话,同时录制对话的内容。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性,准确性高,为语音识别相关研究及应用提供了丰富的资源。参与项目的录音人员均已签订数据使用授权协议

☞点击获取数据样例。


  • 1300 小时古吉拉特语脚本对话语音数据

16kHz,16bit,未压缩 wav,单声道。部分数据是基于给定的脚本对话,部分数据是双人轮流按单句/多句来朗读文章。标注内容包含文本转写、说话人标识、性别、噪音。文本转写的词错误率(WER)低于 5%。可用于语音识别声学、语言模型训练或算法研究。

☞点击获取数据样例。


  • 10 小时全双工瑞典语自然对话手机采集语音数据

均由本土发音人进行录制。录制于相对安静的室内,无回声。给出话题列表,录音人从中挑选多个自己熟悉的话题以确保对话的流畅自然,围绕每个话题展开一段对话并录制。标注内容包括文本转写、时间戳、说话人 ID、说话人性别。词准确率达 98%。


  • 795 小时墨西哥西语口语化语音数据

16kHz,16 bit, wav,单声道。人工筛选并二次加工的数据。说话语气自然,涵盖多种日常口语化的表述内容,覆盖对话类、自媒体类等通用领域,反映了真实世界的互动情境。此数据集标注了文本内容、说话人身份、性别等多种属性,词错误率(WER)低于 2%,准确性高,易用性强,为语音识别相关研究及应用提供了丰富的资源。

☞点击获取数据样例。


  • 4 人中文高表现力旁白平均音色合成库

专业声优参与录制。给定书籍,发音人以具有高表现力旁白的风格朗读。同一个录音人的数据,录音环境和设备自始至终保持不变。根据发音人实际发音对音频进行文本转写、韵律层级标注、情感标注及副语言标注。字准确率不低于 99.9%

☞点击获取数据样例。


  • 5 小时武汉方言男声合成库

由武汉当地专业男声声优参与录制。录音内容包含发音人自由发挥、指定文本的多种话题、语气词、中英混及英文单词。录音棚符合专业音库录制标准,噪音小于 30db,混响时间小于 0.1s。标注内容包括普通话标注、方言标注、方言拼音标注。专业语音学家参与标注,精准匹配语音合成的研发需求。

☞点击获取数据样例。


  • 5 小时长沙方言女声合成库

长沙本土专业声优在专业录影棚环境下使用专业录音设备及软件进行录制。录音人员使用长沙方言、普通话、中英混和英文进行录制。录音内容包含无文本自由发挥(dialect)、指定文本的多话题(dialect)、语气词(dialect)、中英混及英语单词。文字标注字准确率不低于 99.9%,副语言标注句准确率不低于 98%

☞点击获取数据样例。


计算机视觉训练数据集



  • 500,000 张 21 国自然场景 &文档拍照场景 &电子场景 OCR 标注数据

数据包含德语、法语、葡萄牙语、意大利语、西班牙语、印尼语、俄语、日语、韩语、越南语、波兰语、捷克语、土耳其语、菲律宾语、荷兰语、印地语等 21 个语种每个语种数量 20,000-25,000 张。数据类型包括自然场景、文档拍照场景和电子场景。在标注方面,采用行(列)级四边形或多边形标注、行(列)级内容转写。

☞点击获取数据样例。


  • 30,000 张东南亚小语种自然场景 OCR 数据

包括高棉语(柬埔寨)、老挝语和缅甸语 3 种语言。采集环境涵盖标语、小票、海报、警示语、路标、食品包装、广告牌、站牌和招牌等多种自然场景、仰视、俯视、平视等多种拍摄角度。标注行(列)级四边形标注、行(列)级内容转写、多边形标注、内容转写。检测框精度不低于 95%,文本转写精度不低于 95%

☞点击获取数据样例。


  • 19,634 段表情视频采集数据

数据涵盖男性女性共 1800 余人,每人采集表情视频数量为 1-12 段。年龄分布为少年到老人,以中青年为主。表情种类包括正常、微笑、大笑、露齿笑、伤心、恐惧、兴奋、生气、吐舌头、眨眼、张大嘴和眼珠转动翻白眼。标注采集人的性别和年龄标签,标注视频对应的表情 ID 标签。可用于人脸表情识别等任务。

☞点击获取数据样例。


  • 52 对双胞胎人脸采集数据

采集对象包括双胞胎男性 19 对,双胞胎女性 33 对,一对双胞胎每人分别采集 40 张照片。年龄涵盖 18 岁以下、18 岁至 60 岁以上。数据均采集于室内场景,涵盖抬头、转头、正脸、低头等多种人脸角度、包含眼镜、帽子等多种佩戴物、暗光、正常光等多种光照条件。数据可用于双胞胎人脸识别等任务。

☞点击获取数据样例。

用户头像

数据堂

关注

专业的人工智能数据服务提供商 2023-04-18 加入

还未添加个人简介

评论

发布
暂无评论
版权数据集上新 | 覆盖大模型、多模态大模型、语音识别、语音合成及计算机视觉等多领域_计算机视觉_数据堂_InfoQ写作社区