大厂严选 | 数据堂 2025 年度版权数据集热销榜单重磅发布!

高质量、多场景、合规可用的数据集已成为大模型与 AI 产品迭代的关键支撑。数据堂深耕 AI 数据服务领域十余年,现推出 2025 年度大厂热销版权数据集,为 AI 技术研发与商业化落地提供坚实底座。数据堂严格遵循数据相关法律法规,确保数据采集、标注、存储和使用的全流程安全合规。
数据堂 2025 年度版权数据集热销榜
大模型热销数据
TOP 1
1,044 万道英文试题文本数据结构化解析处理数据
每道试题包含问题、答案、解析、学科、年级、题型字段,覆盖小初高到大学等各学科,如数学、生物、会计等,解析了学科、问题、解析及答案等,做了公式 latex 转换和表格格式转换,内容也做了清洗,该数据为英美体系下试题文本。
TOP 2
3,200 万道理工科试题文本结构化解析处理数据
包含小学、初中、高中、大学的数学、物理、化学、生物等理工科学科。每道试题包含问题、答案、解析、题型、学科、学段等字段。该数据可用于大模型学科知识增强任务。
TOP 3
202,735 组 PPT 图像描述 &问答数据
每组含 PPT 图像(RGB,内容清晰)、图像描述 &问答标注文档,PPT 图像覆盖架构图、数字图表、流程图和插图共 4 种类型,对 PPT 图像内容进行描述和问答两种形式的标注,主要语言为中文或英文。该数据可用于文档智能等任务。
TOP 4
200,000 组多模态 GUI Agent 数据(连续帧)
包含手机、平板电脑、PC 三种设备的 GUI 交互轨迹数据,涵盖桌面应用操作、网页浏览行为等多种场景,并对用户操作步骤、界面元素状态、任务目标及执行结果进行了精细化标注。该数据集包含完整的操作逻辑链与思维链,可显著提升智能体的界面理解与任务自动化能力。
TOP 5
5 万组图像编辑数据
编辑类型包括人像属性编辑、图像语义编辑、图像结构编辑,编辑目标涵盖人物、动物、商品、植物、风景等场景。在标注方面,根据编辑指令对图像中需要编辑的目标进行编辑。数据可用于图像合成、数据增强、虚拟场景生成等任务。
OCR 热销数据
TOP 1
105,941 张 12 种语言自然场景 OCR 数据
涵盖 12 种语言,包括 6 种亚洲语、6 种欧洲语,采集覆盖多种自然场景、多种拍摄角度。在标注方面,标注行级文本的四边形框,行级文本转写,检测框及文本转写精度均达 98%以上。本套数据可用于多国语言 OCR 任务。
TOP 2
千万级文档 OCR 及结构化解析数据
包含说明书、办公文档、表格等多种文档类型,原始文档文件格式为 pdf,文档图像文件格式为 png,OCR 标注文件格式为 json,结构化解析文件格式为 markdown(表格及公式采用的为 Latex 格式或截图链接),并严格对照文本位置进行转写,个人信息进行脱敏处理,其检测框标注、文本转写精度达 97%以上。
TOP 3
2,504 张中文手写体 OCR 数据
书写环境包括 A4 纸、方格纸、横格纸、白板、彩色便签和答题卡等。书写内容包括诗歌、散文、店铺活动通知、祝福语、摘抄文本等。数据多样性包括多种书写纸张、多种字体、多种书写内容、多种采集角度。采集、标注及文本转写精度均达 98%以上,可用于手写体 OCR 任务。
TOP 4
500,000 张 21 国自然场景 &文档场景 &截屏场景 OCR 标注数据
包含 21 个语种,每个语种数量分布为 20,000-25,000 张。数据类型包括自然场景、文档拍照场景和电子场景。数据多样性包括多种数据类型、多种拍摄角度、多语种。在标注方面,采用行(列)级四边形或多边形标注、行(列)级内容转写。数据可用于多语种 OCR 识别任务。
语音识别热销数据
TOP 1
800 小时上海话自然对话(双语标注)手机采集语音数据
由 1200 名来自上海地区使用江淮官话的县市的录音人录制,男女比例均衡,覆盖多个年龄段,在相对安静的室内进行录制。标注内容包括文本内容、普通话释义、有效句子的起止时间点、说话人标识,字准确率达 98%以上。
TOP 2
799 小时四川方言自然对话手机采集语音数据
由 1,700 余名来自四川地区的川渝方言使用者自由交谈并进行录制,标注了文本内容、句时间戳、说话人身份、性别等多种属性,句准确率达 97%以上,为语音识别相关研究及应用提供了丰富的资源。
TOP 3
3,000 小时全双工普通话自然对话语音数据
约 3600 名录音人,男女比例均衡,覆盖多个年龄段。 无预制文本,录音人围绕话题以自然方式进行对话,同时录制对话的内容。此数据集标注了文本内容、句时间戳、性别等多种属性,准确性高,参与项目的录音人员均已签订数据使用授权协议。
TOP 4
500 小时青岛话自然对话(双语标注)手机采集语音数据
由来自青岛地区的县市母语方言使用者自由交谈并进行录制。此数据集标注了文本内容、普通话释义、句时间戳、说话人身份、性别等多种属性,字准确性达 98%以上。
TOP 5
633 小时日语自然对话手机采集语音数据
基于 30 余个常见主题来模拟录制。此数据集标注了文本内容、句时间戳、说话人身份、性别等多种属性,由 1000 余名来自不同地域和文化背景的日本本土人录制,男女比例均衡,准确性高。
语音合成热销数据
5 小时上海方言女声合成库
由上海本土人参与录制。录音内容包含发音人无文本自由发挥,指定文本的多种话题、语气词、中英混及英文单词。由专业语音学家参与标注,精准匹配语音合成的研发需求。
人脸识别热销数据
88,880 人多人种一人多照数据
一个人至少包含 5 张图片,包含人脸多姿态和多表情,人种分布包括黄种人,黑人,白人和棕色人种,年龄分布从婴幼儿到老人,以中青年为主。采集环境包括室内和室外场景,数据均在境外采集。本数据可用于人脸识别等任务。
数字人热销数据
2.5 万人人物多风格视频数据
包含 2.5 万人在不同场景下的多风格视频,人物肤色覆盖白、黄、棕、黑,年龄覆盖青年、中年、老年,视频分辨率不低于 1920x1080,时长不低于 10 秒。该数据集可用于人物一致性视频生成、数字人生成等任务。
选择更高质量的训练数据,就是选择更高效的 AI 技术进化路径。未来,数据堂将持续深耕优质数据,不断推出更多适配智能化场景的数据产品,与全球伙伴共赴 AI 创新之路。







评论