写点什么

智源研究院发布中文互联网语料库 CCI3.0 推动数据共建共享

作者:智源研究院
  • 2024-09-25
    北京
  • 本文字数:733 字

    阅读完需:约 2 分钟

近日,在由中央网信办指导,北京市委网信办、北京市经济和信息化局、北京市新闻出版局、北京市版权局承办的 2024 北京文化论坛“新兴业态与技术融合”平行论坛上,智源研究院正式发布中文互联网语料库 CCI 3.0(Chinese Corpora Internet,简称 CCI),包括 1000GB 的数据集以及 498GB 的高质量子集 CCI 3.0-HQ。智源研究院于 2023 年 11 月首次开源 CCI 1.0,并在 2024 年 4 月发布 CCI 2.0。目前,CCI 系列数据集下载量已超过 4 万次,服务 500 多个企事业单位的大模型研发,助力高质量中文语料和训练数据建设,支撑中国人工智能产业生态发展。


CCI 3.0 下载地址:

Flopsera:http://open.flopsera.com/flopsera-open/data-details/BAAI-CCI3

Huggingface:https://huggingface.co/datasets/BAAI/CCI3-Data

Datahub:https://data.baai.ac.cn/details/BAAI-CCI3


  • 规模扩大,来源广泛

CCI 3.0 收录超过 2.68 亿个网页,涵盖新闻、社交媒体、博客等多个领域。CCI 3.0 的数据规模相较于 CCI 2.0 扩大近一倍,数据来源机构扩展至 20 多家,显著提升数据覆盖面和代表性。


  • 精细标注,赋能应用

CCI 3.0 对原始数据进行了覆盖语法、句法、教育程度等 10 多个维度的细粒度分类和详细标记,以筛选高价值数据,为企业定制个性化训练数据提供可能性。此外,CCI 3.0 HQ 是基于 70B 模型自动标注样本,然后训练小尺寸质量模型进行优中选优得到的高质量子集,可更好地满足不同行业和应用场景的需求。


  • 效果显著,更懂中文

同一 500M 模型基于不同的数据集从零开始训练 100B 数据对比实验表明,CCI 3.0 在单独中文语料训练和中英文语料混合训练的效果上优于其他数据集,而 CCI 3.0 HQ 的效果更加突出。


模型训练效果对比


未来,智源研究院将继续携手行业生态推动语料库共建共享,构建大规模高质量高知识密度的中文数据集,为中国人工智能产业发展做出贡献。



用户头像

还未添加个人签名 2024-05-11 加入

北京智源人工智能研究院聚焦人工智能原始创新和核心技术,推动人工智能理论、方法、工具、系统和应用取得变革性、颠覆性突破,支撑北京建设成为全球人工智能学术思想、基础理论、顶尖人才、企业创新和发展政策的源头

评论

发布
暂无评论
智源研究院发布中文互联网语料库CCI3.0 推动数据共建共享_智源研究院_InfoQ写作社区