智源研究院发布开源中文互联网语料库 CCI 4.0 新增高质量英文数据与合成数据
2025 年 5 月 6 日,智源研究院在法国巴黎举行的 GOSIM 全球开源创新论坛上发布大型开源文本数据集 CCI 4.0,为全球的大模型创新发展再次提供重要的开源资源,并积极推动全球开源合作。
CCI 4.0 兼顾多样性与高质量,从单一语言数据集扩展为多语种数据集。本次发布包括了中、英语两种语言,并将在随后的发布中,开源更多语言的版本。此外,CCI 4.0 首次采用 CoT 方法进行推理轨迹数据合成,以提升预训练模型的基础推理能力。CCI 4.0 数据集由智源研究院牵头,联合包括阿里云、上海人工智能实验室、华为、出门问问、金山办公、昆仑万维、面壁智能、奇虎科技、美团、稀宇科技、月之暗面、紫东太初、中科闻歌、科大讯飞等多个机构共同贡献。

智源研究院于 2023 年 11 月首次发布中文互联网语料库 CCI 1.0,并于 2024 年 3 月和 10 月分别完成 CCI2.0 和 CCI3.0 的迭代,系列数据集的下载量已超过 14 万次,支持 500 余个企事业单位的大模型研发。
此次开源的 CCI 4.0-M2-V1 包括 3 个子数据集,即 CCI 4.0-M2-Base V1、CCI 4.0-M2-CoT V1 和 CCI 4.0-M2-Extra V1,数据总量达 35TB。其中,CCI 4.0-M2-Base V1 是中英双语数据集,数据总量达 26000GB,中文数据量为 4300GB,相较于 CCI 3.0 数据规模增加 4 倍;CCI 4.0-M2-CoT V1 是中英双语合成数据集,包含用于提升推理能力的超过 4 亿条逆向合成人类思考轨迹数据,总 token 数量达 425B(4250 亿),比当前全球最大的开源合成数据集 Cosmopedia 规模提升近 20 倍。
Huggingface 地址:
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Base-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-CoT-v1
https://huggingface.co/datasets/BAAI/CCI4.0-M2-Extra-v1
BAAI datahub 地址:
https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-Base-v1
https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-CoT-v1
https://data.baai.ac.cn/datadetail/BAAI-CCI4.0-M2-Extra-v1
魔搭地址:
https://modelscope.cn/datasets/BAAI/CCI4.0-M2-Base-v1
https://modelscope.cn/datasets/BAAI/CCI4.0-M2-CoT-v1
https://modelscope.cn/datasets/BAAI/CCI4.0-M2-Extra-v1
针对不同来源的数据,CCI 4.0 在建设过程中采取了去重、质量分类、QA 合成、loss 过滤的处理原则。针对英文数据,进行领域分类和流畅度过滤等处理;针对中文数据,进行全局及分领域来源字符串去重,常规、安全敏感词、分领域流畅程度过滤,多种质量打分和分档等处理;针对合成数据,进行语义分段及摘要、总结思维链及合成问题等处理。智源研究院就 CCI 4.0 数据集开源进行了严格评审,以确保数据安全合规。
CCI 4.0 数据集中的英文语料、中文语料及合成数据对模型训练效率及性能均有提升。
图 1:CCI 4.0 的数据加工方法在 Nemotron-CC 高质量数据集的使用前后效果对比

如图 1 所示,针对相同的英文网页原始语料(Nemotron-CC-high),CCI 4.0 设计了基于 loss 过滤操作的有效性验证实验,通过使用过滤前与过滤后(Nemotron-CC-high from CCI4.0)的英文语料分别训练模型,再进一步对比模型在下游任务上的平均性能表示。结果显示,在训练过程中基于 loss 过滤的英文语料可在训练过程中提升模型的训练效率。
图 2:CCI4.0-HQ 中文数据集和 CCI3.0-HQ 数据集在训练 500M 模型效果上的对比

如图 2 所示,针对中文语料,设计了中文语料处理有效性的验证实验,以 CCI 3.0 中的中文网页语料数据作为基线方法进行模型训练表现对比,结果显示,相较于 CCI 3.0 的高质量中文数据集, CCI 4.0 中的高质量中文网页数据仍可继续提升模型的训练效率。
图 3:CCI 4.0-M2-CoT 合成数据集效果验证

如图 3 所示,为验证合成数据的作用,设计了合成数据对于模型预训练的性能影响对比实验。分别使用含有合成数据的预训练语料和不含合成数据的预训练语料训练模型,结果显示,含有合成数据的预训练语料可在训练后期增强了模型在下游任务上的表现。
未来,智源研究院将持续开展高质量数据的开源建设工作,不断提升数据集质量,扩展语言和内容覆盖度,增加数据集的领域支持,助力全球大模型的开源创新和人工智能的产业发展。
评论