写点什么

晴数智慧推出 MagicData-CLAM 高质量 SFT 数据集,助力大模型实现更优效果

作者:Geek_2d6073
  • 2023-08-03
    湖北
  • 本文字数:1176 字

    阅读完需:约 4 分钟

两周前 Meta 发布了开源大模型 LLaMA 2。与上一代 LLaMA 相比,LLaMA 2 有着性能接近 GPT-3.5、允许商用、安全性更强,巨头联合生态开源的特点。LLaMA 2 的开源使得大模型的竞争来到新的起点,市场格局面临重塑。如果开源大模型使得企业不再制肘于自研大模型,那么基于大模型的生成式 AI 决胜关键将只有一个答案:数据。


数据质量是 AI 大模型落地的决胜关键

在模型相对固定的前提下,通过提升数据的质量和数量来提升整个模型的训练效果的模型优化方式被越来越多业内人士所认同。人工智能领域的权威学者吴恩达发起了“以数据为中心的 AI”运动就是主张模型不变,通过改进数据集质量提升模型效果。在当前算力和算法难以拉开巨大差距的情况下,突破数据瓶颈、获取更多高质量的数据成为大模型落地的关键。



来源:Daochen Zha et al. 《Data-centric Artificial Intelligence: A Survey》 2023


晴数智慧推出高质量 MagicData-CLAM 数据集

在中文高质量数据集稀缺的情境下,晴数智慧基于近 20 年在对话数据的专业积累,在国内首次推出了面向大模型 SFT 训练的高质量数据集:MagicData-CLAM 数据集。

该数据集包含一共 5 万条 Prompt 和对应回答,数据的分布由晴数智慧数据专家团队设计完成,覆盖领域多样性、任务多样性,以及表达多样性。数据版权完整清晰。


MagicData-CLAM 帮助实现更优的大模型微调结果

为了更好地评估 MagicData-CLAM 的价值,晴数智慧研发团队进行了一组实验:基于 chinese-llama-2-7b 模型(该模型由开源项目 Linly 发布,是基于 LLaMA2-7b 训练的中文底座模型),团队分别使用约等量的 MagicData-CLAM 数据集和基于斯坦福 Alpaca 数据处理的高质量中文数据集进行微调,得到 Chinese-llama2-CLAM(简称 CLAM)大模型和 Chinese-llama2-alpaca(简称 Alpaca)模型。我们对这两个模型以及基础 chinese-llama-2-7b 模型(基线模型)的输出结果进行评估。结果显示,从大模型的表达自然度上,结果输出结构化上,CLAM 显著更优;在输出知识的正确性上 CLAM 也表现不错。


测评样例如下:



对比模型输出的结果,我们发现:

CLAM 模型相比 Alpaca 模型,对中文的理解更好,结果输出上结构化更清晰。

Alpaca 模型似乎容易先续写几句任务然后才开始进行回答,交互自然度稍有欠缺,而 CLAM 模型几乎未出现这种情况。

Alpaca 模型偶尔出现幻觉,如它的输出结果有如此描述:经典的歌剧作品包括《托斯卡》、《费加罗的婚礼》、《魔笛》等,京剧作品如《茶馆》、《空城计》、《雷雨》等。(《茶馆》与《雷雨》并非京剧作品。)而在相关知识输出中,CLAM 模型较好地理解了歌剧,京剧等的区别,并输出更合理的知识。


此实验结果说明,调优数据集对基线模型的输出结果有明显影响,使用更高质量的数据集,模型能输出更优的结果;Alpaca 数据集是斯坦福大学研究团队发布的高质量数据集代表,而 CLAM 模型的输出结果优于 Alpaca 中文版模型,说明晴数智慧自研的 MagicData-CLAM 数据集是优质的中文高质量数据集。

用户头像

Geek_2d6073

关注

还未添加个人签名 2021-12-22 加入

还未添加个人简介

评论

发布
暂无评论
晴数智慧推出MagicData-CLAM高质量SFT数据集,助力大模型实现更优效果_Geek_2d6073_InfoQ写作社区