智源研究院举办第二期“数据与行业应用 Workshop”
2024 年 8 月 29 日,智源研究院联合中国互联网协会人工智能工委会、中国 AIIA 联盟数据委员会、SegmentFault 思否、51CTO、CSDN 等合作伙伴开展第二期“数据与模型行业应用系列 Workshop”。来自智源研究院、海天瑞声、百川智能、作业帮、医渡云、Datastrato 的技术和产业专家共同探讨了数据集构建、数据策略与数据目录建设以及大模型在教育、医疗等行业的落地应用。
智源研究院大模型算法专家张博文和李季杰分享了智源千万级指令数据集 InfinityInstruct 在数学领域的拓展和对齐阶段的探索。InfinityInstruct2.0,在 6 月发布的 Infinity Instruct 1.0 基础之上,专门针对数学这一重点瓶颈领域,通过合成可无限扩增的 PoT 数据的方法,大幅提升了 7B 基础语言模型和基础代码模型的 zero-shot 数学能力,并构建了第一版对齐数据集,经验证可大幅提升微调模型的对话性能。
高质量数据集对未来 AI 发展具有关键作用。海天瑞声 CTO 黄宇凯介绍了海天大模型服务平台以及如何应对数据生成与标注中的挑战。
百川智能预训练数据策略研究员张宇鹏以数据质量与数据配比为切入点,讲解通过质量控制实现在更小的模型上训练较少的数据,达到更优的效果。他表示:“数据质量并不是一个很好被定义的术语,不应完全以人类的偏好进行数据筛选,从‘模型自身+人类+自我学习’的视角可以更好地进行数据筛选。数据配比采用小模型拟合 Scaling law 的形式确定,显著减少对大模型实验的依赖。”
Datastrato 副总裁史少锋提出构建多源异构数据的统一数据目录,基于数据发现、集成、血缘、权限管控、敏感信息识别及生命周期管理等功能,支持 AI 大模型训练和应用。
目前,大模型在教育、医疗等行业已有初步的应用落地。作业帮首席科学家宋旸分享了从场景适配到特定知识注入,再到幻觉问题缓解和用户偏好对齐,实现模型在写作领域的应用经验与教训。医渡科技旗下开心健康子公司 CTO Arthur 探讨了大语言模型在医学领域的应用和未来的发展潜力。
智源研究院将持续举办“数据与行业应用 Workshop” 系列活动,诚邀产业伙伴共同探索数据与模型应用的未来之路。欢迎扫描下方二维码,加入智源数据社区!
欢迎获取嘉宾分享资料,仅供学习和科研使用,严禁商用!
1、智源千万级指令数据集 Infinity Instruct 在数学和对齐领域的探索
链接: https://pan.baidu.com/s/1PQUSE2eQaXQK5Y9JUowayQ
提取码: 8nb4
2、海天瑞声在 AI 数据领域的探索
链接: https://pan.baidu.com/s/1Z9cH0bmUNlOPOHxTnO1yXQ
提取码: racg
3、百川预训练数据策略的探索有实践
链接: https://pan.baidu.com/s/1P2sP20rQb1OCOoGXtqKvIA
提取码: 22ty
4、医渡云-LLM 在医疗领域探索
https://pan.baidu.com/s/1J5JfZBIdMjsptjuEtET0yw
提取码: 8bg3
评论