晴数智慧数据集名列北京市首批“人工智能大模型高质量数据集”,入选产业创新伙伴计划
2023 年 7 月 2 日,“2023 全球数字经济大会人工智能高峰论坛”在中关村国家自主创新示范区会议中心举行。此次论坛以“智能涌现,重塑未来”为主题,聚集了 10 余位人工智能领域顶级专家学者以及企业和机构代表,共同分享了对当前最炙手可热的大模型发展话题的深入洞见和思考。
本次论坛发布了首批“北京市人工智能大模型高质量数据集”,晴数智慧与另外 9 家单位的 18 个高质量训练数据集入选,包括晴数智慧“智能座舱人机交互高质量数据集”与“超大规模中文多领域对话数据集”、人民日报语料数据集、国家法律法规语料数据集、两会参政议政建言数据集、“科情头条”全球科技动态数据集、中国科学引文数据库数据集、科技文献挖掘语义标注数据集等,涵盖经济、政治、文化、社会、生态等不同领域,总规模超过 500T,将为通用大模型和行业大模型训练提供有力保障。
本次论坛上还重磅发布了北京市通用人工智能产业创新伙伴计划第二批成员名单,该伙伴计划由北京市经信局联合市科委中关村管委会、市发改委共同启动,标志着北京成为全国范围内率先对大模型产业落地出台针对性支持政策的地区。“伙伴计划”旨在搭建人工智能大模型的开放合作平台,建立协同合作机制,通过持续优化产业链布局,大幅提升优质算力、高质量数据供给支撑能力,培养一批应用大模型技术实现突破性成长的标杆企业。
据了解,第二批“伙伴计划”征集工作引起产业界的广泛响应和积极参与。截至 6 月 30 日,共有 416 家京内外大模型研发和应用企业申请加入。经学术界、产业界、投资界专家的充分论证以及市场化机制评估,北京晴数科技有限公司与其他 9 家企业作为数据伙伴入选第二批“伙伴计划”,并在此次论坛上进行了公布。
人工智能大模型的突破源于高质量数据的不断发展,提升高质量数据要素供给能力是推动通用人工智能大模型领域创新的关键。目前国内中文语料库数据稀缺、数据处理成本高、数据相关条例尚未完善。
晴数智慧作为一家全球领先高质量数据集解决方案企业,拥有近亿轮次可用于大模型训练的高质量成品对话数据集。晴数智慧在传统采集标注基础上,围绕构建高质量数据,为客户提供 MLOps(机器学习运维闭环)支撑,在数据咨询,生成,清洗,分类,微调,测试等环节,提供专业的 DaaS(Data as a Service) 解决方案。晴数智慧核心团队深耕 AI 数据领域近二十年,参与起草国家标准《人工智能 面向机器学习的数据标注规程》(GB/T 42755-2023)、《信息技术 智能语音交互测试方法 第 1 部分:语音识别》(GB/T 41813.1-2022)、《信息技术 智能语音交互测试方法 第 2 部分:语义理解》(GB/T 41813.2-2022),积累沉淀了丰富的数据治理经验。
加入北京市通用人工智能产业创新伙伴计划,晴数智慧将助力打造用于大模型构建和微调的数据专区与国家级数据训练基地建设、制定数据服务标准,为模型训练提供优质且合规的数据,降低模型训练成本。同时与算力、模型及各应用领域的伙伴共同打造 MLOps,助力大模型产业落地。
评论