上海 AI 实验室『浦江科学评测共创计划』邀您参与,构建科学智能的“度量衡”

当前,驱动科学研究的人工智能(AI for Science,AI4S)在单点取得了可观的进展,实现了工具层面的革新,然而要成为“革命的工具”,需要采用“通专融合 AGI”方式。大模型的突破性能力逐步改变科学研究的模式,而大模型在科学领域的深度应用亟需科学的评测支撑。
然而当前评测多集中于单一学科领域,缺乏跨学科的统一评价机制与综合性基准,且未覆盖知识推理、实验模拟、假设生成等多维度科学能力,因而难以全面评估大模型的跨学科能力。此外,目前的评测题目多源自公开题库/教辅材料,缺乏对大模型未来能力的评估,无法真实评估迭代迅速的大模型的能力。
为构建 AI4S 领域的基准性评测体系,支撑跨学科协同创新,上海人工智能实验室(上海 AI 实验室)发起“浦江科学评测共创计划”,基于开放评测体系司南,携手各科学研究领域的同行,共同定义涵盖知识推理、实验模拟、假设生成等维度的多层次评测框架,建立首个跨学科可迁移的科学能力评估基准,构建科学智能的“度量衡”。通过创造“人类科学家-AI 系统”协同进化的评估场景,探索从“工具辅助”到“认知共生”的新型科研形态,推动科研范式变革。
为此,“浦江科学评测共创计划”启动会于近期召开,来自北京大学、上海交通大学、复旦大学、华东师范大学、中国科学院理论物理研究所以及上海 AI 实验室等多家研究机构的数十位专家学者围绕项目背景、价值、组织形式等内容展开深入探讨。

现阶段,“浦江科学评测共创计划”面向各学科领域的研究者,进行数学、物理、化学、生命科学、地球科学、材料学、计算机等 7 个学科的评测集征集。评测题目的收录要求:
原创性:当前 AI 系统无法轻易解决,且具有创新意义,未在互联网上出现过或不能通过搜索轻松获取答案;
科学性:各学科中的重要问题,需包含多个知识概念,需要模型进行多步复杂推理才能得出正确答案;
可验证:具有客观、明确、可校验的答案,尽量避免主观性较强的题目。
欢迎愿为 AI for Science 的发展贡献力量的同行加入“浦江科学评测共创计划”,贡献相关领域的题目。题目一经收录,贡献者将获得认可激励。
您可访问上海人工智能实验室官网了解问题提交路径,或联系和鲸获取更多科研灵感与助力。
和鲸科技深耕人工智能与数据科学十年,以推动 AI for Science 科研范式改革为使命,依托旗下数据科学协同平台 ModelWhale,开启了全方位的创新实践。近年来更是联合众多科研组织与机构,全面推进 AI for Science 在垂直领域创新应用,为赋能国家创新体系建设添砖加瓦。
和鲸 ModelWhale 已面向科研机构、高校及专业领域企业及个人打造专属科学智能应用,致力于为人工智能科研团队、学者提供科研支持与助力。欢迎您点击这里(建议您在 PC 端打开)或联系和鲸工作人员免费体验。
和鲸 ModelWhale 大模型应用平台即将正式发布,欢迎您参与AI应用调研,赢取 ModelWhale 大模型应用平台内测资格!
https://heywhale.feishu.cn/share/base/form/shrcneEkjnyB5GEnYzG8Tpf7xNg
评论