和鲸科技出席全球开发者先大会专题论坛语料专场,共探 AI 基础设施重构数据协作新范式
当今时代,DeepSeek 等基座大模型的开源,标志着 AI 技术进入了一个新的平权时代。不同组织都能利用这些大模型,提升自身竞争力。近日,全球开发者先锋大会专题论坛语料专场——“语料标注的标准化之路:挑战与机遇”闭门研讨会在沪召开,旨在探讨语料行业的发展机会、挑战与解决方案。和鲸科技执行总裁兼首席产品官殷自强受邀出席,并基于和鲸深耕数据科学领域的技术积累,发表了《开放生态与普惠实践:AI 基础设施如何重构数据协作范式》主题演讲,系统阐述了在基座大模型开源背景下,组织重构核心竞争力的关键路径与实践经验。
殷自强指出,随着国内外基座大模型的快速发展,特别是 GPT-4 发布后大模型主要往多模态与推理模型方向发展,AI 技术正逐步深入到具体领域的问题解决中。DeepSeek 的 R1 版本在短时间内持平 OpenAI o1,并将推理模型开源,R1 的技术报告展示了通过强化学习获得推理能力的卓越性能优势,以及结合高质量数据合成和精调获得强推理模型的技术路径。这种范式将迅速在各领域推广,嵌入到已有的专项模型中,从而推动 AI 的普惠化。



殷自强进一步提到,不同机构正积极探索如何利用大模型推动效率革命、创新突破,并抢占战略高地,在基座 AI 模型普惠化的浪潮下,机构构建 AI 核心竞争力的关键在于数据和智能体。为了更好地利用大模型,和鲸前期已经做了大量工作,如构建 MaaS 平台、算力管理、模型库服务化等,帮助组织快速接入和使用不同的开源模型。此外,他还强调了算力资源的重要性,并介绍了和鲸在跨云调度能力上的探索,和鲸基于整合实验室服务器、学校资源以及公有云(如腾讯云、阿里云)的算力,打破架构限制,形成统一的算力网络,以支持大模型的推理扩展和相关应用。
在数据层面,当前大模型的核心变革在于对知识和数据利用方式的改变。在此过程中,如何有效构建组织领域内的数据,并将其转化为企业的知识库以供大模型高效检索,成为了和鲸关注的焦点。首先,知识库作为领域知识的重要载体,其整理对象主要是组织中的不同角色。因此,和鲸认为需要考虑如何组织并引导这些角色共同整理和提炼已有的知识;其次,知识库加工的对象涉及多种工具链,如数据标注、数据清洗等,这些工具链对知识库有着特定的要求和标准,和鲸正在探索如何将知识库的加工过程无缝接入到这些工具链中;最后,知识库的应用对象将不再局限于人或系统层面,而是将扩展至整个大模型。因此,在审视知识库时,和鲸特别关注其协作流程,即如何在人、工具、模型三个要素下高效构建和使用知识库,并将其视为重要的基础设施组成部分。
在智能体方面,殷自强分享了和鲸在气象和医疗领域的实践案例。和鲸通过与国家气象局及各省气象局合作,探索了将历史气象数据查询 API 转化为自然语言交互,研发气象数据智能体,实现“要素-时间-地域”多维检索;在医疗场景,通过工具链封装某三甲医院专病数据库,以智能体形态开放临床研究能力,破解医疗数据开放难题。殷自强表示,增加“大模型改变了已有信息系统的交互形式”,组织需要将传统系统接口改造为“大模型友好型”工具调用,通过工作流编排激活存量数据价值。
大模型也正重新改变人才培养方式。传统业务专家的角色定位正在发生深刻变化,他们不仅需要解决单一业务问题,更要成为知识工程师和智能体的产品经理,以适应新时代的需求。和鲸基于拥有近百万名开发者的人工智能实践社区——和鲸社区,通过社区驱动的形式,推动不同组织共同构建智能体,促进知识共享与创新。当基座模型开放化后,知识构建流程也将形成开源形式,为更多企业和个人提供便捷的学习途径。

为了更深入地推进大模型发展对新型人才的培养要求,和鲸还与多所高校合作,共同推进共建 AI 创新虚拟实验室。该计划旨在将企业需求与高校培养模式直接对接,培养适应新时代需求的 AI 人才。以山东大学数字人文实验室为例,该实验室通过引入 AI 和数字人文教育,成功改变了文科人才的培养方式,让学生在学习本专业的同时,也能轻松掌握 AI 和数据分析技能,为未来的职业发展打下坚实基础。同时,通过数据开放和 AI 基础设施的建设,不同组织、高校和学科的人才得以共同探索知识的边界,推动知识的创新与应用。和鲸携手智谱 AI 与山东大学,共同发布了边疆大模型,为文科学生提供了更加丰富的智能体资源,旨在进一步推动垂直学科的人才培养方式变革。
AI 的开放将打通不同领域的壁垒,改变不同组织与不同要素的协作模式,为未来的社会发展注入新的活力。展望未来,和鲸将持续致力于大模型的迭代适配与优化更新,积极探索更多应用场景,推动更多不同数智化组织业务协作与创新,助力更多行业实现 AI 价值闭环。
您可以点击这里,了解更多和鲸基于 DeepSeek 的科研解决方案信息。
评论