写点什么

致敬图灵!HashData 拥抱数据智能新时代!

作者:HashData
  • 2023-07-29
    北京
  • 本文字数:1845 字

    阅读完需:约 6 分钟

致敬图灵!HashData拥抱数据智能新时代!

图 1:2023ACM 中国图灵大会现场


生于 1912 年的艾伦·图灵被称为“计算机科学之父”、“人工智能之父”。1966 年,国际计算机协会(ACM)为了纪念这位卓越的科学家,设立了以其名字命名的 ACM 图灵奖,以表彰在计算机领域做出重大贡献的科学家。


时至今日,图灵专注创新、持续探索的精神激励着一代又一代的科学家投身计算机科学的研究,由此带动的 IT 技术变革也深刻影响了社会和经济的发展。


今天,新一轮人工智能科技革命和产业变革已然到来。自去年年底以来,国内众多科技企业陆续推出大模型产品,并积极推进大模型的行业落地应用。


在 AI 大模型火热的当下,以“通用智能,人机共生”为主题的 2023ACM 中国图灵大会于 7 月 28 日至 30 日在武汉召开。酷克数据作为国内云原生数据仓库领军企业,受邀参与本次大会。在会上,酷克数据展示了基于 HashData 云数仓自主研发的下一代高级分析和数据科学工具 HashML,助力 AI 模型生产应用和规模化落地。

三层解耦 降低数据分析成本

AI 模型训练需要依托海量的文本、图像和视频数据。如何低成本、高效率地管理与利用数据,是企业在人工智能时代面临的重要挑战。HashData 云数仓通过创新的三层解耦架构设计,在保证了数据的一致性的同时,节省了更低的存储和调用资源。


图 2:HashData 产品架构

HashData 的湖仓一体特性帮助企业一站式管理多模态训练数据。产品架构完美适应混合云,最大限度帮助用户实现公域训练数据和私有训练数据的安全、合规、统一管理和调度。云架构带来的充分弹性和并发性,支持几乎无限的横向扩展,满足用户长时间、高密度的数据提取与计算的峰值需求。此外,HashData 支持亿级向量存储,为大模型训练提供根本的底层支持。


同时,HashData 云数仓能够充分发挥云平台的弹性和扩展能力,并且将数据持久化到底层对象存储,大幅度降低企业进行数据分析的成本。


HashData 数据仓库可无缝对接多种公有云和混合云,以统一的平台提供包括数据仓库、数据湖、数据科学、数据工程和数据共享等能力,可以支持千万级的数据库对象、100+PB 数据量、数千个并发应用。


此外,通过支持对象存储,HashData 能够提供完全兼容多个公有云与混合云的数据管理能力,为企业多云战略的实施提供了灵活易用的解决方案。

两大引擎 高效管理海量数据

在数据智能产业链上,基础设施建设和模型生产应用是 AI 大模型发展的必由之路,而机器学习是 Al 成长的重要“抓手”。


传统 MPP 架构的数据库,在机器学习解决方案存在支持算法种类有限、缺乏数据并行训练、新算法开发难度大等诸多问题,难以满足数据管理和模型开发的需求。


与之相比,HashData 拥有两种计算引擎:针对 SQL 查询分析任务的 MPP 计算引擎,以及针对机器学习和深度学习任务的 ML/DL 计算引擎。


基于存算分离的架构,HashData 不仅能够通过 SQL 计算引擎对传统的数仓业务提供很好的支持,还能够借助 ML/DL 计算引擎实现对机器学习和深度学习的高效支持,其中包括在库内环境对大语言模型进行微调和推理。HashML 就是酷克数据利用 HashData 强大的计算引擎打造的下一代 In-Database 高级分析和数据科学工具。

图 3:基于 HashData 双计算引擎架构构建 HashML

同时,HashData 还实现了对大规模向量数据的高效存储和检索,使得基于知识增强的 LLM 智能应用搭建变得更加简单。


一步到位 助力大模型规模化应用

AI 模型开发完成后需要在实际生产环境中落地部署,才能最终实现价值。


国际调研机构 Gartner 的研究表明,只有 53%的项目能够从 AI 原型转化为生产。AI 生产转化率低的主要原因在于模型全链路生命周期管理存在问题,包括跨团队协作难度大、过程和资产管理欠缺、生产和交付周期长等。


为了解决这些问题,HashML 提供了从数据查询处理、高级分析到 ML/DL 模型的训练、推理和服务部署的全套工具,实现对大语言模型微调和推理的全链路支持。例如,借助 HashML,最少用 3 行代码就可以对 LLaMA2 模型进行参数高效的微调:


图 4:用 HashML 对 LLaMA2 模型进行微调

HashML 与 HashData 云数仓共享统一的存储和计算资源,随数仓的部署提供开箱即用、一站式交付的 AI 能力,大幅降低了系统部署的成本和复杂度,为开发者提供了统一的数据查询、分析、建模环境。

图 5:HashML 主要功能概览

作为一款算法先进、性能卓越的数据科学工具,HashML 能够帮助用户高效、简易地构建、训练和部署模型,极大地降低建模使用门槛,让用户能够在短时间内尝试多种模型架构和参数组合,从而更好地满足多元应用场景的需求。


目前,HashML 各项功能正在紧锣密鼓地完善中,预计将于八月发布第一个正式版本。届时,我们将邀请各方合作伙伴共同参与验证测试,推动产品快速迭代升级,加速 AI 落地,让 AI 惠及各行各业。

发布于: 刚刚阅读数: 4
用户头像

HashData

关注

还未添加个人签名 2021-03-10 加入

云原生企业级数据仓库

评论

发布
暂无评论
致敬图灵!HashData拥抱数据智能新时代!_HashData_InfoQ写作社区