写点什么

金融行业实时湖仓建设实践与思考

作者:镜舟科技
  • 2024-08-15
    北京
  • 本文字数:2044 字

    阅读完需:约 7 分钟

金融行业实时湖仓建设实践与思考

金融行业数据平台的技术演进是一个复杂且持续发展的过程,主要经历了数据库、数据仓库、数据湖以及湖仓一体四个阶段,并在近年来随着 AI 大模型的兴起而进一步发展。

1. 数仓与数据湖的发展

数据仓库(数仓)是早期的数据管理架构,主要面向结构化数据的存储和分析。由于数据仓库的容量有限,在应用过程中容易产生数据孤岛。对于数据规模较为庞大的企业来说,若完全依赖于数据仓库,通常要面对不小的成本。


数据湖则在数仓的基础上发展而来,专注于非结构化数据的存储和处理,现代化的数据湖具有统一的数据存储,可以大批量地进行导入。但是,数据湖在数据分析性能、数据管理与治理方面也存在不足。


随着技术的不断更迭,数据仓库与数据湖的能力呈现明显的融合趋势,开辟出了一条湖仓一体的发展路线。湖仓一体技术结合了数据湖和数据仓库的优势,形成一种更强大、灵活且易于管理的数据管理架构,逐渐成为当代大数据平台的事实标准。

2. 为什么越来越多的金融企业选择湖仓架构?

回答这个问题,需要回到金融行业数据特点结合着看,这其中不乏外因(技术与政策发展)和内因(业务场景变化)相互作用影响,金融行业数据特点具体如下:

1. 数据种类多样、数据量增长迅速

随着 5G、物联网、云计算、人工智能等新技术的发展,金融机构不再局限于线下的网点或设备服务,而是通过业务流程再造实现更加实时的业务,这一变革伴随而来的就是数据种类的增长。当前,金融机构所涉及数据类型包括:


结构化数据:主要来自银行交易、保险保单;


半结构化数据:主要包括用户行为数据、日志文件数据,通常以 JSON 或 XML 格式存在;


非结构化数据:主要包括文本、图像、音频和视频等;


金融行业每天产生的数据量巨大,并且随着业务的扩展和技术的发展,数据量在迅速增长。以银行业务为例,用户的在线交易、移动支付、财富管理等都产生了大量的数据。

2. 业务场景复杂、数据时效性要求高

上述各个业务发展到一定规模时,业务交互所产生的数据不仅需要被有效存储,还需要快速清洗、处理,从而为前端实时应用提供保障,例如业务的事前预测、事中决策和事后分析等环节。复杂的业务场景,也要求着数据的管理必须适应多变的业务需求。

基于上述的数据特点,要求金融机构具备更强大、灵活的数据管理架构,而湖仓一体作为则为金融行业提供了新的选择。

3. 金融湖仓架构建设的关键技术

金融行业需要引入更先进的技术来获取和处理实时数据,包括引入新的数据库技术栈来实现数据的实时捕获、更新、处理和应用。


1. 数据存储技术:可以使用分布式文件系统如 Hadoop 分布式文件系统(HDFS)来存储大规模数据集,同时,为了解决 Hadoop 在某些方面的局限性,包括 Iceberg、Hudi 和 Paimon 在内的多种数据表格式和数据管理系统也正在被更多企业选择。


2. 数据处理与查询引擎:需要支持从不同业务系统中,提取数据源并加工流转到湖仓。同时,需要高性能的查询引擎如支持 SQL 查询和数据分析,在数据湖上执行分析,提供快速的数据访问和分析效率。

以开源产品 StarRocks 为例,StarRocks 采用了开放的 lakehouse 架构,所有数据统一录入到湖中,再按需供业务端进行数仓的应用建设,湖与仓充分融合并共享一份数据,彼此互联互通,同时,该架构能兼顾成本和性能,同时在资源扩展上也能达到弹性的效果。


另外在湖仓建设过程中,数据的质量和安全是金融机构需要重点关注的。镜舟科技基于 StarRocks 开发的湖仓分析引擎,在数据安全与权限管理上提供企业级支持,包括多种安全认证、数据加密、鉴权与访问控制、审计追踪等安全保障能力,满足金融行业客户对数据安全的需求。

4. 湖仓与大模型

随着 AI 大模型的突飞猛进,金融行业从传统的机器学习数据挖掘转变为 AI 大模型体系,面对着越来越多的非结构化数据挑战。这要求湖仓一体架构能够支持更复杂的 AI 计算需求,如 SQL 查询、机器学习和图分析等。


StarRocks for LLM:助力智能数据处理

• 高效向量搜索:通过支持余弦和欧式距离,实现高性能的向量搜索,帮助企业在大数据中快速找到相关信息。

• 集成 Langchain:与 Langchain 无缝集成,StarRocks 作为高效向量引擎,助力企业快速实现基于检索增强生成(RAG)的应用。

• 先进算法支持:采用 HNSW 和 IVFPQ 算法,支持范围搜索和标量过滤,确保数据检索的准确性和效率。

• 卓越性价比:整体性能提升 10 倍,单机可处理百万数据集,50 个并发请求响应时间保持在 20 毫秒以内。


LLM for StarRocks:降低数据使用门槛

• 智能报表生成:通过自然语言处理(NLP)技术,自动生成 SQL 报表,结合 AI 和 SQL,显著提升开发效率。

• 降低使用门槛:结合大模型,提供类似 ChatBI 的交互式业务探查功能,使业务人员无需专业技术背景即可高效使用数据。

• 广泛兼容性:StarRocks 可以与 Vanna、DBGPT 等框架融合,进一步扩展其应用场景和功能。


StarRocks 结合自动化报表生成和智能业务探查功能,能显著降低企业开发和数据使用的门槛,提升整体运营效率。同时通过高效的数据处理能力和搜索能力,增强业务决策的速度和准确性。StarRocks 与大模型也还在探索更多碰撞和融合,帮助企业在提升性能的同时,带来显著的成本效益降低。

用户头像

镜舟科技

关注

镜舟,连接大数据与价值 2023-01-12 加入

镜舟科技成立于2022年3月,致力于帮助中国企业建立卓越的数据分析系统,形成自己的“数据护城河”。

评论

发布
暂无评论
金融行业实时湖仓建设实践与思考_大数据_镜舟科技_InfoQ写作社区