写点什么

云栖实录|Hologres 4.0 全新发布:AI 时代的一站式多模态分析平台

  • 2025-10-20
    浙江
  • 本文字数:5642 字

    阅读完需:约 19 分钟

2025 年云栖大会,Hologres 发布全新 4.0 版本升级,以“AI 时代的一站式多模态分析平台”为核心理念,全面展示了 Hologres 在结构化、半结构化与非结构化数据分析能力上的重大突破,特别是在 OLAP 分析、点查、向量检索、全文检索、湖仓协同及 AI Function 集成等方面的领先优势,刷新 ClickBench、JSONBench、VectorDBBench 等多项榜单,登顶第一。


直播回顾:

一、AI 时代的多模态分析从割裂到统一

1.1 AI 的飞速发展带来多模态分析的旺盛需求

随着人工智能技术的深入发展,企业对数据的利用已不再局限于传统的结构化数据分析。越来越多的行业开始依赖多模态数据进行智能决策,涵盖商品推荐、驾驶行为分析、金融风控、教育个性化等多个场景。这些场景普遍具备一个共同特征:数据形态多样、分析需求复杂、检索方式多元


以电商行业为例,用户不仅需要通过关键词搜索商品,还期望实现“以图搜图”或“以文搜图”的智能推荐;在智能驾驶领域,车辆采集的信号数据既包括车速、电池温度等结构化字段,也包含图像描述、轨迹图片等非结构化信息,需支持按 VIN 号点查、多维统计分析、相似图像检索等多种操作;游戏行业则面临直播内容生成、玩家行为反作弊、个性化内容推送等挑战;金融与教育行业同样依赖合同文本合规审查、个性化投资建议、以图搜题等高级功能。


用智能驾驶一个典型的场景举例,可以看到智能驾驶场景中,采集的车机各种信号数据,以大宽表的形式存储在数据库中。这些信号数据通常会包含结构化数据(车辆状态、车机版本等)、半结构化数据(车机信号)、非结构化数据(轨迹照片等)。在业务应用的时候,要进行点查、OLAP 分析、全文检索、向量检索、混合检索等多种场景。


AI 时代的应用需要在一个统一平台上完成 OLAP 分析、点查服务、全文检索、向量搜索以及 AI 推理等多种能力的融合使用。然而,传统架构往往依赖多个独立引擎协同工作,导致系统复杂、成本高昂、数据不一致等问题频发。

1.2 传统多模态分析架构的痛点:N 个引擎带来的高成本与低效率

当前主流的数据分析架构通常采用“数据分层+多引擎”模式。

  • 计算层-数据源经过 Flink、Spark 等实时或离线计算引擎处理后,分别写入不同的专用系统

  • OLAP 分析 - 典型产品包括 ClickHouse、Doris 等

  • 全文检索 - 典型产品包括 开源 Elasticsearch、Solr 等

  • 向量检索 - 典型产品包括 Milvus、Faiss 等

  • KV 点查 - 典型产品包括 Redis、HBase 等

  • 时序 - 典型产品包括 InfluxDB、TSDB 等

  • 宽表 - 典型产品包括 HBase 等


这种架构虽然能在单一能力上达到较高性能,但带来了四大核心问题:

  1. 开发效率低:需为每个引擎适配数据格式,维护 N 条同步链路,管理 N 份元数据,开发周期长且易出错。

  2. 存储与计算成本高:同一份数据被复制到多个引擎中,造成严重的存储冗余;各引擎资源独立,无法共享,资源利用率低下。

  3. 运维管理困难:需同时运维 N 个引擎,故障排查复杂,SLA 保障难度大。

  4. 数据对齐困难:由于各系统写入延迟不同,极易出现“能搜到却查不到”的一致性问题,严重影响业务准确性。


更为关键的是,当涉及跨模态查询(如“查找电池温度高于 40℃且图像中有人行横道的车辆记录”)时,必须在应用层手动拼接多个查询结果,逻辑复杂且性能低下。

1.3 Hologres:替换多种分析引擎,简化技术架构

针对上述痛点,Hologres 4.0 提出全新 HSAP 2.0 分析检索一体化架构(Hybrid Search/Analytics Processing)。基于单一引擎实现多模态数据的统一存储、统一计算与统一查询。该架构摒弃了传统的多引擎拼接模式,将 OLAP 分析、点查服务、全文检索、向量搜索、时序处理、KV 宽表等能力深度集成于 Hologres 内部,形成真正的“六边形战士”。新架构的核心优势体现在几个方面:

  • 简化技术架构:用户只需管理一个引擎,大幅简化系统复杂度。

  • 降低存储冗余:所有数据仅存储一次,避免多份冗余,显著降低存储成本。数据天然对齐,杜绝“搜到但查不到、查不对”的一致性问题。

  • 提高加工效率:通过 Dynamic Table 实现近实时增量加工,支持从 ODS 到 ADS 层的自动分层,无需多写或多链路同步。

  • 统一开发接口:开发者可通过标准 SQL 完成从点查到复杂分析、从文本检索到向量搜索的全场景操作。

  • 成本与管理:Hologres 支持 Serverless 查询模式,按 Query 级别弹性伸缩资源


二、Hologres 4.0 架构:多模融合的一站式 AI 数据分析平台

2.1 Hologres 发展历程:从 HSAP 1.0 到 HSAP 2.0 的演进

Hologres 为高性能分析而生,自 2020 年推出以来,始终走在大数据分析技术前沿。发展脉络清晰地反映了行业分析需求的变迁:

  • Hologres 1.0(HSAP 1.0):首次提出“分析服务一体化”理念,将 OLAP 分析与 KV 点查能力融合,解决传统数仓与在线服务分离的问题,相关架构论文入选 VLDB 2020。

  • Hologres 2.0:面对成本与稳定性难题,强化资源隔离与弹性能力,支持计算组实例化部署,并原生支持 JSONB 列式存储,提升半结构化数据处理效率。

  • Hologres 3.0:迈向实时湖仓一体化,支持 MaxCompute、Paimon、Iceberg 等开放数据湖格式,通过 Dynamic Table 实现湖上增量计算,替代传统 Lambda 架构。

  • Hologres 4.0(HSAP 2.0):Data+AI 一体化架构火热,全面升级为“分析检索一体化”平台,集成向量、全文、混合检索能力,内置 AI Function,支持大模型 SQL 调用,成为 AI 时代的全栈数据分析引擎。


面对 AI 对多模态的旺盛需求,Hologres 正从一个高性能结构化数据分析引擎,逐步成长为支撑 AI 原生应用的多模态一站式数据分析基础设施。

2.2 Hologres 4.0 架构:多模融合的一站式 AI 数据分析平台

Hologres 4.0 的整体架构围绕“多模态分析检索 all-in-one”设计,实现“一份数据、一份计算、多模分析”的一站式目标,一条 SQL 即可完成从数据接入、AI 加工到多模查询的全流程。


数据存储层

支持三类数据源:

  • 内部存储:结构化与半结构化数据(如向量、文本、JSON),支持高效列存与索引。

  • 数据湖:无缝对接 MaxCompute、Paimon、Iceberg 等湖格式,实现湖仓一体。

  • 非结构化数据:通过 Object Table 接入 OSS 中的图片、PDF、PPT、视频等文件,将其映射为可查询的表结构。


数据加工层

依托 Dynamic Table 能力,实现近实时增量计算。用户可声明目标表的新鲜度(如 1 分钟),系统自动根据上游变化增量刷新结果表,支持湖到仓、仓到仓、湖到湖等多种加工模式,显著降低资源消耗。


AI 能力层

集成丰富的 AI Function,基于阿里云 GPU 算力池,内置统一 Qwen 等大模型能力,通过 SQL 即可调用大模型进行推理,支持内容生成与转换(ai_gen、ai_translate)、文本理解与分析(ai_classify、ai_analyze_sentiment)、向量化与切片(ai_embed、ai_chunk)、数据安全(ai_mask)等函数。


数据分析层

提供统一 SQL 接口,支持五种核心查询模式:

  • 点查:主键或非主键毫秒级检索

  • OLAP 分析:复杂聚合、Join、窗口函数

  • 全文检索:基于 Tantivy 引擎实现高性能 BM25 计算,支持召回杭景

  • 向量检索:高召回率下的近似最近邻搜索

  • 混合检索:标量、向量、全文条件联合查询

2.3 OLAP 与点查:刷新 ClickBench/JSONBench 多项性能榜单

OLAP 分析是 Hologres 的强项,在之前的 TPC-H 30000GB 性能测试中排行世界第一。其高性能的优势在于写入即可查,无需等待任何延迟,确保数据实时性。Hologre 4.0 在 OLAP 分析能力上持续刷新各项帮当成绩:

  • ClickBench 内表性能中国第一

  • 湖表(Paimon)性能对比 3.0 提升 100%,证明其在开放湖格式上的强大兼容性

  • JSONBench 在 10 亿行数据集下,性能中国第一

  • 点查场景引入全局二级索引,非主键点查 QPS 相比无索引时提升 65 倍


Hologres 让云上客户跟随版本更新即可实现性能优化,享受云上技术红利

2.4 向量检索:登顶 VectorDBBench 性价比榜单四项第一

向量检索已成为 AI 时代的“水电煤”,是连接大模型与现实世界的关键桥梁。Hologres 4.0 在该领域实现全面突破。


全新自研的内存+磁盘混合索引技术与 RabitQ 量化算法,在同等成本下,性能远超行业主流产品,以 20%的内存成本实现 95%以上的检索性能,单分片可支持 0.5 亿向量,助力企业低成本实现千亿向量数据的毫秒级检索,在 VectorDBBench 基准测试中(已提交社区审核),Hologres 以一年约 1000 美元的成本预算,在 99%高召回率下实现断崖式领先的 QPS,性能约为第二名的 4 倍以上,登顶 VectorDBBench 性价比榜单四项第一,实现高性能向量检索普惠化,**成为全球最快向量数据库!**这一成绩得益于其 Hologres 4.0 多重优化技术:


  • BSA 剪枝框架:第一阶段使用压缩向量和近似距离进行初筛,第二阶段用原始向量精确重排,速度提升 1.4x~2.2x。

  • 精细 IO 优化:异步并行 IO、缓存机制、Pangu 直读直写、预读取等手段显著降低磁盘索引查询延迟。

  • 混合索引架构:内存中存储低精度索引(Rabitq),磁盘存储高精度索引(PAG 图-聚类混合索引),通过 elias-fano 编码压缩邻接表,内存占用减少 80%,性能损失小于 5%。


更重要的是,Hologres 保证一致性事务,确保标量与向量数据始终对齐,彻底解决“搜到却查不到”的行业难题。

2.5 高性能全文检索,标量+全文+向量一站式分析

Hologres 4.0 正式发布原生全文检索能力,基于高性能开源引擎 Tantivy 构建,采用 BM25 算法实现精准召回。

  • 支持多种检索模式:关键词、 (带距离的)短语、自然语言检索

  • 多样的分词器:simple、standard、icu、whitespace、keyword、ik、jieba

  • 支持 BM25 打分(不仅能做检索,还能做召回)

  • 标量 + 全文 + 向量 混合检索


Hologres4.0 通过标量+全文+向量混合检索一站式分析,实现跨模态精准定位。在搜索引擎、企业文档管理系统、日志分析平台等场景,帮助业务在海量信息非结构化文本数据中实现精准定位和知识挖掘

三、构建 AI 时代的一站式多模态分析平台

Hologres 4.0 将 OLAP 分析、点查服务、全文检索、向量搜索、时序处理、KV 宽表集于一体,但是 AI 的发展日新月异,一站式的多模态数据分析平台仍需要多项企业级能力,不断提升企业数据处理与分析的效率。其中包含了 3 项 Hologres 4.0 更新的能力:


  • Object Table-非结构化数据访问

以表的形式直接访问 OSS 中的非结构化文件(如图片、PDF),并自动同步文件元信息。用户无需将数据迁入仓内,即可进行查询与加工。


  • Dynamic Table-自动增量数据加工

增量刷新能力,系统可自动感知湖上数据变化(新增、修改、删除),并触发 AI Function 进行实时处理


  • AI Function

通过 SQL 直接调用大模型进行推理,例如当 OSS 中新增一张图片,Dynamic Table 会自动调用ai_embed生成向量,调用ai_gen生成图文描述,并将结果写入目标表。


  • 一站式多模态数据分析

数据写入 Hologres,进行一站式、高性能、多模态数据分析。整个链路声明式定义,仅需几行 SQL 即可完成,大幅降低开发门槛与运维成本。

3.1 Hologres 4.0-AI Function:SQL 化调用大模型,简化 AI 开发

Hologres 4.0 内置丰富的 AI Function,覆盖内容生成、文本理解、向量化、数据安全四大类:


  • 内容生成与转换ai_gen(智能生成)、ai_translate(多语言翻译)、ai_summarize(文本摘要)

  • 文本理解与分析ai_classify(文本分类)、ai_extract(信息抽取)、ai_analyze_sentiment(情感分析)

  • 向量化与切片ai_embed(Embedding 生成)、ai_chunk(长文本分段)

  • 数据安全ai_mask(敏感信息脱敏)


这些函数可直接在 SQL 中调用,无需编写 UDF 或维护外部服务。例如,ai_embed(file)可将图片或文本转换为向量,ai_gen('请描述图片', file)可生成图文摘要。


所有 AI 计算基于阿里云 GPU 算力池,用户无需预置 GPU 资源,实现“开箱即用”的大模型体验。

3.2 Demo:湖上图片的自动加工与多模检索

以下是一个完整的端到端示例,展示如何利用 Hologres 4.0 实现湖上图片的自动分析与检索。


步骤 1:创建 Object Table

-- object tableCREATE OBJECT TABLE image_object_tableWITH (   path='oss://ai-demo-datasets/unsplash-25k/part1/',   "oss_endpoint" = 'oss-cn-beijing-internal.aliyuncs.com',  "role_arn" = '***');REFRESH OBJECT TABLE image_object_table;
复制代码



步骤 2:定义 Dynamic Table 调用 AI Function 进行增量加工

CREATE DYNAMIC TABLE image_embedding_tableWITH (    auto_refresh_mode='incremental',    freshness='1 minutes',    vectors = '{      "vector": {        "algorithm": "HGraph",        "distance_method": "Cosine",        "builder_params": {        "base_quantization_type": "sq8_uniform",         …}      }}',) AS SELECT object_uri, ai_embed(file) as vector, ai_gen('请用一句话描述图片内容', file) as descFROM image_object_table;CREATE INDEX idx1 ON image_object_table USING FULLTEXT (desc);
复制代码



步骤 3:一站式多模态查询

  • 文搜图(向量):查找与“两只狗在雪中玩耍”最相似的图片

  • 文搜图(全文):在图文描述中搜索“Two dogs play in the snow”

  • 图搜图:上传一张图片,查找相似图像



整个流程无需任何外部调度或 ETL 作业,完全由 Hologres 自动完成,真正实现“一键部署、自动加工、即席分析”。

四、Hologres 4.0:AI 时代的一站式多模态分析平台

Hologres 已广泛应用于电商、游戏、智能驾驶、金融、教育等行业。理想汽车基于 Hologres+Flink 构建了万亿车联网信号毫秒级响应实时分析平台,在成本与原先持平的情况下,写入性能提升 200%,实现万亿数据秒级写入。通过 Hologres 的 JSONB 存储分析能力支持 10000+车机信号动态增减,满意业务灵活性需求。在增量场景使用 Hologres Dynamic Table 增量加工并使用 Serverless 资源按量付费,成本降低 35%,需求交付效率提升 10 倍。Hologres 在高性能实时读写、增量计算、计算组隔离、Serverless,JSONB 智能压缩存储等核心技术上突破,成功支撑理想汽车在智能座舱、智能诊断等核心业务链路迭代,实现万亿级数据洪流下的秒级决策,助力新能源汽车在智驾场景实现多模一站式高性能 AI 数据分析,加速产业智能化进程。


Hologres 4.0 的发布,不仅是版本的迭代,更是理念的革新。它重新定义了 AI 时代的数据分析范式,实现了向量 + 全文 + 标量的一站式多模混合查询,通过结合内置的 AI Function 一键部署大模型,构建面向 AI 时代的一站式、多模态、高性能分析平台。数据分析不应再是割裂的工具组合,而应是一个统一、高效、智能的平台。未来,Hologres 将继续深化 Data+AI 一体化融合,探索更多 AI 原生应用场景,助力企业构建智能化数据驱动体系。


用户头像

还未添加个人签名 2020-10-15 加入

分享阿里云计算平台的大数据和AI方向的技术创新和趋势、实战案例、经验总结。

评论

发布
暂无评论
云栖实录|Hologres 4.0全新发布:AI时代的一站式多模态分析平台_阿里云_阿里云大数据AI技术_InfoQ写作社区