写点什么

Databend 11 月月报:多模态查询智能

作者:Databend
  • 2025-12-04
    中国香港
  • 本文字数:4353 字

    阅读完需:约 14 分钟

Databend 11 月月报:多模态查询智能

Hi,Databend 的朋友们!🚀


11 月,我们发布了 17 个 nightly 版本,致力于打造更丰富的数据体验。本月上线了 TimestampTz 支持、HTTP Arrow payloads、支持 RBAC 的脱敏策略,并进行了三轮 Runtime Filter 调优,同时针对多模态负载改进了全文索引和 VECTOR 支持。现在的查询接口支持从 JSON、Arrow IPC 到几何数据等多种输出格式,助力分析团队更高效地构建多样化应用。

月度数据

从 v1.2.834-nightly 到 v1.2.850-nightly,我们累计合并了 27 个新功能28 个 bug 修复18 项重构6 项 CI/构建改进 以及 27 项体验优化

本月亮点

🔥 核心新功能

  • TimestampTz 与 ANSI 日期关键字 — 新增 TimestampTzCURRENT_DATECURRENT_TIMEDATE ± INTERVAL 语义,确保跨区域的时间处理流程具有良好的可移植性。

  • Arrow over HTTP 与几何元数据 — 查询接口支持返回带有时区和几何格式提示的 Arrow IPC 响应,实现低延迟 BI 分析。

  • UDTF Server Runtime — 用户定义的表函数现在作为托管服务运行,具备传输诊断和 Python 导入缓存功能。

  • 支持 Position 的 SQL — 标准 POSITION 列现在可以在 SQL 兼容的流程中查询,简化了从传统引擎的迁移。

  • System Streams 遥测system.streams 暴露 has_data 字段,配合更丰富的验证输出,方便调试数据摄入。

🧠 多模态查询与分析

  • 倒排索引 TOP-N 剪枝与缓存 — 针对 JSON/Variant 文本的 ORDER BY/LIMIT 查询现在会自动跳过无关数据块,并结合了更新后的向量量化评分。

  • Decimal64 与 Arrow 56 升级 — 原生格式表直接反序列化 Decimal64 列,升级后的 Arrow/Parquet 组件支持一致的 Schema 演进。

  • Bitmap 工具集bitmap_to_array 配合新的 Runtime Filter 机制,解锁更快的集合分析和跨模态 Join。

  • 虚拟列全面支持 — 外部表、Selection 查询和 LIMIT 流程现在都支持虚拟列计算。

🛡️ 治理与信任

  • 脱敏策略升级 — 多列 USING 子句、RBAC 强制执行、冲突检测和删除保护,确保隐私规则的一致性。

  • 策略可观测性policy_reference 表函数记录了脱敏/行访问策略的应用位置,便于快速合规审计。

  • 安全默认配置 — 序列查找、JWT 绑定和 MySQL TLS 握手增加了防护措施,防止权限提升或部分会话问题。

⚙️ 性能与运维

  • Runtime Filter 优化(1-3 部分) — 自适应过滤器现在支持可空转换、捕获时序并避免冗余转换,在分布式 Join 中节省数秒时间。

  • 同步背压溢出 — 溢出决策改为同步处理,在有效控制内存使用的同时,避免产生嘈杂的日志。

  • Parquet 字典开关与时区一致性 — Fuse 表新增 enable_parquet_dictionary;查询时区传播已端到端实现(HTTP 头、会话状态、Clamp 辅助函数)。

  • Meta 服务弹性 — 针对聚合溢出、opendal 0.54.1 升级和 fetch-add 路径增加了更广泛的日志记录,减少了繁忙集群中的热点问题。

🐛 稳定性与质量

  • 修复了 CSV 摄入、Pivot 投影和聚合溢出的回退问题;

  • COUNT DISTINCT、ZIP 导入和 Bitmap 数组边界情况现在表现确定;

  • 密码策略描述符、Record-Batch 转换和大型 JWKS/MariaDB 会话不再抛出运行时异常。

核心功能:多模态数据分析 (CityDrive 场景)

现在的 Databend 数据库足以支持所有检索模式——关系型、JSON、向量、Bitmap、地理空间——无需启动单独的服务。这正是 多模态数据分析指南 的核心价值所在,该指南围绕 CityDrive Intelligence 数据集展开。基于同样的 video_id/frame_id 列,你可以同时使用 SQL 过滤、Elasticsearch 风格的 QUERY()、HNSW 向量搜索和 GEOMETRY Join,让你仅需在一个数据仓库中即可完成所有工作。本期焦点将带你回顾这一场景,一步步展示统一检索在实战中的威力。

0. 自动化数据摄入

CityDrive 将每一批次数据导出为 Parquet。 Lakehouse ETL 指南 设置了一个可复用的 Stage 和任务驱动的 COPY 流程,持续导入每种模态的数据:


-- 连接到 CityDrive 的 S3 存储桶CREATE OR REPLACE CONNECTION citydrive_s3    STORAGE_TYPE='s3'    ACCESS_KEY_ID='<AWS_ACCESS_KEY_ID>'    SECRET_ACCESS_KEY='<AWS_SECRET_ACCESS_KEY>';
-- 指向原始多模态导出的共享 StageCREATE OR REPLACE STAGE citydrive_stage URL='s3://citydrive-lakehouse/raw/' CONNECTION=(CONNECTION_NAME='citydrive_s3') FILE_FORMAT=(TYPE='PARQUET');
-- 自动化 ETL:每 10 分钟加载一次视频帧元数据CREATE OR REPLACE TASK task_load_citydrive_videos WAREHOUSE='default' SCHEDULE=10 MINUTEASCOPY INTO citydrive_videos ( video_id, vehicle_id, capture_date, route_name, weather, camera_source, duration_sec) FROM ( SELECT video_id::STRING, vehicle_id::STRING, capture_date::DATE, route_name::STRING, weather::STRING, camera_source::STRING, duration_sec::INT FROM @citydrive_stage/videos/) FILE_FORMAT=(TYPE='PARQUET');
-- 自动化 ETL:同步加载帧数据CREATE OR REPLACE TASK task_load_frame_events WAREHOUSE='default' SCHEDULE=10 MINUTEASCOPY INTO frame_events ( frame_id, video_id, frame_index, collected_at, event_tag, risk_score, speed_kmh) FROM ( SELECT frame_id::STRING, video_id::STRING, frame_index::INT, collected_at::TIMESTAMP, event_tag::STRING, risk_score::DOUBLE, speed_kmh::DOUBLE FROM @citydrive_stage/frame-events/) FILE_FORMAT=(TYPE='PARQUET');
-- 激活任务,数据自动导入ALTER TASK task_load_citydrive_videos RESUME;ALTER TASK task_load_frame_events RESUME;
复制代码

1. 关系型 SQL 分析 (指南: SQL Analytics)

基础表保存了规范的车辆视频帧指标:


CREATE OR REPLACE TABLE citydrive_videos (...);CREATE OR REPLACE TABLE frame_events (...);
WITH recent_videos AS ( SELECT * FROM citydrive_videos WHERE capture_date >= '2025-01-01' AND capture_date < '2025-01-04')SELECT v.video_id, v.route_name, COUNT(f.frame_id) AS flagged_framesFROM recent_videos vLEFT JOIN frame_events f USING(video_id)GROUP BY v.video_id, v.route_nameORDER BY flagged_frames DESC;
复制代码


LATERAL FLATTEN 连接 frame_metadata_catalog 进行嵌套检测,而 ROLLUP/CUBE 按路线和天气汇总风险。本月发布的 Runtime Filter 增强功能确保即使在数据规模扩大的情况下,这些 Join 操作依然响应迅速。

2. JSON 与搜索 (指南: JSON & Search)

倒排索引允许进行 Elasticsearch 风格的过滤,而无需复制数据:


CREATE OR REPLACE TABLE frame_metadata_catalog (    doc_id STRING,    meta_json VARIANT,    captured_at TIMESTAMP,    INVERTED INDEX idx_meta_json(meta_json));
SELECT doc_id, captured_atFROM frame_metadata_catalogWHERE QUERY('meta_json.scene.weather_code:rain AND meta_json.camera.sensor_view:roof')ORDER BY captured_at;
复制代码


policy_reference 函数配合脱敏策略控制,意味着你可以对任何镜像这些 JSON 负载的列应用感知 RBAC 的隐私保护,可选的 Arrow-over-HTTP 响应则将过滤后的负载直接流式传输到 BI 工具中。

3. 向量搜索 (指南: Vector Search)

语义搜索与 SQL 并行运行:


CREATE OR REPLACE TABLE frame_embeddings (    frame_id STRING,    video_id STRING,    sensor_view STRING,    embedding VECTOR(512),    encoder_build STRING,    created_at TIMESTAMP,    VECTOR INDEX idx_frame_embeddings(embedding) DISTANCE='cosine');
WITH query_embedding AS ( SELECT embedding FROM frame_embeddings WHERE frame_id='FRAME-0101')SELECT e.frame_id, e.video_id, COSINE_DISTANCE(e.embedding, q.embedding) AS distanceFROM frame_embeddings eCROSS JOIN query_embedding qORDER BY distanceLIMIT 3;
复制代码

4. 地理空间分析 (指南: Geo Analytics)

Geo 表使用相同的 ID,所以“这发生在哪里?”只是另一个 Join:


CREATE OR REPLACE TABLE frame_geo_points (    video_id STRING,    frame_id STRING,    position_wgs84 GEOMETRY,    solution_grade INT,    source_system STRING,    created_at TIMESTAMP);
SELECT f.frame_id, ST_DISTANCE(g.position_wgs84, s.signal_position) AS meters_to_signalFROM frame_geo_points gJOIN signal_contact_points s USING(frame_id)JOIN frame_events f USING(frame_id)WHERE ST_WITHIN(g.position_wgs84, TO_GEOMETRY('SRID=4326;POLYGON((114.05 22.54, 114.13 22.54, 114.13 22.57, 114.05 22.57, 114.05 22.54))'));
复制代码


最后,用一条 SQL 语句将所有内容串联起来:过滤 JSON 标签、查找向量邻居并检查信号距离:


WITH json_hits AS (    SELECT doc_id    FROM frame_metadata_catalog    WHERE QUERY('meta_json.media_meta.tagging.labels:pedestrian')),vector_hits AS (    SELECT frame_id    FROM frame_embeddings    WHERE COSINE_DISTANCE(          embedding,          (SELECT embedding FROM frame_embeddings WHERE frame_id='FRAME-0102')    ) < 0.3)SELECT f.frame_id, v.route_name, s.distance_mFROM frame_events fJOIN citydrive_videos v USING(video_id)JOIN json_hits j ON j.doc_id = f.frame_idJOIN vector_hits vh ON vh.frame_id = f.frame_idJOIN signal_contact_points s USING(frame_id);
复制代码


这一条查询跨越了结构化事实、JSON 元数据、向量相似度和地理空间距离——全部在 Databend 中执行。这就是统一多模态检索的魅力。


📘 按照顺序(SQL Analytics → JSON & Search → Vector Search → Geo Analytics)跟随指南,在你的集群上重现这个完整的端到端流程。一个数仓,搞定所有分析模式。




Databend 现已演进为一个统一的分析引擎:从经典的 SQL 查询、JSON 检索、向量相似度匹配,到地理空间分析,再到自动化的数据导入与 ETL,所有这些能力都已集成在同一个数据库中。你无需再在各种数据库或服务之间周转,就能直接从类似 CityDrive 的数据集中挖掘出深层价值。

关于 Databend

Databend 是一款 100% Rust 构建、面向对象存储设计的新一代开源云原生数据仓库,统一支持 BI 分析、AI 向量、全文检索及地理空间分析等多模态能力。期待您的关注,一起打造新一代开源 AI + Data Cloud。


👨‍💻‍ Databend Cloud:databend.cn


📖 Databend 文档:docs.databend.cn


💻 Wechat:Databend


✨ GitHub:github.com/databendlab…

发布于: 刚刚阅读数: 5
用户头像

Databend

关注

还未添加个人签名 2022-08-25 加入

还未添加个人简介

评论

发布
暂无评论
Databend 11 月月报:多模态查询智能_Databend_InfoQ写作社区