ShannonBase:面向 AI 时代的下一代 HTAP 数据库

随着人工智能(AI)和大数据应用对数据基础设施提出更高要求,传统数据库已难以同时高效支撑低延迟事务(OLTP)与大规模分析(OLAP)以及 ML/AI 工作流。ShannonBase 是一款面向“AI + 大数据”场景设计的 HTAP(Hybrid Transactional/Analytical Processing)数据库——可以被看作“AI 时代的 MySQL”。它在 MySQL 兼容的基础上,原生扩展了向量、机器学习、列存及轻量脚本引擎等能力,目标是实现 Zero Data Movement、Native ML 与 Seamless SQL 集成。
核心设计与架构要点
1. 双引擎 HTAP:InnoDB + Rapid(IMCS 列存)
Rapid(IMCS):内存列式存储引擎(In-Memory Column Store),用于高并发分析和向量检索场景。使 ShannonBase 成为真正的 HTAP 平台。ShannonBase 通过内置的内存列式存储引擎 Rapid(IMCS),实现了事务处理与分析查询的统一支持。其智能优化器能自动将查询路由至 InnoDB 或 Rapid,并通过 Redo 日志实现实时数据同步,确保数据一致性与高性能并发。
智能调度:查询/事务可以由成本模型与 ML 模型共同决定路由到 InnoDB(行存,事务写密集)或 Rapid(列存,分析)执行。
Redo log 同步:InnoDB 的变更通过 Redo 日志被自动、同步地应用到 Rapid,保证列存与行存的一致性(减少 ETL/同步复杂性)。
2. 多模态数据类型(结构化/半结构化/非结构化)
GIS / 空间数据:支持 POINT、ST_* 系列函数,空间查询能力。
JSON:高效的 JSON 存储与查询。
VECTOR(向量):原生向量类型和向量函数(TO_VECTOR、FROM_VECTOR、LENGTH 等),为语义搜索与 RAG(检索增强生成)提供底层支持。支持 AI 场景下的相似性搜索与嵌入计算。
3. 原生机器学习支持
内置 LightGBM(或候选 XGBoost)运行时:用户可以直接在数据库内部训练与推断:
存储过程接口:
sys.ML_TRAIN
,等。
支持常见任务:分类、回归、推荐、异常检测等。
零数据流动:训练与推断在数据原地完成,无需导出/导入模型或数据,降低延迟与运维成本。
4. 向量 + RAG 原生支持
支持把文本/图像等数据嵌入成向量(内置或系统扩展的 embedding 模型接口)。
提供向量表操作与 RAG 流程辅助(RAG stored procedures),便于将向量检索与 LLM 生成结合。
适配 ONNX/ONNXRuntime 以运行可部署的模型(Local LLM 推理能力)
5. 多语言/脚本引擎:JerryScript
内置轻量 JavaScript 引擎(JerryScript),允许使用 SQL + JavaScript 编写存储过程与 UDF,降低扩展逻辑实现门槛,适合实现自定义的预处理、后处理或业务逻辑。
基本操作示例
启用 Rapid 列存引擎:
sql
CREATETABLE test1 (col1 INTPRIMARYKEY, col2 INT) SECONDARY_ENGINE = Rapid; ALTERTABLE test1 SECONDARY_LOAD;
向量数据类型使用:
sql
CREATETABLE embeddings (id INT, embedding VECTOR(10)); INSERTINTO embeddings VALUES(1, TO_VECTOR("[0.12, -0.34, ...]"));
机器学习训练与预测:
sql
CALL sys.ML_TRAIN('census_train','revenue', JSON_OBJECT('task','classification'),@model);CALL sys.ML_MODEL_LOAD(@model,NULL); SELECT sys.ML_PREDICT_ROW(@input,@model,NULL);
GenAI 与 RAG 应用:
sql
SELECT sys.ML_EMBED_ROW("What is AI?", JSON_OBJECT("model_id","all-MiniLM-L12-v2")); CALL sys.ml_rag('Explain AutoML',@output,@options);
JavaScript 存储过程:
sql
CREATEFUNCTION is_even(val INT)RETURNS INT LANGUAGE JAVASCRIPT AS $$ return val %2==0;$$;
优势与适用场景
优势
Zero Data Movement:数据与模型均在数据库内部流转,减少数据导出/导入带来的延迟与安全风险。
统一接口:使用熟悉的 SQL(加上可选的 JS)即可完成数据查询、向量检索、模型训练与推理,简化开发与运维栈。
HTAP 能力:一套数据平台同时承载 OLTP、OLAP 和 ML 推理,降低系统复杂度。
扩展性:可通过 ONNX/外部模型或内置 LightGBM 快速扩展多种 ML/AI 工作负载。
适用场景
企业级知识库与 RAG 系统(向量检索 + LLM)
实时分析与 BI(在列存上运行复杂聚合)
嵌入式/近数据 ML(实时推荐、异常检测)
GIS/位置服务混合查询(空间与属性复合查询)
简化 MLOps 的在线模型推理服务
四、应用场景与优势
AI 数据平台:支持从数据存储、特征提取到模型训练与推理的全流程;
实时分析系统:HTAP 架构适合高并发事务与复杂查询并存场景;
生成式 AI 应用:内置 RAG 能力,适合构建知识库、智能问答等系统;
地理信息系统:原生 GIS 支持适合地图类应用;
多模态数据管理:统一管理结构化与非结构化数据,减少系统复杂度。
评论