写点什么

针对海量审计日志统计分析的 Amazon OpenSearch Service 应用

作者:Hanson
  • 2023-11-07
    北京
  • 本文字数:880 字

    阅读完需:约 3 分钟

随着大模型的爆火,向量数据库也随之为大家所熟知。由于向量数据库专门针对高维向量数据的优化存储和高效检索,使得其能够有效地处理大规模的向量数据,并支持快速的相似性搜索和匹配操作,基于这些特点,在数据挖掘、深度学习、以及最近爆火的大模型领域广泛应用。

所谓向量数据,即是指以向量形式表示的数据,这些数据通常由多个维度组成,每个维度代表一个特征。像在自然语言处理中,我们可以将文本转换为向量数据,每个单词或词组的权重可以作为一个维度的值;又或者像在此次海量日志中,使用多个角度的信息(比如严重程度、时间、类型、IP 地址、用户等等)作为维度的值。

本次应用针对的场景:前端设备针对特定事件所采集的图像/短视频后,连通发生的事件信息上报到中心服务器,本设备针对这些信息抓取其中关键信息审计存储及统计分析,因此流量巨大,一天至少达到上千万次,传统的 SQL 型数据库根本不可能满足要求,最初采用了云上的 SQL 型数据库做尝试,验证高并发写入时,瞬间就崩了,更不用说针对这些海量日志的统计分析。

因此针对这次业务的数据特点,项目组将视线转移到了向量数据库身上。恰巧上 Amazon 在 2023.8.1 日新更新发布了Amazon OpenSearch Service,部署使用也很简洁方便

1. 创建/登陆 AWS 账户。

2. 选择部署类型,在最新版本中选择 OpenSearch。在部署之前,您需要在亚马逊云科技管理控制台进行相应的设置。

3. 根据用户指南在几分钟内构建和部署 Amazon OpenSearch Service 域。这样就可以顺利完成部署并开始使用 Amazon OpenSearch Service。

由于其兼容支持 19 个版本的 Elasticsearch(1.5 至 7.10 版),以及 OpenSearch 和 Elasticsearch API 大绝大多数 API,因此使用起来也很习惯。前期 Demo 阶段,直接预置了大量数据入库,以及使用了内置的 kibana 进行可视化。

实际进行开发阶段正在使用自研的可视化进行集成,同时在云端数据可以很方便的在客户现场给客户展示效果。官网描述支持多达 1.6 万维的向量匹配,并通过专门实现的 KNN 算法和分布式架构实现大规模向量的快速匹配和检索,集群的查询速率后续会进一步验证。

发布于: 刚刚阅读数: 5
用户头像

Hanson

关注

Hanson 2017-10-29 加入

还未添加个人简介

评论

发布
暂无评论
针对海量审计日志统计分析的Amazon OpenSearch Service应用_Hanson_InfoQ写作社区