写点什么

火山引擎 ByteHouse 发布高性能全文检索引擎

  • 2024-07-17
    浙江
  • 本文字数:1112 字

    阅读完需:约 4 分钟

火山引擎ByteHouse发布高性能全文检索引擎

更多技术交流、求职机会,欢迎关注字节跳动数据平台微信公众号回复【1】进入官方交流群。


随着数字时代的发展,数据的来源和生成方式越来越广泛,数据形态也愈加丰富。


以某电商平台的数据情况举例。该电商平台每日产生大量数据,有些为电商平台的订单数据,包括订单号、商品数量、金额、购买时间等,由于这类数据具有明确的格式和固定的字段,并遵循一定的格式,属于结构化数据;有些如客服与客户的聊天记录、客户对具体商品的反馈等,这类数据没有固定格式和明确结构,包括文本、视频、图片、音频等,则属于非机构化数据。


为了能更好支撑该电商平台对数据的使用,底层数据引擎的选型要适应不同数据格式的要求,但采用多套数据引擎也会存在架构复杂、灵活性差、运维压力大等问题。那么,是否能用统一数据架构解决以上问题?


火山引擎 ByteHouse 全文检索引擎为这一问题提出了解决方案。


作为一款定位为 OLAP 的分析型数据库,ByteHouse 在支持结构化数据检索方面具备先天优势,而此次发布的全文检索引擎则补齐了对非结构化、半结构化等数据的快速检索能力,让用户可以构建一体化的数据管理、查询服务,降低运维成本和资源成本。据介绍,ByteHouse 全文检索引擎,能够支持商品搜索、知识库搜索、日志分析等场景下对文本数据进行关键字检索。


不仅仅能帮助用户精简数据架构,ByteHouse 相比于行业常见的非结构化数据处理引擎,如 ElasticSearch 也具备明显优势。


在性能层面,相关测试数据显示,当单服务器日志写入量在 50MB-200MB/s,每秒写入超过 30w 记录数的情况下,ByteHouse 是 ElasticSearch 性能的 5 倍以上。在成本层面,ByteHouse 具备更高数据压缩比、消耗更少的 CPU 资源,在保障高效查询的基础上,还能进一步压缩服务器成本。在稳定性层面,ByteHouse 冷热分离机制、负载均衡策略,让数据稳定性更高。


除此之外,对于研发人员来说,ElasticSearch 上手较难,不支持 SQL,数据管理和维护较为麻烦,而 ByteHouse 采用 SQL 语法,极大降低学习成本。


截至目前,ByteHouse 全文检索能力已经在诸多场景落地。比如,仟传网络之前通过自建 ElasticSearch 来提供舆情相似度检索能力,但从性能、成本角度来看,无法满足需求。从 ElasticSearch 迁移到 ByteHouse 之后,ByteHouse 在几十亿数据下查询和写入都非常稳定,还让总资源成本整体节省了 60%。


ByteHouse 全场景分析引擎


“一元化数据、多元化引擎”是 ByteHouse 的产品理念,旨在通过构建统一的平台为用户提供更丰富的数据分析能力,实现数据效能最大化。除了全文检索引擎,ByteHouse 还推出了 GIS 引擎、Vector 引擎,让用户在享受 OLAP 极致性能的同时,无需引入其他架构,就能使用地理空间分析、向量检索能力,进一步提升使用体验。


点击跳转 火山引擎云原生数据仓库ByteHouse 了解更多

发布于: 15 分钟前阅读数: 7
用户头像

小助手微信号:Bytedance-data 2021-12-29 加入

字节跳动数据平台团队,赋能字节跳动各业务线,对内支持字节绝大多数业务线,对外发布了火山引擎品牌下的数据智能产品,服务行业企业客户。关注微信公众号:字节跳动数据平台(ID:byte-dataplatform)了解更多

评论

发布
暂无评论
火山引擎ByteHouse发布高性能全文检索引擎_数据库_字节跳动数据平台_InfoQ写作社区