Elasticsearch 安全又双叒叕出问题? 搜索引擎该怎么选
Elasticsearch 数据泄露事件频发 开源软件和安全工具受国外出口法律限制
Elasticsearch 数据泄露事件频发
近日,开源软件 Elasticsearch 被曝泄露了上亿条数据。而这不是 Elasticsearch 被曝安全问题的个例了,在过去几年内,Elasticsearch 数据泄露事件频发,甚至一个月被曝 6 次数据泄露。
去年,受美国出口管制的巴林,暴露的 Elasticsearch 集群中近 200 万条信息被泄露,包含有关人员的敏感信息。
而作为美国出口管制重点对象的俄罗斯,近几年发生多起 Elasticsearch 数据泄露事件。2019 年,2000 万条个人信息和税务记录在网上曝光,任何拥有网络浏览器的人都可以访问。去年底,Elasticsearch 服务器再次发生数据泄露,超过 8.7 亿条记录或 147GB 个人信息数据在网上曝光。而就在刚刚过去的 6 月份,俄罗斯金融领域也发生了一起骇人的数据泄露事件,130GB 的数据集包含俄罗斯人的付款,发票和其他财务敏感信息,甚至包括政府方面的日志数据。
在国内,今年某漫画阅读平台也遭遇数据泄露,黑客从不安全的 Elasticsearch 数据库中窃取了 2300 万用户帐户敏感信息。
此外,根据 Group-IB 报告显示,2021 年网络上暴露的 Elasticsearch 实例超过 10 万个,约占 2021 年暴露数据库总数的 30%。
Elasticsearch 数据泄露事件频发给国内各行业用户敲响了数据安全的警钟。
安全工具出口和漏洞分享禁令
2021 年美国商务部和安全局发布最新控制措施,禁止美国公司向中国和俄罗斯等“有问题”的国家出口和转售网络安全产品。
而就在近日,美国商务部和安全局又发布了一项针对网络安全领域的出口管制规定,未经审批禁止向中国分享安全漏洞。简单的说,就是美国实体与中国政府相关的组织和个人合作时,如果发现潜在安全漏洞和信息,不能直接公布,要先经过美国商务部审核。这意味着如果继续使用国外软件,那安全问题将掌握在别人手里。
开源软件存在“被制裁”风险
Apache 软件基金会和 GitHub 官网都有公开说明,产品和技术受到美国的出口法律和法规限制,因此使用国外开源软件不能规避“被制裁”风险。
受美国出口管制的俄罗斯在近期俄乌事件中将这方面风险彻底暴露。有外媒消息称,全球第一代代码托管平台 GitHub 正在考虑限制俄罗斯开发人员使用开源软件。尽管此类软件的使用是免费的,但它的许可协议仍然存在诸多限制,包括禁止受制裁的国家使用原本对公众免费开放的代码。
从以上可以看出,开源软件可能存在一定的安全风险,而安全软件、安全漏洞分享策略等又受到国外出口管制法律的限制,且开源软件本身也同样受出口管制法律限制,这些无疑给国内用户带来了巨大的商业和安全风险。
Elasticsearch 安全能力不足 开源协议变更加剧安全风险
数据保护能力不足
Elasticsearch 开源版本是不具备数据保护功能的,看似免费,但不安全。用户必须付费获得 Gold+许可才能获得相关的安全保护功能,且不同的安全功能对应不同的收费标准。
数据有丢失风险
为了满足数据入库性能要求,Elasticsearch 在数据层采用了简单的主从最终一致性模型。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,从副本的数据有可能不是最新的。以此为基础恢复数据,很有可能导致部分数据丢失。
开源协议变更带来商业风险
2021 年初, Elastic 公司决定将这两款开源软件的 Apache License 2.0 变更为双授权许可,即 Server Side Public License (SSPL) 和 Elastic License。其核心条款是“如果将程序的功能或修改后的版本作为服务提供给第三方,那么必须免费公开提供服务源代码”。这意味着不法分子可以获得其源代码并研究其漏洞,给企业用户带来巨大的安全风险。
星环科技自主研发的国产搜索引擎 Transwarp Scope
国产自研搜索引擎,自主可控
Transwarp Scope 是星环科技自主研发的企业级分布式搜索引擎,提供 PB 级海量数据的交互式多维检索分析服务,支持百万级高并发和毫秒级低延时检索业务,覆盖模糊匹配,精确查询,多维检索等各类检索类场景,满足数据检索多样化需求。
内置配套的安全授权、访问控制机制等,不收取额外的安全功能费用,在降低用户总拥有成本的同时,充分保证系统数据安全。
Scope 兼容常用的 Elasticsearch 读写接口,可实现 Elasticsearch 的平滑迁移。并且比 Elasticsearch 具有更强的查询性能、扩展性、数据一致性和可靠性,以及更低的硬件和运维成本等优势。
此外,Scope 已完成与主流信创生态厂商的适配互认工作,支持适配长城飞腾、华为泰山、龙芯等服务器架构,同时满足麒麟,UOS 等操作系统,入选国家软硬件技术图谱,满足信创要求和国产化替换需求。
全方位数据安全保障
Transwarp Scope 内置配套的安全授权、用户权限控制等相关安全功能,可以有效保障系统数据和访问上的安全。
在用户权限认证上,基于 SASL 提供 plain 与 gssapi 两种认证方式,对应传统的用户名密码认证方式和基于 Kerberos 的登录验证方式。其中 kerberos 可依赖于 TDH 平台的安全服务 Guardian,同时提供用户组概念,便于通过平台实现统一管理与操作。
在数据权限上,基于角色的访问控制(RBAC) 机制,使用户能够通过将权限分配给角色并将角色分配给用户或组来授权用户,支持 Index level Security &Database level Security。
在数据加密上,Scope 支持基于 SSL/TLS 两类协议进行数据加密,确保数据传输过程的安全。
ROI、扩展性、稳定性、数据读写/恢复/一致性等全面超越
硬件和运维成本
Elasticsearch 单节点支持的数据量最多到 20TB 左右,在项目实践中客户通常在每台服务器上部署多个 Elasticsearch 实例,而如此多的实例将会带来不稳定问题,触发节点失联,运维成本高。反之,如果每台服务器配置较少容量的磁盘,那么用户将付出非常高的硬件成本。而当节点数超过 100 时,同样会有稳定性问题。
这两类方案,运维成本和硬件成本变成了鱼和熊掌不可兼得,让用户陷入两难的境地。
星环科技 Transwarp Scope 对内存进行创新优化,提高单集群单节点容量上限,单实例可突破至百 TB 的数据存储,是 Elasticsearch 的 5 倍以上,大大降低用户硬件成本。
在提高单实例存储容量,降低集群规模的同时,Scope 通过多进程架构,充分利用集群 cpu/内存资源,读写压力分流,满足更高的并发需求,提高集群稳定性的同时降低运维成本。
集群扩展性
Elasticsearch 在集群扩展上存在瓶颈,其采用的 P2P 架构和排队模型处理一些状态同步和元数据改变等操作时,效率比较低。在项目实践中,当节点(或实例)规模超过 100 个时,会遇到稳定性问题,特别是多种任务并发的情景下,集群压力大,容易触发节点接连失联的问题。
星环科技 Transwarp Scope 采用多进程架构,充分利用集群 cpu/内存资源,读写压力分流,满足更高的并发需求以及提升稳定性,单集群在 200 以上节点规模下稳定运行,同时保障性能无衰减。
数据读写性能
Elasticsearch 在数据读写性能方面存在不足,如压缩率不足,数据膨胀率高,读写策略优化不足等都大大降低了数据读写的效率。数据读写性能受限,直接影响查询操作的并发度和数据入仓的效率。
星环科技 Transwarp Scope 对读写线程资源的管理更严格、更精细,使读写性能更优,数据批量写入速度相对 Elasticsearch 提升 40%,读写分离的特性大幅提升查询的稳定性。
数据恢复性能
Elasticsearch 缺乏“增量数据”的概念,当单点发生故障进行数据恢复时,采用全量数据拷贝方式恢复数据,工作量大,往往需要小时级的时间才能恢复服务,严重影响服务的正常进行。
星环科技 Transwarp Scope 具有很强的容灾和数据恢复能力。Scope 基于 Raft 协议保证数据的一致性,同时提供多副本支持,重启恢复时间在 TB 级数据量下控制在分钟级,不到 Elasticsearch 的 1/10,大幅降低了服务不可用时间。
此外,Scope 支持跨数据中心的多活部署,使得重要业务在多数据中心交互和流转,还支持主备集群的实时数据同步,满足主备集群的 failover 和 switchover。
数据一致性
Elasticsearch 主本和副本之间同步采用 P2P 架构和排队模型实现主从最终一致性。当主副本出现故障时,从副本和主副本不能保证数据的强一致性,很有可能导致部分数据丢失。
Transwarp Scope 基于自主研发的分布式数据库管理系统 TDDMS,采用 shared-nothing 架构,通过多副本机制实现数据服务高可用,使用 raft 协议保证副本之间的数据一致性,保障数据不丢失。此外,TDDMS 支持弹性扩缩容、自动故障恢复、权限控制、多租户与冷热数据分层存储等功能。
售后服务
Elasticsearch 是开源产品,用户需自己探索和解决问题,无法获取有效的服务保障。用户需要购买企业版才能获得相应的服务,且在国内没有原厂技术研发人员,很难保障 SLA。
Transwarp Scope 的产品提供方星环科技是国内厂商,具有非常强大的研发、技术支持与服务能力,提供强大的原厂服务保障能力,保障用户售后无忧。
星环科技 Transwarp Scope 可平滑替代 Elasticsearch
平滑替代 Elasticsearch
Transwarp Scope 兼容常用 Elasticsearch 的接口,可实现 Elasticsearch 业务的平滑迁移。星环科技提供多种数据迁移方案,用户可根据实际情况灵活选择。
经过大量项目的实践和经验,星环科技建立了成熟标准的 Elasticsearch 平滑迁移方法论,通过调研评估、方案测试和上线保障“三步”策略,全程保障数据与业务的平滑迁移。
多生态兼容
除了兼容以上 Elasticsearch 接口,Scope 还兼容 PostgreSQL 协议以及 Spark 等大数据产品的接入。同时,Scope 还提供完备的 SQL 语法支持,满足传统数据库迁移到 Scope 的需求,通过星环科技 SQL 编译器 QUARK 实现大数据基础平台 TDH 内部的完整数据流转方案。
迁移后的效果
性能全面提升
相较于 Elasticsearch,用户迁移到星环科技 Transwarp Scope 之后,可以实现海量存储能力,极大降低用户硬件和运维成本,数据读写性能、日志分析性能和数据检索性能大幅提升,可确保百节点以上规模集群稳定运行,强一致性写入能力确保读写数据不丢。高可用性可以确保故障分钟级重启恢复。而在安全方面,内置的安全授权、访问控制机制充分保证系统数据安全。
自主可控
Transwarp Scope 星环科技自主研发,国产软硬件兼容,充分满足企业用户国产化系统建设需求。
一站式平台建设
基于星环科技大数据基于平台 TDH,通过多模型统一架构支持关系型、文本、时空地理、图数据、文档、时序等在内的 10 种数据模型,为用户提供一站式的大数据平台服务方案。用户也可以根据需要灵活接入其他存储引擎,方便后续业务的灵活扩展。
同时,多模型统一架构提供统一的数据操作/查询语言、统一的分布式计算引擎、统一的分布式数据管理系统和统一的资源管理框架,用户可轻松实现跨模型数据分析。
Transwarp Scope 可满足多种应用场景
海量日志存储与检索
Scope 在数据存储做了多层优化,轻松满足海量检索数据的存储,支持大规模数据的入库,而且架构稳定,数据提供一致性和多副本容灾。此外,底层的搜索模块通过分区,索引排序等各类优化手段,满足大体量数据的快速精确检索,实现毫秒级检索和读写互不影响,非常适合电信、安全、能源等领域的检索需求。
一站式检索平台
Scope 支持结构化/半结构化/非结构化小对象数据的分级存储与毫秒级检索响应,提供完备的分区优化机制和高并发检索能力。一站化服务使得业务无需通过不同数据库产品的组合来实现复杂检索场景,一套产品满足多类需求。高并发非结构化数据灵活检索等业务均可通过 Scope 满足。
星环科技 Transwarp Scope 助力某政府单位平滑替换 Elasticsearch
客户挑战
某政府单位原先使用开源 Elasticsearch,随着内部系统数据量的高速增长,总数据量超几十 PB,单张表达百亿条级别,在不断扩容下节点数达 Elasticsearch 上限,稳定性经常出现问题,同时当集群出现问题时,Elasticsearch 重启需要小时级别,集群恢复速度慢。在性能问题方面,读写资源无法隔离,拖累查询性能,系统设计为读写两套集群。
解决方案
基于星环科技大数据基础平台 TDH 构建大规模数据综合搜索平台,Slipstream 做实时数据引擎,清洗分析并入库到 Hyperbase 与 Scope 的综合搜索库中,提供基于几十 PB 数据量的快速查询和搜索能力,集群规模达 200 个节点。
项目成果
融合人、地、物、事、组织与视频/图片等因素,通过星环 TDH 构建一站式搜索平台,实现了 PB 级数据统一存储、检索满足海量数据毫秒级响应,高并发、快速统计、字段精确与模糊查询等复杂组合场景,指定条件查询 1s 内返回并支持上千并发,并通过单节点存储容量比开源高 5 倍的优势,降低了客户硬件投资成本。
评论