海鑫科金:通过 YMatrix 实现离线在线平台统一,满足公安数据场景的管理分析需求
海鑫科金(股票代码:430021)成立于 1998 年,专注于多生物特征识别、公安信息化综合应用、视频侦查技术和大数据综合应用四大领域,产品在刑侦、安防、司检法、出入境及金融、酒店、社保、教育、交通、大型活动管理、场所监控和互联网应用等社会领域都被广泛应用,是国内外为数不多同时拥有多种生物特征识别、视频图像处理、大数据综合应用等核心技术的企业之一。
随着各种新技术的发展,高技术犯罪呈现日益增长的势头。公安建设依托公安云计算中心、公安应用平台和数据库,结合云计算、物联网等多种先进技术,帮助公安部门在应对各种复杂局面时作出更智慧的决策。
在公安刑侦领域中,数据的采集和使用一直备受重视,数据质量参差不齐、业务场景需求多变是海鑫科金数据管理工作的两个重要特征。
数据质量上,不同的途径汇集了各式各样的数据资源,如业务系统所产生的数据,从其他警种汇聚不同种类的社会资源数据,以及侦查人员通过各种渠道收集的数据。
数据种类繁多,数据质量差,部分数据量较大,数据治理和数据分析的难度非常大,需要对数据进行分级、分类和深度处理,并构建出复杂的数据模型。
业务场景上,我们用户业务的场景多变,底层数据模型需要适应用户需求的变化。同时,用户的需求要对大量的数据进行在线分析,这对模型分析平台的性能有一定的要求。
数据丢失、技术栈复杂对客户服务提出挑战
目前,我们建设有海鑫大数据平台,分为两部分:
第一,离线分析平台,使用 Hadoop 体系,依赖 HDFS、Hive、HBase、Spark 等技术栈,主要针对数据量庞大的数据治理以及复杂的数据分析场景。
第二部分,在线分析业务,主要使用 Greenplum(或 DeepGreen)分布式数据库、ElasticSearch、NebulaGraph 图数据库等技术,用来处理用户实时分析场景。
现存的主要问题有 2 个:
首先,数据需要在多个平台之间来回同步,经常会出现数据丢失的情形。
其次,平台太多,技术栈广,研发和运维成本都很大。公安行业的系统建设模式复杂,许多省、市的硬件资源由科信部门统一进行采购,分配给刑侦的硬件资源越来越少。
随着公安云的建设,各警种的平台建设都逐渐云化,服务器资源越来越少,想要把离线平台和在线平台分开将会越来越困难。因此,需要离线分析与在线分析平台统一。
YMatrix 部署测试结果
由于公安网内部的数据无法连接到互联网,所以本次的测试在公司内网环境中进行。数据为部分模拟数据,根据业务场景来进行测试。
测试地点:北京海鑫科金高科技股份有限公司总部
硬件环境:
测试场景:案、人、物关联检索 数据情况:
测试结果:
初步测试结论:YMatrix 可以在海鑫大数据平台中进行使用,在数据量较小的地市进行试用。
☑️ 实现离线平台和在线平台的统一:
离线、在线两套平台可以统一迁移到 YMatrix Database 数据库上,由于该数据库是基于成熟的 PostgreSQL 和 Greenplum 开发,具有高度兼容性,因此在线分析功能可以直接进行迁移,开发量相对较少。
基于 Hadoop + Spark 的离线分析则需要将部分业务功能进行重构,分析功能需要使用 PL / Python 来进行替代,这部分重构较大,技术可行性还需要进一步验证。
☑️ 减少数据迁移:
离线、在线两套平台统一,减少了数据同步环节;同时 MatrixGate 组件提供了强大的数据同步能力和监控能力,让数据同步更加简单。
☑️ 数据仓库及数据模型更简单化:
数据仓库主要使用 Hive,存在的最大问题是数据不能进行 update,目前采用分层和 HBase 的 upsert 功能进行实现。但是,由于公安业务的复杂性,分层会非常多,使用 HBase 的 upsert 功能又会造成 HBase 表与 Hive 表同时使用,导致跨库使用不方便。使用 YMatrix 的 upsert 功能后,让数据仓库内的数据模型变得更加简单。
☑️ 在线分析性能提升:
目前看来,YMatrix 比较适合做数仓使用,在性能上比 Greenplum 强约 4 倍,在线分析功能速度更快,带来更好的用户体验。
☑️ 当前可能存在的问题:
YMatrix 可以替代公安领域的大部分场景,但依然存在着 1 个不足之处:YMatrix 不是公有云通用组件,需要单独部署。我们也期待未来 YMatrix 能提供跨云 DPaaS 服务。
本文为 YMatrix 原创内容,未经允许不得转载。
欲了解更多超融合时序数据库相关信息,请访问 “YMatrix 超融合数据库” 官方网站
版权声明: 本文为 InfoQ 作者【yMatrix】的原创文章。
原文链接:【http://xie.infoq.cn/article/78edeb65cdf6c24c1a2f16c41】。文章转载请联系作者。
评论