写点什么

江苏鸿程大数据:基于鲲鹏 DevKit 开发数据报告生成平台,数据库查询效率提升 30%

作者:Geek_2d6073
  • 2023-03-01
    湖北
  • 本文字数:2315 字

    阅读完需:约 8 分钟

政府和企业在撰写数据报告时,常面临报告编写工作量大、撰写耗时长、数据指标计算分析繁杂、易于出错等问题,迫切需要一个能够实现各种复杂报告的一键生成、自动推送的“神器”,让工作人员从冗长复杂的报表填坑工作中解放出来。随着大数据和人工智能技术的逐渐成熟,一键式报告生成平台应运而生,通过对业务数据的自动化分析计算,构建出数据指标与文本生成规则,灵活生成各类数据分析报告,全面提升政府和企业工作效率,实现高效科学决策。

江苏鸿程大数据技术与应用研究院(以下简称:鸿程大数据)成立于 2019 年 1 月,是依托南京大学软件新技术国家重点实验室、国家高新技术企业,致力于大数据及人工智能等领域的科技创新,深耕全链路大数据,人工智能自动化建模等技术,服务于政府、金融、互联网等国计民生行业。

鸿程大数据自主研发的一键式自动化数据报告生成平台,通过大数据分析、智能文本引擎,“一键式”解决数据的“查询—分析—结论”问题,有效提高编写报告的效率和数据分析深度,助力用户快速决策。该平台可提供数据报告自动生成、规则引擎灵活定义、数据多维查询展示、多源整合数据接入、智能归因分析推荐等多种配置,能快速响应业务需求,解决数据量大、来源多、种类复杂、难融合等问题,适用政府企业等多行业场景需求。



如今,各种应用数据呈海量、高速增长的态势,数据类型越发繁多,报告生成平台的部署日益复杂,且考虑到安全风险系数递增等因素,承载一键式自动化数据分析报告生成平台的底层基础设施也面临更多挑战:

1. 高可用:报告的生成需要实时将查询数据提供给分析引擎,平台运转的连续性是其重要保障,因此对性能要求很高;

2. 低时延:高并发访问场景下需要实现对 https 高并发请求实时响应,保障 https 请求在毫秒级完成。

鲲鹏天然的多核多并发、高安全等优势,能够很好的满足一键报告生成平台海量数据处理、低时延、高可靠等要求,并提供完善的鲲鹏 DevKit 开发套件以及专业服务,能够帮助用户快速完成应用的迁移、开发、编译和调优;基于以上考虑,鸿程大数据选择鲲鹏作为一键式自动化数据分析报告生成平台的数字底座,以满足海量数据的融合与计算,为用户提供更加高效便捷的数据采集与管理。



一键式自动化数据报告生成平台账架构图】

基于鲲鹏代码迁移工具 1 人天/应用快速迁移一键式自动化数据分析报告生成平台

项目初期,技术人员需要将一键报告生成平台快速迁移到鲲鹏,该应用涉及代码 10 万+行,且需要依赖大数据底座,涉及底层基础运行时(runtime)、基础开发库数十个,引入开源依赖 Jar 包 20+个,经分析,人工编译这些依赖包并验证依赖包相关联的各组件约需要 10 人/天才能完成,人力投入成本较大。而利用鲲鹏 DevKit 提供的代码迁移工具针对 20+个开源 Jar 包进行依赖扫描,代码修改建议一键替换,平均 1 人天/应用完成原有业务迁移。



【通过鲲鹏 DevKit 代码迁移工具扫描获取迁移报告】

基于鲲鹏开发框架快速开发基于 KAE 加解密引擎的 https 访问功能,页面访问时延减少约 30%

在迁移完成之后,为了进一步防止信息泄露,保障用户数据安全,鸿程大数据选择在鲲鹏平台上开发基于 OpenSSL 加解密的 https 访问功能。由于原有 X86 平台的开发经验和兼容生态并不能直接复制到鲲鹏平台之上,开发人员在应用开发过程中也遇到了多重挑战:

· 不熟悉鲲鹏平台的编译选项和函数,不清楚如何在编程过程中充分发挥架构优势,提高开发效率,增强软件性能;

· 手动查找鲲鹏依赖文件兼容版本效率低,无法快速获取鲲鹏兼容生态

基于上述挑战,鸿程大数据开发人员在新功能的开发过程中,使用了鲲鹏 DevKit 提供的鲲鹏开发框架,在工具的帮助下快速创建应用工程,并一键引入鲲鹏加速库-KAE 加解密模块,使能鲲鹏处理器的加解密加速引擎,系统对外服务的平均页面响应时延由 92 毫秒降低为 69.3 毫秒,系统响应时延性能提升 30%。



【鲲鹏硬件加速工程工程创建】

https 访问功能需要在保障数据安全性的同时,尽可能降低时间上的损耗,以满足应用页面高效响应的需求,因此该功能对性能要求极高。开发人员在新功能的开发过程中,还使用了鲲鹏 DevKit 提供的性能分析工具,对系统占用 CPU、内存、网络、IO 等指标进行分析和调优。技术人员使用系统性能分析功能发现应用系统进行数据分析时,对应进程会在多个 CPU 核上来回切换,导致 CPU 核会跨 NUMA 节点访问内存产生性能损耗。针对此问题,开发人员根据工具的优化建议改进程序,将进程与物理核进行绑定,避免 CPU 核跨 NUMA 节点带来性能损失。优化后 MySQL 数据库的 tpmC 提升 22%,并行任务执行不会产生性能瓶颈。



【使用鲲鹏开发框架及鲲鹏 DevKit 性能分析工具优化前后性能对比图】

经过上述几项性能提升,使得一键式自动化数据分析报告生成平台整体数据处理能力提升约 22%,页面响应时间减少 30%,极大的提高了报告生成效率,提升了用户体验,为用户节省更多时间成本。

江苏鸿程「一键式自动化数据分析报告生成平台」目前已应用于政府、企业、金融等相关领域。该方案也在鲲鹏应用创新大赛 2022 江苏初创赛道获得了一等奖荣誉。这不仅验证了该平台的高性能、高兼容性、完整性和成熟度等技术优势,也标志着江苏鸿程技术与应用研究院有限公司产品在鲲鹏计算应用创新、产业融合、市场应用方面达到领先水平。

作为鲲鹏计算产业生态重要伙伴,江苏鸿程已与江苏鲲鹏·昇腾生态创新中心建立长期合作关系。未来,还将进一步融合相关资源,打造更具竞争力的行业解决方案,促进行业数字化转型。

鲲鹏原生开发是指使用鲲鹏 DevKit 的原生开发能力,如鲲鹏开发框架(含场景化 SDK)、编译调试工具、云测服务、调优 &诊断工具等,在鲲鹏平台上开发新软件/新功能,充分发挥鲲鹏架构优势,从而获得开发效率/运行性能提升。鲲鹏 DevKit 将持续增强开发体验、优化工具能力,提升鲲鹏开发效率,助力千行百业数字化转型。

用户头像

Geek_2d6073

关注

还未添加个人签名 2021-12-22 加入

还未添加个人简介

评论

发布
暂无评论
江苏鸿程大数据:基于鲲鹏DevKit开发数据报告生成平台,数据库查询效率提升30%_Geek_2d6073_InfoQ写作社区