StartDT Hackathon | 泛元数据:让数据成为资产
假期到来前,2021 第三季 StartDT Hackathon(奇点云黑客马拉松)正式收官。
本季黑客马拉松以「泛元数据」为主题,为期 3 天,吸引到了来自不同部门的 60+位同学参与。
#0 从「描述数据的数据」开始
元数据(Metadata)是什么?
Gartner 这样定义「元数据」:元数据是描述数据资产各方面的信息,以在其(数据资产)生命周期中提高可用性。(Metadata is information that describes various facets of an information asset to improve its usability throughout its life cycle. )
简而言之,元数据就是「描述数据的数据」。
元数据通常包括技术元数据、业务元数据、操作元数据,分别从技术、业务和操作的角度描述数据,向用户提供关于数据的血缘、安全、属性及生产数据情况等信息。
举个例子,这份数据从哪里来,自采集以来发生过哪些变化,谁有权使用它…关于数据的结构、行为、变化、关联等等,都属于元数据的范畴。
这就是本季黑客马拉松的主题——(泛)元数据,作为云原生数据中台 DataSimba 的关键模块之一,如何让其采集存储更强大、资产管理更全面、指标分析更易用、安全管控更严格?
从客户真实需求和应用场景出发,围绕元数据的采集、存储、调用,到使用元数据搭建产品应用等各个环节,奇点技术人们脑洞大开,提出 4 个方向、12 个选题(其中 5 个扑街,7 个幸存),于 3 天内完成提测:
· 元数据采集存储服务
全链血缘分析优化 - 「系统随机生成组」
DAG 血缘性能压测强化 - 「你过来压测呀!组」
· 数据资产管理
标签元数据管理 - 「吃里扒外组」
· 元数据相关主题、指标梳理及数据分析
数仓建设质量评估 - 「按图索指组」
元数仓运维指标数据引入 - 「巡检指标小分队」
任务指标运维大屏 - 「葫芦娃七兄弟组」
· 数据安全
数据脱敏与加密算法应用升级 - 「黑猫组」
黑客马拉松分组干活现场直击
#1 元数据采集存储服务
1.1
全链血缘分析优化
围绕 DataSimba 的全链路血缘分析模块,「系统随机生成组」进行了升级迭代:针对全链路数据中的 DataX 和 API,优化数据埋点、解析和可视化展示。
全链路血缘可视化 demo
此次升级,用户能通过可视化界面完成全链路分析,拖动节点牵引就能查看关联度与影响力,实现数据观察、影响力分析、元数据查看等等;能支持更多种场景的 API SQL 解析,包括别名解析、字段解析、多层嵌套子查询、多表联合查询等等;埋点仅发送 ID,侵入性也更小了。组长元善介绍,经过数百个用例的测试,API 字段解析的精准率均达 100%。
也就是说,DataSimba 全链血缘分析的易用性、准确度、覆盖面等都得到了提升,未来将更好地响应客户需求,带来更好的体验。
1.2
DAG 血缘性能压测
更便捷易用还不够,「你过来压测呀!组」则从性能角度切入,致力于突破瓶颈,持续提升血缘关系性能。为此,组员们甚至设置极端条件,以探索能力边界。
在血缘性能得到提升的同时,「你过来压测呀!组」代言人沙加补充道:经测试发现,性能瓶颈通常在前端页面渲染,且会随着节点总数的增加而增加;页面渲染时间和单层节点数、图形结构有关;非简单依赖关系下,节点关系数越多/图形结构越复杂,接口越容易成为瓶颈。
#2 数据资产管理
2.1
标签元数据管理
对于企业用户而言,不仅数据资产需要得到管理,利用数据生产出来的标签、算法模型、API 等,也需要有清晰有效的管理。
那么问题来了,DataSimba 有数据地图,为什么没有标签地图?
「吃里扒外组」选择聚焦标签,集成标签来源、责任人、所属实体等信息,构建以标签对象为基础的管理方式。用户在 DataSimba 中查看标签地图,就可以获得标签相关的所有必要信息,进行有效管理。
「生产标签时如何了解来源表的各维度详细信息?」「生产出标签后,如何方便地描述、管理标签?」此类问题由此迎刃而解,而这只是第一步,「吃里扒外组」表示,从用户需求出发,更多的「地图」已在路上。
#3 元数据相关主题、指标
梳理及数据分析
3.1
数仓建设质量评估
想了解自家数据仓库建得怎么样?
「按图索指组」从模型规范度、模型层级依赖度、跨层依赖度这 3 个维度,对数仓建设质量进行量化评估。
短短 3 天时间内,「按图索指组」不仅完成了数仓建设质量评估指标体系的建设和落地,还将质量评估工具以可视化的形式呈现出来。
数仓建设质量评估可视化界面 demo
在底层数据加工计算层,「按图索指组」突破性应用地 BSP 同步并行计算模型,实现图编程,再通过 DataSimba 开发调度图计算程序,实现对外提供接口,最后借助可视化平台 DataMaleon 搭建展示页面,直观呈现数据。
「拒绝技术自嗨,我们希望能在有限的时间内高性价比地产出价值。」小组发言人洛伊谈到,「确实如评委老师所说,这其中有一些分析可以不用图计算来做,但当涉及到跨层调用等情况,用图计算会更快,将会大幅度提高性能。」
3.2
元数仓运维指标数据引入
为了让数据更健康、及时发现数据异常情况,为了给数据巡检报告和智能运维场景提供运维指标数据支撑,「巡检指标小分队」在本期黑客马拉松完成了元数仓运维指标数据引入:
使用 Prometheus Exporter 分别在应用和主机层面采集数据,将采集的数据发送到 Prometheus 服务,Prometheus 再将数据转存到 ES,DataSimba 通过 ES 集成数据。数据流转链路虽长,「巡检指标小分队」打通了每一个环节,并沿途顺便修复了一些 bug。
由此,用户就可以使用 DataSimba 的离线研发功能,提取所需的指标数据了。
以获取接口请求的元数据为例,DataSimba 能获取接口请求时间、是否成功、是否存在异常、URL 等指标,后续用户还可以在 DataSimba 直接对这些指标进行加工。
据现场评委何夕(奇点云副总裁、战略咨询专家)剧透,该选题的成果也将应用于奇点云筹备上线的健康巡检报告模块,敬请期待~
3.3
任务指标运维大屏
半夜值班,先查各任务运行情况,再查一查调度资源变化情况,还要不忘看看超时的任务和节点内存使用情况……这是每一个「蝙蝠侠」(半夜值班的运维工程师)的痛。
而治愈他们,就是「葫芦娃七兄弟组」给自己的使命。
「葫芦娃七兄弟组」以任务元数据为基础,搭建了 DataSimba 任务指标运维大屏,实时、生动地展现当前需要重点关注的运维指标、任务整体运行情况、调度资源变化趋势等等,用户只需要定期查看大屏,就能及时、便捷地发现并诊断问题,用户也可自行调整大屏的组成结构,根据实际情况配置其更关注的要点。
任务指标运维大屏 demo
#4 数据安全
4.1
数据脱敏与加密算法应用升级
数据安全是重中之重。本次黑客马拉松,「黑猫组」着力于元数据的脱敏和加密,从脱敏规则配置、加密规则配置、密钥管理等层面,对 DataSimba 的数据脱敏和数据加密进行了升级。
[黑猫组有哪些创新成果?经识别,本段内容也已被加密,欲知详情,欢迎给奇点云公众号留言哦]
#5 元数据,让数据成为资产
,我们致力于提升 DataSimba 的运维部署易用性;
,我们「高速迭代,也要 good smell」,专注于还技术债,练好内功;
,我们发力敏捷数据与高效交付,沉淀可复用的方法和能力。
那么这一季,为什么是「泛元数据」?
「本次的选题依旧并非技术自嗨」,黑客马拉松幕后黑手地雷(奇点云合伙人、技术副总裁)强调,「元数据是用户把数据用起来非常关键的要素,我们从客户实际使用场景和需求出发,本季选择打磨(泛)元数据,把它做得更好。」
正如 Gartner 的观点「是元数据让数据成为资产」所言,元数据能帮助用户在复杂的环境中发现和理解数据,让冗杂的数据变成有价值的信息,帮助企业更好地管理数据全生命周期,促使数据真正被用起来,在业务上产生价值。奇点云数据中台 DataSimba 的元数据服务模块,亦是为此而生。
马拉松赛到终点,四位评委分别从课题完成度、商业价值、产品成熟度、技术难度等维度,为 7 个小组打分,最终,「系统随机生成组」、「你过来压测呀!组」分获第一、二名,抱得奖金归。
评委激动的手
写组名 抽演讲顺序
获奖感言 | 第一名
「系统随机生成组」:
首先,非常感谢公司黑客马拉松这个平台,感谢老板的支持与赞助,感谢评委老师们的指导与点评,感谢平台部所有成员的共同努力,让我们拥有了这次发挥的机会。其次,非常感谢元善、八月、长夜、金木、月上、纯粹、曾博、雨令、萤火、欧米等成员,他们协助我们提供了大量的技术与非技术的支持,感谢大家的倾力相助,我们才能在短时间内完成项目的重点、难点工作,才能获奖!!!最后,感谢参赛的所有成员,感谢我们身边有这样一群可爱的小伙伴,感谢大家的共同努力!
获奖感言 | 第二名
「你过来压测呀!组」:
老君:感谢为性能优化背后默默付出的研发同学,感谢全体组员的努力!
南空:除了感谢公司,还是感谢公司……
沙加:这次黑客马拉松参与感很强,与组员合力完成了之前困扰很久的一道难题;感谢组员,感谢组委会,能够得到各位的认可,拿到第二名。独乐乐不如众乐乐,打算与大家一起分享(期待一哈)!
没想到吧,还有惜败感言
纯粹:
下次我一定会拿第一!
(纯粹,「葫芦娃七兄弟组」成员,高级后端开发工程师,连续参加三届黑客马拉松而无缘奖项,致力于打造业界最稳定的数据中台)
版权声明: 本文为 InfoQ 作者【奇点云】的原创文章。
原文链接:【http://xie.infoq.cn/article/0e772e02156e8ff0b2e333288】。文章转载请联系作者。
评论