写点什么

袋鼠云产品功能更新报告 12 期|让数据资产管理更高效

作者:袋鼠云数栈
  • 2024-10-29
    浙江
  • 本文字数:4318 字

    阅读完需:约 14 分钟

本期,我们更新和优化了数据资产平台相关功能,为您提供更高效的产品能力。以下为第 12 期袋鼠云产品功能更新报告,请继续阅读。

报告速览

  • 元数据:支持配置表生命周期、支持记录每条 SQL 血缘关系、支持 Doris 数据源

  • 数据质量:支持 MySQL、StarRocks 数据源、自动关联离线任务、质量校验支持质量评分

  • 数据模型:建表联想模式、编辑表操作对接审批中心

  • 数据治理:支持 StarRocks2.x、3.x


一、【元数据】重点更新

|01 元数据管理优化,支持配置表生命周期

之前系统中缺少一个可以基于数据源和数据库维度,批量配置数据表生命周期的入口,导致用户在处理大量数据表时会非常耗时且效率低下。

为了改善这一状况,新功能在元数据管理页面上做出调整,将展示的维度修改为“数据源--数据库--数据表”。支持基于数据源、数据库、数据表维度进行生命周期的批量配置,提高了操作的便捷性和管理效率。



|02 支持记录每条 SQL 解析出的血缘关系


在「数据地图」-「离线任务详情」页面,支持对解析 SQL 结果进行记录,包含 SQL 语句、解析结果(成功/失败)、解析时间,针对解析成功的可查看此条 SQL 对应的血缘关系图谱(只展示表级图谱),针对解析失败的可查看日志,以便找出问题所在并进行修正。



|03 丰富元数据的展示信息

本次更新中我们丰富了元数据的展示信息,提供更详尽的内容描述。

(1)「数据地图」-「表详情」页面支持在数据表名下方展示表质量评分(若该表无质量评分则不展示),支持点击数据质量评分后跳转至:数据质量>质量报告> 该数据表的质量报告,提供更详细的数据质量信息。



(2)表信息新增热度统计按钮,并且增加了四个新的统计数据:订阅数、使用次数、查看次数和影响表数。

(3)针对「操作记录」板块,新增了 DML 操作记录,增强了数据使用的透明度和可追溯性。



|04 新增支持 Doris 数据源

针对 Doris2.x 类型数据源支持元数据采集、血缘分析、数据治理(不包括小文件治理)、数据质量(所有功能均支持)、数据脱敏、数据权限(行列级权限);

离线开发模块创建的 meta Doris2.x 数据源支持自动引入并自动创建周期同步任务,简化流程提高效率。

|05 新增支持自动引入数据源的设置管理模块


针对离线开发、指标和标签模块中自动引入的数据源,新增数据源自动引入设置,可以选择是否自动创建周期同步任务/是否自动同步该数据源下的数据表信息,并且支持按照子产品、项目维度、数据源类型维度进行设置开启/关闭自动引入功能。



二、【数据模型】重点更新

|01 规范建表的建表联想模式配置内容扩充

(1)向导模式配置内容扩充:

针对 ADB 类型建表支持配置字段是否为主键、是否为空,精度值;

针对 Inceptor、Hive、Spark 类型建表支持配置精度值;

Inceptor 支持配置事务表/非事务表,支持指定 HDFS 存储路径。

(2)当数据标准中配置了长度、精度信息时,引用标准可自动同步。

(3)支持 Hive3.x(Apache) 类型数据源的建表,建表逻辑和 Hive2.x 保持一致。

|02 编辑表操作对接审批中心


新增「数据模型」-数据建表/删表/编辑表操作对接审批中心,实现审批流程标准化,规范了数据管理流程。

(1)在资产平台中,针对无数据模型审批权限的用户,在进行数据表的新增、编辑、删除操作时,均需要进行审批,审批动作统一在审批中心进行操作,同时,用户可以在「我的模型」模块查看审批进度、进行撤回操作。

(2)「审批中心」新增“数据模型申请”流程,允许审批人对申请进行通过或驳回的操作。针对数据资产中撤回的模型申请,审批中心的“待审批”模块不再展示此条申请数据,确保审批队列的实时性和准确性,提高审批效率。

(3)历史数据迁移到审批中心进行留存。


三、【数据质量】重点更新

|01 新增支持 MySQL、StarRocks 数据源类型建表


用户现在可以利用 MySQL、StarRocks 数据源类型建表。

|02 数据表质量校验支持质量评分

新增支持针对单表校验的表级质量报告分析,内容包含表质量评分、质量分值变化趋势、质量评估概览、近期规则校验异常明细、近期校验结果。

同时,「质量概览」页面新增针对单表校验下各个数据表的表级质量分排名,帮助用户更直观地了解和比较不同数据表之间的质量状况。

|03 支持自动关联离线任务运行周期

在项目中,多个客户在运行质量规则时反馈,期望当质量任务关联了离线任务后,能够依据离线任务的时间运行质量任务,并确保两者之间能够关联。

因此本期新增功能,在单表校验-质量规则创建时,若关联了离线任务,支持选择调度周期是否自动依赖于离线任务运行。

|04 对接数据标准自动创建质量规则

当出现数据质量的规范性校验和数据标准设定规则基本一致的情况时,优化数据质量的规范性校验规则设计逻辑,支持与数据标准进行对接。

数据质量创建规范性校验规则时,支持对接数据标准从而自动创建质量规则。具体来说:

当用户创建新的规范性校验规则,若识别到选择的字段为绑定了标准的字段,支持选择是否引用标准规则;

如果用户选择引用标准规则,平台则会根据标准中定义的长度、精度、枚举个数、是否空值、是否重复,自动生成质量校验规则。

|05 质量任务定时执行可以关联自定义调度周期

此前,在配置质量规则时,无法关联自定义调度周期进行质量任务的运行,导致无法满足用户个性化配置运行周期的需求;并且在质量任务运行过程中,存在一个质量任务运行时间过长的情况,中途无法停止导致无法释放资源。为了改善这些问题,本期进行了以下优化:

(1)在质量规则创建,配置调度信息时支持关联自定义调度周期,修改模块包含新建/编辑单表校验规则、多表校验规则、规则集,查看规则详情。

(2)支持中途停止质量任务:质量规则创建后,支持在质量任务运行过程中进行中途停止操作。有助于及时释放被占用的资源,避免不必要的等待时间,提供更加灵活和高效的服务。


四、【数据治理】重点更新

|01 新增支持 StarRocks2.x、3.x 数据源

数据质量模块新增支持 StarRocks2.x、3.x 数据源,包含单表校验(需要支持所有校验函数)、多表比对、规则集校验、表质量评分等质量相关的所有功能模块。

|02 小文件治理优化

小文件治理功能旨在解决大数据存储系统中由于大量小文件存在而导致的性能问题和存储效率低下,本期对小文件治理功能进行优化:

  • 小文件治理后端处理逻辑优化;

  • 在进行周期治理/单次治理时,支持选择 Local 模式/Remote 模式;

  • 针对新增的 Remote 模式支持中途取消操作。

|03 支持健康资产分权重调整


此前资产健康分不支持用户自定义设置,为了更好地让用户对在意的数据实现针对性的管控,本期增加自定义功能,支持资产健康分权重配置,用户可以自己调整健康分的权重占比,同时展示扣分规则。



五、【数据安全】重点更新

|01 数据权限管理新增权限回收功能


为了增强数据权限管理的灵活性和安全性,新增“权限回收”功能。在「数据权限管理」页面中,新增“权限回收”,列表展示每个用户自己申请且已经通过的权限列表,可通过权限回收将此用户的权限信息删除。此功能默认仅对管理员开放,确保权限管理的安全性和可控性。

|02 数据分级分类应用

新增大量数据分级分类应用:

(1)级别管理

支持按照用户赋予等级,默认提供 L1~L5 共 5 个用户等级,管理员可通过“编辑”按钮修改用户等级。默认级别对应的开放用户等级为 L1,可通过编辑操作进行修改,若有的用户没有配置用户等级信息,则无等级用户不受分级分类的权限管控;

编辑按钮增加悬浮提示优化,增加“申请权限”按钮。


(2)数据地图涉及模块

在「数据地图」数据表数据预览时,列表的字段右侧新增分级分类的标识。

(3)角色管理模块

针对“数据分级—级别管理—操作”的权限,默认只给管理员开放,数开和访客无此权限;针对页面上的“申请权限”按钮,跟随用户等级的配置控制是否显示,不受角色的权限管控。

(4)审批中心

支持管理员在审批中心对分级权限的申请进行审批。


六、【平台管理】重点更新

新增通知中心功能模块:

(1)通知配置

支持对某一接收人批量配置资产所有的通知项、通知方式、通知内容、通知人、通知频率等内容。

(2)通知记录

通知记录涵盖针对每个单独模块配置的通知信息、以及通知中心批量配置的通知信息。

数据资产平台其他功能优化说明

|01 【元数据】

  • 支持 TBDS_Hive 类型数据源,支持范围包括元数据同步、血缘分析、数据地图、元模型、元数据管理、元数据质量、资产盘点、数据安全(数据权限)

  • 元数据周期同步增加同步状态“等待同步”,当周期同步任务存在待同步任务,且没有开始同步时,状态展示为“等待同步”

  • 元数据周期同步时,可选择同步全部内容/除去表行数和存储的全部内容功能,新增支持 MySQL、Oracle、SQLServer、TiDB、Greenplum、ADB PostgreSQL、StarRocks、HashData、OushuDB

  • 针对 Sparkthirft2.x 数据源类型,支持物化视图的查询、同步、维护

  • 「数据地图」-「数据表详情」中针对表行数、存储大小,支持显示更新时间

  • 「数据地图」-「表详情」页面针对字段中文名支持修改操作,支持单个修改/批量操作

  • 针对表的业务属性为 string 类型的,默认值的最大长度为 255 字符,并且在编辑业务属性页面进行最大长度提示

  • 数据目录支持左右拉伸,支持选择该层级的整个范围进行拖动

  • 数据地图中移除表生命周期编辑入口,仅展示生命周期信息,用户统一在元数据管理模块对表生命周期进行编辑

  • 支持对表负责人的权限点管理,表负责人变更为非必填属性

  • 优化 ADB 类型血缘解析由于识别数据表名大小写不敏感导致解析失败的问题

  • 周期同步任务创建/编辑页面,针对表行数和存储大小的同步提示信息优化

  • 数据地图中离线任务 SQL 语句字段存储格式优化,把存储格式由“text”调整为“longtext”,前端悬浮展示默认展示 SQL 语句的前 1024 个字符,支持用户通过 SQL 下载查看 SQL 的全部信息

|02 【数据模型】

建表时新增保存的中间状态,点击“保存”按钮后可临时保存此次编辑的建表信息,并展示在列表中,可从列表进入再次编辑

|03 【数据质量】

  • 质量规则配置支持以数据源、数据库、数据表的形式进行选择,在创建质量规则时支持选择脏数据存储库是否为默认存储数据库;

  • 单表校验针对规范性检验规则,增加支持针对枚举值的检验,对接了数据标准自动生成的规范性校验规则中,自动生成针对“枚举值”这一规则的校验;

  • 规则列表中支持显示当前的规则状态为未开启检测/已开启检测;

  • 支持查看规则集详情,可记录规则集的变更历史及变更信息,版本信息包含操作人员、操作时间、保存历史导入的 Excel 文件;

  • 单表校验波动检测结果取值调整为取最新值。


|04 【数据治理】

小文件治理编辑治理规则,针对分区表,查看分区时支持分页查询。

|05 【平台管理】

在移除用户时判断是否进行交接中,支持校验原用户是否有负责表(也就是数据表的负责人为原用户),若有,需要提示需要进行权限交接,交接后表负责人自动变更为转让人用户。


想了解更多,欢迎点击:https://www.dtstack.com/?src=szinfoq

用户头像

还未添加个人签名 2021-05-06 加入

还未添加个人简介

评论

发布
暂无评论
袋鼠云产品功能更新报告12期|让数据资产管理更高效_袋鼠云数栈_InfoQ写作社区