数据治理:数据访问也需要治理!
数据权限所面向的群体是复杂的,可以说包括了所有和数据有关的人员,通常有管理层,客户(用户),开发人员,不同部门业务线的使用等。
首先用户可以通过多种渠道访问数据。例如直接的 BI 报表,用户看板。开发人员则可以直接从数据库或数据仓库访问,而数据平台权限不仅仅是应该只有数据的权限,其实有资源的权限,什么样的人可以使用多少的资源,可以使用那些资源同样是数据治理中的一部分,当然本篇仅仅是讨论简述数据的权限,除了我们使用时候涉及的权限外,在进行同步数据到数据平台的过程中也是可能被访问的。
业务系统在多年的迭代中可以说对权限的控制已经逐渐的完善并且复杂的,这是业务流程的专业知识多年所构建出来的,这些过程决定了谁可以看到和编辑哪里的数据。但是试想一下:如果所有数据都同步到数据平台,如何对数据的访问配置将是一个比较大的难题了,这也是数据访问治理的一个大的挑战。
01 简述数据访问治理
组织必须保护数据以防止不良事件发生,并仍可用于做出明智的决策。及时向正确的人提供对正确数据的访问权限的机制称为数据访问治理。
权限治理是系统管理员通过设置用户组或用户的某些权限,来控制用户访问系统的各种资源。如:修改文件、删除文件、打印文档等。什么是安全策略安全策略是指对应用进行限制的一种方法,它允许应用程序根据自身的特点制定相应的安全规则和操作规程,从而保证数据的安全性。
简单地来理解,可以抽象为用户和资源(数据)的一种映射关系,我把对数据的读写统一理解为数据资源,而权限就是拥有控制某种资源的能力。
02 数据平台之前数据访问的挑战
1、数据孤岛
简单来说,“数据孤岛”是指在数据及数据集的形成、分析、使用过程中,由于主体能动性、客体技术性以及政策环境、制度建设等不完备形成的不对称、冗余等封闭、半封闭式现象。
企业发展到一定程度,因为数据量的增加,也因为信息化建设的必要性,企业会为不同部门建设相应的业务信息化系统。这些业务信息化系统(ERP、OA、CRM)可以规范业务流程,形成标准化的业务模式,并通过系统数据库自动沉淀业务数据,为企业积累数据资产。毫无疑问,数据价值凸显的当下,能够沉淀业务数据,这当然是一件好事。
但这些不同部门、不同业务信息系统数据库中的数据往往无法互通,只能在各自数据库中储存,无法统一进行利用,没有针对企业整体的全局视角。这样一来,每个部门、每个业务系统的数据都相互分隔,就像海外一座座孤岛,彼此无法连接,无法交流,这就是平时经常听到的数据孤岛。
2、数据量和技术限制
有时,业务在进行数据展示和访问时候会涉及到几十张甚至几百张的表这是如果直接在业务中进行关联查询实现起来是很复杂和低效的,同时不同表甚至会出现没有访问的权限这时就需要公司的 DBA 来在赋予权限,这样的效率是十分低下的。
3、公司不同部门沟通缺失
可能有些部门已经将数据整理成自己部门所使用的规范,但是沟通的不及时在其他部门使用时需要再次查找部门对应的负责人,甚至最后标准的不统一都会造成效率浪费和准确性降低。
03 数据平台的兴起
为了应对上面的问题和日益增加的数据分析需求,逐渐的开始了数据仓库、数据中台等理念,再到现在的数据湖技术的不断成熟。所想要做的就是将企业数据统一管理,统一来提供服务将数据使用更加规范化,最重要也是为了将数据发挥更大的作用,使得帮助业务快速优化迭代自己的产品更加适应市场需求。
04 数据平台之后数据访问的挑战
1、复杂的访问权限管理
组织可以使用数据湖或各种类似的平台来聚合精选数据,以克服孤立的数据和技术限制。但是,将所有应用程序的所有权限转移到数据湖中并不容易。
基于角色的权限是为每个应用程序设计的,通常在使用后经过多年的迭代。从本质上讲,在数据湖或仓库中组合所有内容的实用性极具挑战性。
2、隐私合规和监管监督
组织必须遵守隐私合规法规和信息安全实践,以使用户能够识别风险领域并实施额外的措施来保护机密数据。组织外的许多监管机构都针对个人数据实施法律,对违规行为处以巨额罚款。这些法律要求保护数据,这也是无法普遍访问 PII 数据的原因之一。
3、数据可发现性挑战
由于现代数据平台托管来自多个来源的大量数据,因此很难找到正确的数据源。
05 为什么传统技术不足以在现代保护数据
传统上,用户通过应用程序或自助服务门户访问数据。应用程序通常具有明确定义的策略,但对于自助服务,数据是手动管理的并移动到数据仓库或数据湖。之后,数据被划分为各种角色,并由 OKTA 和 Active Directory 等角色管理工具进行管理。
形成的组识别具有共同访问要求的个人,以支持他们在组织中的角色的执行。通过进入组访问数据,当被分配到组时,访问会批量打开。此方法未涵盖的任何内容都将用于临时工作流。
但是,临时访问通常没有得到很好的管理。无权访问的用户不知道该向谁请求什么。通常,IT 有一个表单,用户可以在其中请求访问他们通过电子邮件或通过单个应用程序搜索发现的数据集。用户使用此表单编写整个区域的访问请求,或与另一个人的访问权限相同的访问请求。
06 现代数据访问治理
通过数据治理制定的策略进行自动化数据访问管理的新兴趋势。数据访问管理的现代方法使组织能够通过完整的方法解决最持久的数据访问管理挑战。
现代数据访问扩展了传统方法,以实现自动化、可发现性和简化的临时工作流程。这个过程是这样工作的。需要构建一个数据目录,将数据分类为不同的组,根据分类设计访问策略,并针对驻留在分类参数之外的请求使用临时工作流。通过在数据层自动应用的策略来管理访问。
1、集中的数据资产目录
第一步是创建一个集中的数据资产目录。使用数据资产发现攻击可以轻松实现数据目录,利用元数据来轻松发现,而不会暴露实际数据。用户可以从许多有利位置搜索和了解生态系统中的数据,并在需要时请求访问,这将路由到分配的工作流程以实现快速周转,简单、自动化且可扩展。
2、数据分类与分级
1)数据分类分级的原则
科学性原则。应按照数据多维度特征和逻辑关联进行科学系统化的分类,且分类规则相对稳定,不宜经常变更。
适用性原则。不应设置无意义的类目或级别,分类分级结果应符合普遍认知。
灵活性原则。支持各部门在归集和共享数据前,应按照业务所需完成数据分类分级工作。MECE 原则。MECE(Mutually Exclusiv Collectively Exhaustive)核心是“相互独立,完全穷尽”。
MECE 原则有三层含义:
第一,所有的数据都得涵盖全了,不能遗留;
第二,分类之间不允许重复和交叉;
第三,同一级次分类的维度要统一,颗粒度要一致。
2)数据分类的方法
为帮助企业建立一套适用、科学的分类体系,可能需要对整个企业数据进行评估,包括数据的价值,敏感数据的风险等,数据分类应搞清楚的问题,包括:
关键性:数据对于企业日常运营和业务的重要程度?
可用性:企业能够及时获取和访问所需数据吗,所访问的数据是否可靠?
敏感性:如果数据被泄露,对业务的潜在影响是什么?
完整性:数据在存储或传输过程中有丢失或被篡改的情况吗,对业务的影响有多大?
合规性:按照法规、公司制度、监管要求或行业标准数据需要存档或保留多长时间?
在对组织数据进行充分摸底后,根据数据管理和使用的要求,从业务出发进行类别的划分,例如:某地方政府,数据分类如下:
根据政务数字化应用场景分:经济调节数据、市场监管数据、公共服务数据、社会管理数据、生态环境保护数据等。
根据数据来源分:政府部门数据、企业法人数据、人口数据等。
根据共享属性分:无条件共享数据、有条件共享数据、不予共享数据等。
不同的组织、不同的业务场景,数据的分类方式就不同,为满足企业不同的业务需要,可能需要建立多套数据分类体系。
3)数据分级的方法
当企业使用过于复杂或太过随意的数据分级流程时,往往会数据管理陷入越来越混乱的境地。数据分级并不一定很复杂。事实上,最佳的数据分级实践是创建将数据按照敏感程度或受影响的程度划分成 3~4 个等级即可。然后,再根据企业的特定数据、合规性要求或其他业务需求添加更细粒度的级别。
按敏感程度划分(仅供参考)
按受影响的程度划分(仅供参考)
4)数据分类分级的技术
数据分类分级的技术,一般有三种:
人工手动分:数据的分类分级全部都有人工手动完成,这也是传统最常用的数据分类分级方法。
系统自动分:通过标签体系、知识图谱、人工智能等技术,对数据进行自动分类分级。通过技术驱动的数据分类分级解决方案消除了人为干预的风险,降低人工分类分级的成本,同时可以全天候分类,增加分类分级的持久性。
人工+智能:在很多情况下需要人工和技术相结合的混合方式进行数据的分类分级,人工干预为数据分类提供上下文,而工具和技术可实现效率和策略执行。
07 根据分类配置和执行策略
基于分类的访问策略可以在基于强大访问策略框架中的分类组的数据治理委员会会议中制定。很可能还需要工具来在数据仓库或数据湖中配置此策略框架。
策略将侧重于角色及其提供的特定权限。例如,销售代表可能仅有权访问未分类数据的元数据,但可以完全访问分类 PII 的数据。可以为组织中的不同角色编写尽可能多的策略。
跟踪访问策略的一种方法是制作一个访问矩阵,显示哪些角色可以与哪些分类进行交互。访问矩阵显示组织的访问策略,并增加了谁可以访问哪些数据的透明度。来自营销部门的账单可以访问标记为“营销一般受众”、“营销有限”、“销售一般受众”以及矩阵指示的任何其他分类的数据。
通过数据资产测绘工具,可以减少检索数据所需时间和工作量。
08 用于连续分类的临时工作流
每天都会创建新的文件和表格,为组织带来更多未分类的数据。由于这个量,需要一个临时工作流来识别这些新表、文件和报告,以发送给适当的人以确认分类。
总结
每个公司所有的权限体系是不同的,所涉及的面向的人群也是不一样的。权限是安全中最重要的一环,通常是包含用户认证和用户鉴权。
有的公司可能仅仅是 BI 报表的访问,权限的配置是通过 SQL 片段来实现的,这样的问题就是权限的维护复杂,同时当权限体系复杂时那带来的 SQL 片段也会很复杂,继而会带来数据查询缓慢。所以数据权限的设计也要根据公司的本身的实际情况来进行。
评论