AI+Data:AI 时代的企业数据治理
随着全球信息化程度的不断提升,数据正以前所未有的速度增长。据 Statista 测算,到 2035 年,全球每年产生的数据量预计将超过 2000ZB[1][2]。这个庞大的数字不仅标志着人类社会进入了一个全新的数据时代,也为企业提供了前所未有的机遇。企业可以通过收集、存储和分析大量的业务数据来挖掘潜在的价值,从而创造经济效益。
图表:全球每年产生的数据量[1]
数据时代的来临让数字化转型从头部企业的可选项,转变为更广泛企业的必选项。新的变化为企业带来了新的机遇,同时也伴随着诸多挑战。很多企业在前期的信息化建设中缺乏统筹规划,导致内部形成了多个数据孤岛,阻碍了数据价值的最大化发挥。为了解决这些问题,数据治理逐渐成为企业普遍重视的关键环节,尤其是在 AI 应用日益普及的背景下,高质量的数据治理变得尤为重要。
数据的多元化与价值挖掘
长期以来,人们习惯将数据理解为以数字形式存储的信息。然而,随着技术的发展,我们现在能够测量更多类型的事件和活动,并可以收集、存储和分析这些不被视为传统数据的各类信息,如文件、图片、音视频等。这种转变意味着数据不再局限于传统的结构化形式,而是延伸到了半结构化和非结构化的范畴。
企业数据的主要类型[3]
在企业的数据资产中,非结构化数据占据了总量的 80%,但其使用率却仅为 30%左右[3]。但实际上,非结构化数据的体量与其包含的信息量都更多,是企业未得到充分利用的宝贵资产。随着 AI 应用对多源异构数据的需求增加,企业对于非结构化数据的价值化需求也在加速释放,而相应的数据治理模块也将获得进一步的关注与优化。
数据治理:实现数据服务与应用的核心
数据治理是一个复杂且需要长期建设的项目,它贯穿整个数据生命周期,从数据的产生、清洗加工,再到存储、计算和服务应用,每个阶段都需要通过相应的工具与方法论进行规范与定义。对于部署 AI 应用的企业来说,数据资源的质量直接决定了 AI 应用能否成功落地。因此,在推进 AI 应用的过程中,开展针对性的数据治理工作是首要且必要的步骤。
数据治理流程[3]
AI 模型对数据高度敏感,低质量的数据会导致“garbage in, garbage out”的问题,即输入数据的缺陷会直接影响到输出结果的质量。为了确保 AI 模型的有效性和准确性,必须保证数据的完备性和准确性。有效的数据治理不仅可以为 AI 模型提供高质量的数据原料,还能提高模型的拟合效果,进而增强 AI 应用的实际性能。[4]
行业应用案例:更多可能性
1 金融行业
金融行业是我国信息化发展程度最高、信息技术应用最密集的行业之一。AI 技术与金融业务的深度融合,使得金融机构能够在风险控制、客户服务等多个方面实现更加流畅高效的运作模式。例如,智能风控通过大数据分析和机器学习模型,能够提前识别和预警潜在的风险,从而降低金融风险。智能客服基于自然语言处理技术,提供 7x24 小时的咨询服务,提升客户体验。良好的数据治理体系在支撑 AI 应用方面起着重要的作用,高质量的数据输入不仅能改善特征工程和模型训练的效果,还可以降低上线成本并减少潜在的数据问题带来的风险。
2 医疗行业
在医疗行业中,AI 的应用已经从医院管理类应用逐渐深入到核心业务当中,有效提升了医院的整体运营效率和诊疗水平。特别是在电子病历(EMR)和医学影像两大核心数据资源上,AI 展现出了强大的潜力。电子病历包含丰富的患者数据,包括基本信息、检验报告、诊断记录以及治疗方案等。由于其中大量存在非结构化数据,将其转化为适合计算机分析的形式成为了挖掘数据价值的基础。通过先进的算法和技术手段,医疗机构可以更好地理解和利用这些宝贵的信息,从而为患者提供更为精准的医疗服务。
在金融、医疗、零售、工业以及互联网等数据基础建设较好的行业中,面向 AI 时代的数据治理正在逐步显现其优势。此前,在《高效准确的PDF解析工具,赋能企业非结构化数据治理》一文中,我们已经讨论过出色的数据治理体系所需要的原子能力。积跬步,至千里,对于企业而言,积极探索适应自身特点的数据治理路径,充分利用非结构化数据资源,不仅是应对当前数据爆炸式增长的有效策略,也是推动行业智能化发展的关键助力
[1] Statista Digital Economy Compass 2019
[2] 中国信息通信研究院《大数据白皮书》(2020)
[3] 艾瑞咨询《中国面向人工智能的数据治理行业研究报告》(2022)
[4] 数据管理协会(DAMA 国际)《DAMA 数据管理知识体系指南》(第 2 版)
评论