震惊!AI 开展数据治理将超过人工和数据平台?
【StartDT Talk】“大模型浪潮下的数据探索”系列直播第二期圆满收官!
本期直播聚焦于“大模型时代的数据治理之道”话题,由奇点云创始人行在、资深行业专家证道深入探讨数据治理的时代变化,以及企业面对 AI 浪潮,如何利用大模型应对数据治理的新挑战。
下文基于直播内容编辑,略有删减。
一、大模型发展的背景
随着人工智能技术特别是大模型的迅速发展,IT 行业正在经历一场深刻的变革。业界普遍认为,大模型将给编程工作带来根本性的改变,能够赋能代码开发的全流程,从而极大提高程序员的工作效率。Gartner 甚至预测,到 2025 年,70%的应用程序将由低代码和无代码开发平台构建,其中 80%的应用程序由非 IT 工作者开发而成。
同时,业内也出现了大量大模型应用实践。例如,某度推出的智能代码助手整体采纳率超过 40%;Shopify 的开发团队引入了 GitHub Copilot,常规的重复性任务耗时减少了 12%;DeepCode 能够提高代码质量,其准确率高达 90%以上等等。
可以看出,大模型不仅提高了代码质量和开发效率,还让数据治理更加智能化和自动化,为未来的数据应用开辟了新的可能性。
二、关于大模型和数据治理的几个问题
(一)什么是数据治理?
广义的数据治理是指一套跨组织的策略、程序、标准、工具和技术,用于确保整个企业中数据的可用性。大致包含:数据标准、数据组织、数据质量、元数据管理、数据安全、数据生命周期、数据架构等。
理论上,数据治理在国内可以参考 DCMM 标准,在国际上则可参考 DAMA 标准。两者关于数据治理的描述虽略有不同,但对于数据治理的安全性、一致性和可用性的观点是相通的。
对于企业而言,数据治理不仅仅是一套理论上的规定,更需要与实际业务相结合。这意味着企业需要考虑使用何种 IaaS 环境、选择什么样的大数据平台产品,以及与现有 IT 基础设施的兼容性等问题,以便更好地利用数据产生业务价值。
(二)传统的数据治理是怎么做的?
传统的数据治理通常有两种实施方式。
1 自上而下
常见于大型企业,一般是 CEO 项目。首先,引入咨询公司,完成内部数据现状梳理,给出数字化建设建议。其次,采购硬件资源和大数据平台。同时,联合外部顾问分阶段开展治理工作。这种治理通常是先定组织、数据标准,再选择几个业务板块进行一阶段数据治理试点,分段执行。
2 按部就班
一般是由 IT 或数据团队自行发起,属于 CIO 项目。这种方式的数据治理范围会更聚焦于业务分析体系、大数据平台、数据质量、数据架构等领域。以自行建设为主,不引入外部团队。
对于系统复杂且有历史包袱重的企业,适合自上而下的治理方式;而系统和组织较为简单的企业,则更适合按部就班的治理方式。
(三)传统数据治理碰到的挑战及解决方法
传统的数据治理的理论框架看似完整,但由于依赖的成功要素较多,实际落地困难。因此,决策层认知、组织调整、业务分析、数据治理和工程管理能力缺一不可。除此之外,传统的数据治理还面临历史包袱重;领导预期高、时间紧;日常运营成本高,缺乏有效工具等问题,难以单纯通过人工或者单一方案进行解决。
为了应对这些挑战,需要采取类似于中药配伍组方的原则,相互协调和补充。
· 外部顾问一般可以解决数据治理理论、方法、治理经验、技术标准、工作流程、工程管理问题;
· 内部业务骨干协助解决分析体系思维框架问题,内部技术老员工解决历史上缺失的信息系统文档;
·AI 或是大模型则用于补充平台和工具短板。能够显著提高效率,确保治理工作的持续性和一致性,克服传统数据治理中的诸多障碍。
(四)为什么大模型可以解决问题?
在涉及自然语言识别的场景中,传统开发工具和人工处理存在不足。例如,在词根检查、标准词检查、指标口径检查、指标血缘检查、模型命名规则检查、类型和精度检查等方面。
然而,大模型不仅能够识别同义词、处理时态变化和复数形式,还可以处理跨系统的数据一致性检查,以及指标、标签业务口径与实际代码的校验。
CASE:我们曾服务过一家世界 500 强体育用品企业,并利用机器和算法帮助该企业解决了业务层面的口径统一问题,确定了指标之间的血缘关系,以及处理了数以万计的报表和任务调度、数十万个字段,这是纯靠人工无法解决的。
总结来说,大模型解决了记忆和计算的问题,并且在自然语言处理和理解方面具有显著优势,在处理复杂和大规模的数据集时,可以大大提高效率和准确性。
(五)如何走出使用大模型的第一步?
CIO 们首先应当明确问题类型。如果问题涉及自然语言理解或复杂业务场景的识别,那么使用大模型可能是更好的选择。如果不是,则可以继续使用传统的程序和工具。
如果决定使用大模型,建议选择投入轻、学习成本低的公网 SaaS 化的免费大模型服务,熟悉开源大模型进行日常提效,充分了解提示工程。初期,主要使用大模型进行创新尝试,或是方案性或检查性工作,避免上传敏感数据,以防数据安全问题的出现。例如,可以先从非涉密的词根、标准词检查和指标口径检查做起,既能体验大模型带来的效率提升,同时规避潜在风险。
(六)大模型在数据治理中的落地难点
大模型并非适用于所有场景,例如,处理大规模数据排序或运行复杂存储过程等任务时,传统数据库仍是更佳选择。如果需要在内存中缓存大量临时数据并进行复杂计算,大模型也可能表现不佳,甚至会出现错误的结果。因此,应理性看待大模型的应用场景,避免将其视为解决所有问题的灵丹妙药。
三、数据治理未来的发展趋势
(一)未来数据治理会如何发展?
单纯依靠人工和传统治理工具已经无法满足数据量激增的现状。虽然,目前阶段,数据平台的作用仍然大于 AI,但随着技术进步,AI 将在数据治理中占据更重要的位置。
· 阶段一:数据平台>人工>AI(当前阶段)
· 阶段二:数据平台>AI>人工
· 阶段三:AI>数据平台>人工
随着 AI 技术的发展,它将逐渐承担更多工作,提高数据治理的效率和准确性,从而更好地支持企业的数据管理需求。未来数据治理的发展将是人工、数据平台和 AI 的结合。
(二)大模型浪潮对程序员的影响
尽管谈及程序员完全被 AI 取代还言之尚早,但是大模型的确会对程序员的未来发展产生深远影响。一方面,大模型简化了许多常规任务,致使初级程序员可能面临转型或者薪酬降低的风险。另一方面,大模型的兴起带来了新的工作机会。中高级程序员不仅可以利用其提升工作效率,处理更为复杂的问题,甚至可以成为 AI 训练师,参与到设计和优化这些模型的工作中。
总的来说,新技术的产生往往会导致一些传统岗位的调整,但同时也会催生新的机遇。因此,程序员们不必过分担忧,但仍需积极适应变化,提升自身技能,以便在未来的技术环境中保持竞争力。
版权声明: 本文为 InfoQ 作者【奇点云】的原创文章。
原文链接:【http://xie.infoq.cn/article/3cb3d2c9b1fffa1d2f75da4a4】。文章转载请联系作者。
评论