数据分析与 AI 丨大模型 + 知识图谱,将企业数据转化为商业价值
随着生成式人工智能 (GenAI) 和高级数据分析技术在过去几年的爆发式增长,越来越多人开始谈论知识图谱。但是什么是知识图谱?知识图谱又为什么如此重要?一起看看在现代企业中,知识图谱如何发挥巨大的价值。
什么是知识图谱?
让我们从一个基本定义开始。根据 IBM 的说法,知识图谱(也称为语义网络)“代表了现实世界实体(例如对象、事件、情境或概念)的网络,并展示它们之间的关系。
为什么知识图谱很重要?
简而言之,知识图谱与任何希望从数据中获得更多见解和价值的人都息息相关。企业可以使用知识图谱来捕获其数据的实际含义,并确保每个人都可以访问和利用它。知识图谱消除了数据孤岛,并为数据驱动的 AI 应用提供了生成更准确、更相关和更复杂的输出所需的深度、广度和细微差别。
最重要的是,知识图谱不再是专业数据科学家的专利,最新的数据分析工具和平台使所有技能水平的用户(包括新手和非编码人员)都可以轻松创建知识图谱。
接下来,让我们更深入地了解知识图谱:它们是什么,它们有什么用,以及它们如何帮助世界各地的用户改变数据分析和 AI。
在数据中,上下文的连接至关重要
众所周知,最有价值的数据往往很少是特别明确的,数据连接的上下文至关重要,因此知识图谱出现了,它们为数据集和数据操作带来了关键的上下文连接。以 2019 年一起美国著名的案件为例,一名妇女拨打了 911 电话,报告了一起家庭虐待事件:
呼叫者告诉紧急调度员她想订购披萨。调度员解释说,911 是用来拨打紧急电话的,而不是披萨外卖。但是,当呼叫者不顾调度员的提醒继续订购披萨时,调度员很快就意识到了呼叫者的真正含义——她的母亲正面临施虐者的直接威胁。
仅使用披萨订单的日常语言,来电者就能表明肇事者仍在屋内,且她迫切需要警方的帮助。以下是完整通话的摘录内容:
调度员:俄勒冈州 911。
来电者:我想在(某某地址)订购披萨。
调度员:您拨打 911 订购披萨?
来电者:呃,是的。地址在(某某…)公寓。
调度员:这里不是订购披萨的电话。
来电者:不,不,不。你没能明白。
调度员:我现在明白了。
这次通话简单展示了人类交流的复杂性,以及时间、地点和关系如何影响一个简单句子的含义。然而,机器和算法难以破译和检测这种细微差别和复杂性。这就是为什么寻找使机器能够更好理解数据语义的技术是数据科学和 AI 最重要的核心领域之一,也正是知识图谱发挥作用和价值的地方。
知识图谱如何连接各个点
顾名思义,知识图谱以图的形式捕获和展示数据。此图包含节点(相关的实体及其用途)、节点的属性以及节点之间的关系。最重要的是,知识图谱的结构支持在不同的数据组件之间建立关联和链接,使知识图谱看起来像一个由无限连接的点组成的网络。这种多层次的方法提供了将数据转化为知识所需的深度和灵活性,同时可以捕获上下文和语义的细微差别。
借助知识图谱,将来自不同来源和不同形式的数据汇集在一起非常简单,并进一步放大了数据的价值。这种方法与许多数据管理工具形成鲜明对比,在许多数据管理工具中,数据库为了保持不同数据格式的一致性而牺牲语义。但知识图谱识别了知识的动态和变化本质,可以随着新信息的出现而发生演变。
这里还有一个重要的概念:本体论。从广义上讲,知识图谱获取数据并将其集成到本体中,本体通过定义、规则、关系和用途来定义相关领域的知识。因此,本体提供了一个可以与其他应用程序保持一致的共享词汇表,使图谱的知识可以用于进一步的分析和处理。
以上信息都可以说明,知识图谱本身并不是目的。对于企业而言,知识图谱只是创建数据编织(Data Fabric)的一种方式:一个丰富、灵活、机器可读的层,可以扩展到企业的数据基础架构中,使其他数据科学和 AI 平台可以更好地利用这种数据结构。
提高生成式 AI(GenAI) 输出的准确性
对于希望利用知识图谱将数据整合在一起并应用多层理解的企业来说,有很多有趣的途径。例如,知识图谱提供了多种方法来提高 GenAI 输出的准确性和相关性。值得注意的是,知识图谱有助于大语言模型 (LLM) 利用最新的信息,并与检索增强生成 (RAG) 使用的向量数据很好地配合,这是 GenAI 发展的另一个关键领域。
使用案例还包括 Graph RAG:使用特定领域的专业知识对现有大语言模型(LLM) 进行微调或训练新模型。
知识图谱的主要功能和优势说起来相对简单,但是从头开始构建图表是完全不同的事情。幸运的是,Altair Graph Studio 这样的无代码工具可以弥合这一差距。新手和专家用户都可以从企业的整个数据池中构建知识图谱。Graph Studio 将基于图形的语义数据结构层应用于数据基础架构,消除了数据孤岛,使用户和数据及 AI 工具都能够理解业务数据的真正含义。
知识图谱:让数据即刻产生价值
前面提到的 911 呼叫事件只是一个案例,展示了帮助 AI 像人类一样更动态且智能地运行所涉及的巨大挑战,知识图谱是解决这个挑战的关键部分,在为数据带来更多关联信息方面发挥着越来越重要的作用。当然,像 Graph Studio 这样的工具的出现也凸显了另一个强大的趋势:推动数据科学和 AI 工具及其功能更加大众化。
Graph Studio 是市场领先的数据分析和 AI 平台 Altair RapidMiner 的一部分。近四十年来,Altair 帮助世界各地的企业解决了他们最紧迫的挑战,利用数据分析和 AI 功能帮助客户实现了难度最高但最激动人心的目标。
Altair RapidMiner 数据分析与人工智能平台,是 Altair 澳汰尔公司旗下仿真、HPC 和数据分析三块主营业务中的解决方案,它在数据分析领域最早实现将自动化数据科学、文本分析、自动特征工程和深度学习等多种功能同时集成的一站式数据分析平台,帮助用户解决从数据清洗、准备、数据科学建模到模型管理和部署,同时又支持数据和流数据的实时分析可视化的数据分析平台。想要了解更多,欢迎关注公众号:Altair 澳汰尔。
如您对 Altair RapidMiner 感兴趣,欢迎点击链接免费申请部分软件试用。
评论