数据分析与 AI 丨在企业环境中利用知识图谱赋能生成式 AI
如今,各行各业对生成式人工智能(GenAI)的参与度远超以往。GenAI 发展迅猛,不断带来新的机遇与价值。然而,对企业而言,实施 GenAI 常面临诸多挑战,或觉其难以驾驭,或担忧风险过高。
尽管存在一定局限,但技术的进步以及知识图谱等工具的出现,正不断强化 GenAI 的数据分析能力。在用户 AI 环境中引入知识图谱,能够让模型输出更精准、一致,且具备可追溯性,同时保障数据安全与隐私。
Gartner 分析师指出,知识图谱是企业构建更先进 GenAI 解决方案的关键基础设施。知识图谱包含语义层,即 ontology(本体论),它能赋予企业特有数据在专业领域的清晰、全面业务含义。这一本体可作为基础上下文,为分析处理及数据建立终端用户问题与数据之间的映射关系。此外,大语言模型(LLM)与知识图谱技术相结合,可以使用概念模型作为上下文提供可信、经过验证的输出。

01、GenAI 的局限性
GenAI 并非完美无缺,在实际应用中仍然存在不少限制和挑战:
► 精确性不足:
在对精确性要求极高的场景下,GenAI 通常表现欠佳。许多模型在处理简单数学和逻辑问题时会遇到困难,比如让 LLM 输出圆周率小数点后几百位,往往难以得到正确结果。
在图像生成方面,即便能生成部分细节正确的图片,但需要微调的细节也很难达到理想效果。
► 易产生幻觉:
LLM 看似知识渊博,实则不然。其知识源于训练数据、字母组合概率等,响应是基于训练学习路径和相似概念生成,并非来自结构化知识库或数据库。
而且,在没有使用新数据训练时,LLM 也无法提供最新信息,信息局限于训练截止日期。这使得 LLM 容易产生看似可信但实际错误的 “幻觉” 信息,误导对相关领域了解不足的用户。
► 存在偏见:
LLM 依据数据模式生成响应,缺乏真正的理解,这导致其训练数据易受偏见和限制影响,进而使输出响应也带有同样的问题,而不会考虑用户感受。
不过,也有应对这些局限的方法。例如,当在提示中包含上下文基础时,GenAI 的表现会有所提升。将 LLM 生成的响应限制在给定上下文信息内,若上下文准确,响应也可能更准确,这种技术被称为检索增强生成(RAG)技术。
很多主流搜索引擎已开始将 RAG 技术与现有搜索索引结合,以有效生成对搜索问题的答案,通常还会提供用于为 LLM 提供上下文的网页参考 URL。知识图谱作为 RAG 的重要新形式,为生成或利用上下文基础的技术提供支持。
即使在上下文基础不太具体且更依赖于从训练数据中获得现实世界知识的场景下,GenAI 也能发挥作用,如生成营销内容、创作诗歌故事、头脑风暴创意等无标准答案的任务。目前,大多数 GenAI 解决方案采用结合多种方法的技术组合。
02、知识图谱如何强化企业数据并支持 GenAI 解决方案
知识图谱不仅能可视化数据,更重要的是,其语义建模和描述为企业数据赋予了有意义的上下文。本体论作为概念模型,以业务用户和领域专家熟悉的术语描述数据,简化数据集成,促进语义层的形成,方便添加和连接新数据,提升数据发现、理解和重用的效率,推动业务价值。
对知识图谱的查询提供了数据基础,为不同的用户提供了定制化的服务和体验。知识图谱既是集成数据源的工具,也是应用本体模型的结果,构建起全面且可操作的知识资源。
目前,知识图谱主要通过以下方式赋能 GenAI 解决方案:
► 提供丰富上下文:
知识图谱将数据源整合到多维模型中,提供比传统数据库更深入的信息,有助于 AI 理解复杂的现实世界和特定领域主题,提升 AI 模型准确性和输出相关性。
► 本体驱动对齐:
以抽象且人类可读的语言描述数据,使 LLM 与文本语言训练方式一致,促进更加精确的上下文感知 AI 解决方案,还能辅助生成更准确的图形查询。
► 捕获复杂关系与推理:
知识图谱可捕捉复杂数据关系并进行高级推理,提取关联信息,为用户的临时性问题生成相关且有深度的答案。
► 具备扩展性与语义精度:
知识图谱持续发展,包含实时分析和聚合计算所需数据,确保 AI 输出的时效性和准确性。
► 助力微调或训练 LLM:
训练对于将内部数据融入解决方案至关重要。让 LLM 学习本体和参考数据,可提升其输出质量。
► 支持 RAG:
知识图谱通过创建文本片段并矢量化,支持 RAG 方法。LLM 利用向量嵌入检索相关信息,为响应输出提供宝贵的上下文内容。
► 提供实时计算的上下文基础:
当数据访问需要动态变化时,知识图谱可提供即时计算的上下文基础,使 LLM 响应根据输入实时调整,确保准确性。
► 融合向量嵌入与图形属性:
数据库中的向量将统一资源标识符(URIs)作为元数据存储,与图形属性融合的向量嵌入丰富了数据表示,提升 AI 的基础上下文理解和决策能力。
► 提示编排:
像 Langchain、LlamaIndex 和 Haystack 一样,基于 GenAI 的解决方案通过开源框架提供。这些框架利用知识图谱技术,根据用户需求和解决方案对企业的作用,通过一系列提示和工具调用不同技术,编排利用知识图谱数据。
► 打造对话界面:
用户可与知识图谱中的运营数据进行交互式对话。对话界面依托本体,使 LLM 能以文本、表格和图表形式回答用户问题。
03、结论
知识图谱与 GenAI 的结合是现代数据堆栈的重要组成部分。二者的融合能够挖掘企业数据生态系统中的潜在价值。
知识图谱让数据更易获取和理解,既有利于常规分析,也为 GenAI 提供坚实基础。企业用户可利用知识图谱提升数据质量和准确性,整合新旧数据以理解复杂关系,将传统数据库升级为多维框架。
Altair® Graph Studio™作为企业级数据发现和集成工具集,可用于托管知识图谱。用户能够清理、协调和互连多源数据,简化对结构化和非结构化数据的访问。
Graph Studio 拥有集成多数据源的统一数据层,可快速解答用户的临时性问题,将分散的数据整合为企业专属的互连数据架构。
Altair 是计算智能领域的全球领导者之一,在仿真、高性能计算 (HPC) 和人工智能等领域提供软件和云解决方案。Altair 能使跨越广泛行业的企业们在连接的世界中更高效地竞争,并创造更可持续的未来。Altair 服务于 16000 多家全球企业,应用行业包括汽车、消费电子、航空航天、能源、机车车辆、造船、国防军工、金融、零售等。
更多内容欢迎关注 AltairChina 公众号
如您对 Altair Graph Studio 感兴趣,欢迎关注公众号免费申请部分软件试用。
评论