写点什么

图计算的黄金时代 知识图谱背后的数据价值

  • 2022-11-30
    北京
  • 本文字数:3294 字

    阅读完需:约 11 分钟

图计算的黄金时代 知识图谱背后的数据价值
中关村在线 原创   
作者:徐鹏


数据洪流正在席卷整个世界。研究机构 Statista 预计,至 2025 年全球数据创建量——即创建、捕获、复制和使用的数据总量,将超过 180ZB。面对指数级增长的数据规模和愈发复杂的数据类型,企业想要从中获得商业洞察变得越来越难。究其原因,是业务人员难以从海量数据中发现其关联性,缺乏行之有效的工具,无法找到真正有价值的信息来指导业务发展。此时,就不能不提大数据技术的演进。

 

      从 Hadoop 诞生之日起,大数据的发展走过了十余年,期间像存储、离线处理等基础问题已经得到了解决。随着深度学习、机器学习等 AI 技术的逐级深入,人们开始思考如何通过挖掘大数据的关联性去探索“隐藏”在背后的商业价值,这种诉求也将一个 18 年前的技术再次推到了台前——图数据库。与以往用表格处理数据相比,图没有表的概念的,就是数学上点和边的关系,所有的数据可以汇集在一起。

 

      对于传统的关系型数据库来说,虽然其具有灵活的特点,可以做各种复杂计算,但在大数据时代对于并行计算、多机版的支持是缺乏的,而文档数据库、关键字、内存数据库,牺牲了业务的一些表达能力,得到的好处就是可扩充,但很多以前用关系型数据库能表达的问题却表达不了。从存储角度来说,图是存储数据最自然的关联模型。从计算角度来说,则适合数据和人工智能。由于早年间计算性能和架构的局限,使得图数据库这个在计算机科学领域较为高阶的研究成果在近几年才开始显露威力。

 

      在 Neo4j 高级产品市场总监 Maya Natarajan 博士看来,伴随数据量猛增而带来的则是数据更加复杂且高度关联,关系型数据库已无法满足处理复杂关联数据的需求,不能使客户从数据中完全受益。相比之下,图数据库是专为存储和分析高度关联数据而生的,“随着人工智能的发展和大数据时代的到来,并行计算类的处理需求增加,图数据库客户反馈,图在关联模型方面具有更大的优势,更具有前瞻性,可以更加充分地利用关联数据并发掘他们的价值。”


事实上,近年来的数据库领域正在经历融合式的创新,文档数据库、图数据库、时序数据库、NoSQL 逐渐成为主流。与此同时,数据库也越来越多地融入了云计算、AI/ML 等技术。拥有 13 年历史的瑞典企业 Neo4j 是图技术的开创者,也是原生图数据库市场的领导者。Neo4j 的产品有社区版和企业版,服务着全球超过 1000 家企业客户。过去十年,Neo4j 从图数据库逐步演变成为图数据平台。与传统的图数据库不同,图数据平台整合了数据科学、人工智能,机器学习,充实和扩大了解决方案的功能。


Gartner 预测,2012 年至 2022 年,全球图处理及图数据库的应用将以每年 100%的速度迅猛增长。DB Engines 近七年数据库流行趋势也显示,图数据库相较其他主流数据库受欢迎程度遥遥领先。在图数据库高速发展的浪潮之中,知识图谱的重要性不言而喻。根据 IDC 亚太数据和内容技术 2022 年预测报告,到 2025 年亚太地区 2000 家企业中约有 30%将部署图数据库。到 2023 年,亚太地区 20%的商业智能将整合知识图谱。


另据 Neo4j 一项针对 100 名企业高管的相关调查显示,88%的企业管理者已经认识到知识图谱的价值,认为知识图谱可以帮助跨越管理和数据治理的瓶颈,在弥合数据孤岛,改进 AI 或者机器学习,以及协助开辟新收入来源等方面发挥重要作用。到 2023 年 80%的数据和分析创新项目将使用图数据库来实现,而 2021 年只有 10%的创新项目是使用图数据库。

阿兰·图灵研究所将知识图谱定义为“对知识进行编码以在开放、不断发展、去中心化系统中大规模使用”的最佳方式。简而言之,知识图谱是具有丰富含义、相互关联的数据集。企业可以针对基础数据进行推理,并且自信地将其用于复杂的分析和决策中。


Maya Natarajan 认为,知识图谱有三方面价值:第一、知识图谱可以将数据转化为智能,使企业更好地管理人工智能和机器学习;第二,知识图谱能帮助企业在不改变现有数据格局和基础设施的前提下,进行数据编排和自动化,为管理者提供连续观察层,优化数据管理、数据预测和数据创新,加速企业数字化转型;第三,知识图谱能够帮助企业开创新的收入来源,提高业务效率,应用场景分布在金融、制造、零售、电信、互联网等多个行业。


据了解,Neo4j 知识图谱包含数据、显示动态内容的图数据及语义在内的三大要素。与关系型数据库的平面结构不同,当数据被抽取到 Neo4j 动态图结构中存储时,节点和节点之间的关系就被添加进来,为数据提供了动态的内容,即第一层上下文关系。而随着信息不断丰富,图也会不断增长。在图中获取数据并为它添加语义,就获得一个知识图。语义为图添加了第二层上下文关系,图谱就具备了深入动态的上下文关系。通过这个步骤将智能引入到数据当中,便于系统或者客户从中推断出不同的含义。


根据数据范围,Neo4j 知识图谱的应用范畴划分为数据管理和数据分析。数据管理包括汇集、校验、治理和探索数据。而数据分析侧重推理、预测判定。相对应的,Neo4j 提供行为图和决策图两种类型的知识图谱,协助客户从行为知识图谱过渡到决策知识图谱,实现数据分析到数据智能,完成数据创新。


Maya Natarajan 介绍称,行为知识图谱是以数据管理为核心的知识图谱,其主要目的是提供数据保障,并通过数据洞察来推动决策行动。其中,数据保障侧重把不同数据源的数据聚合在一起,进行数据交叉验证从而产生洞察,数据治理包括如何溯源数据目录和结构,数据是否存在血缘关系以及是否合规,以甄别存在的风险。数据洞察专注于新知识的探索、演绎和推理,主要用例包括客户 360、产品 360、供应链 360,以及身份验证、客户计划等。决策知识图谱侧重于数据分析、预测判定和基础图的机器学习,主要用例包括流失分析、欺诈分析、风险分析、假设分析和影响分析以及实体解析和知识图谱补全和预测模型等,例如医疗行业的患者旅程分析、制造行业的数字孪生等。


Neo4j 知识图谱解决方案是一个知识图谱平台,建立在丰富的产品基础上,包括负责数据存储的 Neo4j 图数据库,帮助建模的知识图谱工作台,致力数据分析的图数据科学(GDS)和数据可视化工具 Neo4j Bloom。作为原生的图数据平台,Neo4j 专注于处理高度复杂且具有高度关联的数据,拥有超过 60 个图数据算法,并且可以连接各类外部平台,便于用户更充分地进行数据分析。


美国国家航空航天局利用 Neo4j 处理了大量的工程项目和文档资料数据,工程师可以通过学习项目知识来提高业务决策效率,数据的关联性使得查询搜索过程大幅加快;中国一家全球最大的通讯设备供应商拥有超过 600 个数据库,将这些数据抽取到 Neo4j 数据平台,数据量超过 500 亿节点和 800 亿关联,将知识图谱优化之后,客户实现了全面的产品 360 视图,大幅减少了查询时间,使产品团队得以进行更高级和深入的数据分析;中国某家大型银行使用 Neo4j 知识图谱进行配置管理,支持灵活建模,提高了客户效率,让配置管理更加自动化;全球知名 PC 供应商基于 Neo4j 图数据库,对营销和销售各关键要素的关系进行了深入挖掘,并支持了多场景的实践,帮助业务实现效率与效果的提升。


类似的案例还发生在 eBay、UBS、思科、Caterpillar、AstraZeneca 等企业。Neo4j 所有的图数据科学项目都始于知识图谱,其 67%的客户已经成功地实施了知识图谱。除此之外,Neo4j 的成功也离不开对开发者生态的建设。目前,Neo4j 的社区在全球拥有 25 万名成员,并且多数分布在中国。自 2018 年起,Neo4j 就开始活跃在中国市场,业务足迹遍布北京、上海、广州、深圳,并与业内合作伙伴建立了良好的关系。今年,Neo4j 将在大中华区开展更多的推广活动,提供更加本地化的资料,为社区成员提供更多的培训,帮助其获得 Neo4j 的免费认证。在产品研发上继续加大投入,持续优化产品,使其更加便于使用。


去年 6 月,Neo4j 在 F 轮风险投资中获得 3.25 亿美元的融资,创造了私营数据库公司单笔最高融资纪录,投后估值超过 20 亿美元。除了继续投资图数据平台和数据科学之外,Neo4j 还会重点扩展中国市场,帮助越来越多的中国企业通过图数据平台来挖掘数据的价值。“Neo4j 的企业愿景就是在不同的行业场景,帮助客户深入分析高度关联的复杂数据,使业务数据变为商业智能,提高数据的应用价值,加速企业数字化进程。”Maya Natarajan 说。


用户头像

还未添加个人签名 2022-11-29 加入

还未添加个人简介

评论

发布
暂无评论
图计算的黄金时代 知识图谱背后的数据价值_neo4j_Neo4j 图无处不在_InfoQ写作社区