写点什么

图数据科学和机器学习图数据科学 GDS 概览

作者:flow
  • 2022 年 8 月 08 日
  • 本文字数:1305 字

    阅读完需:约 4 分钟

Neo4j 于上个月最新发布了图数据科学库(Graph Data Science) 1.6 版本,此版本专注于降低将图数据科学的分析结果投入实际应用的阻力。 具体地说,该版本改进了机器学习程序,增强了图嵌入,并添加了“标度”(scaling)函数和对内存中的分析图进行过滤等新功能。



作为回馈给技术社区的特性:

社区版 GDS 用户现在可以在 Neo4j 中训练和存储多达 3 个 ML 模型啦!



下面我们来看看此版本的细节。

我们的社区版中训练和存储更多模型的功能有望使该库对许多刚刚入门的用户更有用。在 1.4 版本 GDS 中我们引入了基于 GraphSAGE 训练模型的构想,并通过添加节点分类链接预测来扩展更多的功能。

在这里,要感谢咱们的社区成员为我们测试新功能、向我们提供反馈并帮助我们构建更好的产品。 有了训练更多模型的能力,您将更容易使用我们的监督式机器学习功能:训练和比较不同的模型和参数组合,识别有价值的特征,并使用 GDS 快速的找到数据中潜藏的价值。

此版本中的其他重要功能也同样为了让您使用 Neo4j 开展数据科学工作的体验更简便:

标度化和标准化属性

我们添加了一个新的标度化属性过程来转换和缩放节点属性,因此您不必在训练模型之前写回到数据库并使用昂贵的 Cypher 查询去规范化数据。 我们现在支持 min-max、max、mean、log、标准分数、L1 和 L2 范数标度器。

图过滤/子图投影

自我们的第一个版本发布以来,这一直是呼声最大的功能之一,它可以让您通过过滤节点或关系属性来从内存图中创建子图。这个功能不仅使您可以运行社区检测算法并将每个社区拆分成新的内存图,然后单独运行每个子社区的嵌入;您还可以通过它计算度中心性并创建一个新图,过滤掉度最高的节点以提高性能。

改进的图嵌入

Node2Vec 算法过程在此版本中升级到 beta 层,速度有显著提高(在我们的测试中速度提高了 80%!),现在支持加权图、种子(为了可重复性)和更新(Mutate)模式,因此可以 node2vec 结果来更新内存图并持续工作。同时我们还在 FastRP 中添加了种子,并提高了 graphSage 的准确性。

更好的监督式机器学习管道

我们在 1.5 版本的 GDS 中引入了 NodeClassifications 和 LinkPrediction,在此版本中,我们又添加了对模型的保存、发布和恢复训练功能(仅限企业版),以及资源估计功能,并支持流和写入模式,同时还有新的模型性能指标。

 

管理能力

对于我们的企业用户,我们添加了管理员查看、使用和删除任何用户的内存图和模型的功能。 这些功能支持 MLOps 任务,并允许管理员管理有多个用户访问的系统上的资源,而无需登录他们的帐户。

 

最后我们想强调的是在此版本中我们增加了两种新的关于影响力最大化的中心性算法。 这些算法旨在识别可能触发图中级联变化的节点。 例如,您将针对谁进行营销活动? 或者,在疾病爆发的情况下,谁是最需要隔离或治疗的人?

 

上面的算法是由我们的社区成员 @xkitsios 贡献的。 他实现了两种不同的方法(Greedy 和 CELF)来识别图中的 k 个最有影响力的节点,我们很高兴能够在我们的最新版本中包含他的代码。

 

还有很多我没有提到的,您可以随时查看我们的发行说明。还是像往常一样,请通过在我们的社区论坛上发帖或向我们提问,让我们知道您的想法。

现在就下载并开始使用 Neo4j GDS 图数据科学库吧!

 

发布于: 刚刚阅读数: 3
用户头像

flow

关注

还未添加个人签名 2022.07.13 加入

还未添加个人简介

评论

发布
暂无评论
图数据科学和机器学习图数据科学GDS概览_8月月更_flow_InfoQ写作社区