图分析入门
1. 什么是图
近几年,全球大数据进入了加速发展时期,数据量呈指数级增长。大数据中不同个体间的关联关系产生的数据以图的形式呈现。这里的图是针对数学中的“图论”而言,主要是由点和边组成的数据结构。顶点相当于树中的节点。顶点之间的关联关系,被称之为边。例如:坐在办公室的三个人,这三个人就是三个点。三个人之间的关系称之为边,如:同事关系,师妹关系,项目合作关系等等。
2. 什么是图分析
图分析使用基于图的方法来分析连接的数据。我们可以:查询图数据,使用基本统计信息,可视化地探索图、展示图,或者将图信息预处理后合并到机器学习任务中。图的查询通常用于局部数据分析,而图计算通常涉及整张图和迭代分析。
3. 图分析常见的应用场景
3.1 社交网络分析
社交网络是十分常见的一类图数据,代表着各种个人或组织之间的社会关系,而图数据能够呈现复杂的社交网络关系,进而易于用户进行进一步的分析。例如,在一个典型的社交网络中,常常会存在“谁认识谁,谁上过什么学校,谁常住什么地方”,Facebook,Twitter,Linkedin 用它来管理社交关系,实现好友推荐。
3.2 电子购物应用
电子购物是互联网中的一类核心业务,在这类场景中,节点分为两类:用户和商品,存在的关系有浏览、收藏、购买等。用户与商品之间可以存在多重关系,如既存在收藏关系也存在购买关系。这类复杂的数据场景可以用属性图轻松描述。电子购物催生了一项大家熟知的技术应用—推荐系统。用户与商品之间的交互关系,反映了用户的购物偏好。例如,经典的啤酒与尿布的故事:爱买啤酒的人通常也更爱买尿布。
3.3 交通网络应用
交通网络具有多种形式,比如地铁网络中将各个站点作为节点,站点之间的连通性作为边。通常在交通网络中我们比较关注的是路径规划相关的问题:比如最短路径问题,再如我们将车流量作为网络中节点的属性,去预测未来交通流量的变化情况。
4. 图分析的优点
一般来说,关系分析通过一对一甚至一对多的比较来研究关系,而图分析也可以比较多对多的关系。关系数据库由严格的模式组成,因为很难向它们添加新的数据关系,因此,关系分析最适用于按表和列排序的结构化且不变的数据。而图分析由图数据库而不是关系数据库提供支持,在图形数据库中可以相对轻松地添加数据和数据关系,这可以为图分析在数据组织中节省更多时间,花费更少的精力合并数据源和点。
此外,与大多数其他数据分析工具和模型相比,图形在视觉上更有吸引力且更易于理解。它还可以找到间接关系,并可以将大量复杂的数据凝聚在一起,可以提高预测和决策的准确性,给人们提供更深入的见解。
5. 图分析常用的工具有哪些
图数据库:一些流行的图形数据库包括 - ArangoDB、Amazon Neptune、Neo4j、Orient DB、Dgraph、FlockDB。
图分析平台包括:TigerGraph,这是一个企业级图分析平台。BigGraph,这是来自阿里的大规模在线图分析平台。
图计算引擎包括:GraphX、Giraph、GraphScope。大家一般对 GraphX 和 Giraph 比较熟悉,Graph Scope 是由阿里巴巴的达摩院研究的一个一站式大规模图计算系统。在下一篇文章中会详细介绍这些图数据相关的工具。
评论