写点什么

六个探索性数据分析 (EDA) 工具,太实用了!

作者:这我可不懂
  • 2023-12-22
    福建
  • 本文字数:1597 字

    阅读完需:约 5 分钟

当进行数据分析时,探索性数据分析(EDA)是一个至关重要的阶段,它能帮助我们从数据中发现模式、趋势和异常现象。而选择合适的 EDA 工具又能够极大地提高工作效率和分析深度。在本文中,笔者将介绍 6 个极其实用的探索性数据分析(EDA)工具,这些工具能够帮助您更好地理解数据、发现隐藏的信息,并为后续分析和决策提供有力支持。让我们一起来看看这些工具是如何帮助我们探索数据世界的吧!


1. SweetViz

SweetViz 是一个开源的 Python 库,可以通过仅两行代码生成美观且高密度的可视化图表,以便快速进行探索性数据分析(EDA)。其输出是一个完全独立的 HTML 应用程序。


其设计初衷是快速可视化目标数值并比较数据集,帮助快速分析目标特征、训练数据与测试数据之间的差异,以及数据集的结构、特征之间的关系、数据的分布情况等,从而加速数据分析的过程。



下面是一个简单的示例,演示如何使用 SweetViz 进行数据探索性分析:


import pandas as pdimport sweetviz as svimport numpy as np
data = pd.DataFrame({'随机数': np.random.randint(1, 100, 100)})
# 创建SweetViz 报告report = sv.analyze(data)
# 将报告保存为HTML文件report.show_html('random_report.html')
复制代码

2. ydata-profiling

ydata-profiling 是一个用于数据探查和分析的 Python 库,可以帮助用户快速了解和分析数据集的内容。通过使用 ydata-profiling,用户可以生成关于数据集中各种变量的统计信息、分布情况、缺失值、相关性等方面的报告。这可以帮助用户在数据分析阶段更快地了解数据集的特征,从而更好地进行后续的数据处理和建模工作。



以下是一个简单的示例代码,展示了如何使用 ydata-profiling 对数据集进行分析:


import pandas as pdfrom ydata_profiling import ProfileReport
df = pd.read_csv('data.csv')profile = ProfileReport(df, title="Profiling Report")
复制代码

3. DataPrep

Dataprep 是一个用于分析、准备和处理数据的开源 Python 包。DataPrep 构建在 Pandas 和 Dask DataFrame 之上,可以很容易地与其他 Python 库集成。



下面是一个简单的示例,演示如何使用 DataPrep 进行数据探索性分析:


from dataprep.datasets import load_datasetfrom dataprep.eda import create_report
df = load_dataset("titanic.csv")create_report(df).show_browser()
复制代码

4. AutoViz

Autoviz 包可以用一行代码自动可视化任何大小的数据集,并自动生成 HTML、bokeh 等报告。用户可以与 AutoViz 包生成的 HTML 报告进行交互。



以下是一个简单的示例代码,展示了如何使用 AutoViz:


from autoviz.AutoViz_Class import AutoViz_Class
AV = AutoViz_Class()filename = "" # 如果有文件名,可以在这里指定sep = "," # 数据集的分隔符dft = AV.AutoViz( filename, sep=",", depVar="", dfte=None, header=0, verbose=0, lowess=False, chart_format="svg", max_cols_analyzed=30, max_rows_analyzed=150000, )
复制代码

5. D-Tale

D-Tale 是一个结合了 Flask 后端和 React 前端的工具,为用户提供了一种轻松查看和分析 Pandas 数据结构的方式。它与 Jupyter 笔记本和 Python/IPython 终端完美集成。目前,该工具支持 Pandas 的数据结构,包括 DataFrame、Series、MultiIndex、DatetimeIndex 和 RangeIndex。用户可以通过 D-Tale 在浏览器中直观地查看数据、生成统计信息、创建可视化图表,并进行一些数据处理操作。D-Tale 的结构使得数据分析变得更加直观和便捷,为用户提供了一种高效的数据探索和分析工具。


6. Dabl

Dabl 不太关注单个列的统计度量,而是更多地关注通过可视化提供快速概述,以及方便的机器学习预处理和模型搜索。Dabl 中的 Plot()函数可以通过绘制各种图来实现可视化,包括:

  • 目标分布图

  • 散射对图

  • 线性判别分析



以下是一个简单的示例代码,展示了如何使用 Dabl:


import pandas as pdimport dabl
df = pd.read_csv("titanic.csv")dabl.plot(df, target_col="Survived")
复制代码


发布于: 刚刚阅读数: 5
用户头像

低代码技术追随者,为全民开发而努力 2023-02-15 加入

大家好,我是老王,专注于分享低代码图文知识,感兴趣的伙伴就请关注我吧!

评论

发布
暂无评论
六个探索性数据分析(EDA)工具,太实用了!_数据分析_这我可不懂_InfoQ写作社区