数据挖掘从入门到放弃(五)seaborn 的数据可视化
数据可视化可以让我们很直观的发现数据中隐藏的规律,察觉到变量之间的互动关系,帮助我们更好地解释现象和发现数据价值,做到一图胜千文的说明效果。
python 数据分析的可视化库有:
matplotlib 是可视化的必备技能库,比较底层,api 很多,学起来不太容易。
seaborn 是建构于 matplotlib 基础上,能满足绝大多数可视化需求。
matplotlib 和 seabron 是静态可视化库,pyecharts 有很好的 web 兼容性,可以进行可视化动态效果。
seaborn 是一个面向对象可视化库,本次使用 seaborn 自带的 tips(餐厅小费)数据集进行数据的分布探索,在遇到新的数据集合时候,分析问题不至于无从下手;
Seaborn 通过 sns.set()方法实现主题风格更改,可以设置 5 种风格的图表背景:darkgrid, whitegrid, dark, white, ticks,通过参数 style 设置,默认情况下为 darkgrid 风格:
1、分布图(连续性变量):distplot()
2、数量统计图(离散变量):countplot()
3、两个变量的散点图:scatterplot()
4、根据属性值域绘制散点图:relplot()
5、两个变量的联合分布图 jointplot()
6、箱线图:boxplot()
7、不重叠散点图:swarmplot()
8、有个变量属性的重叠散点图:stripplot()
9、小提琴图跟 boxplot()用途一样
10、绘制条件关系的多图网格:FacetGrid()
11、barplot()函数
若输出的值域是离散值,我们可以将其转换成 1/0 的连续性,然后看特征属性的贡献度;
一般掌握以上的绘图方法就能够确保够用,主要是熟能生巧,能够快速找到数据之间的关系,筛选有价值的数据字段,快速完成特征工程。
版权声明: 本文为 InfoQ 作者【数据社】的原创文章。
原文链接:【http://xie.infoq.cn/article/b85b0d6a5809a486653368748】。文章转载请联系作者。
评论