Python 进阶 (三十九) 使用 matplotlib 进行绘图分析数据
一、前言
matplotlib
是python
最著名的绘图库,它提供了一整套和matlab
相似的命令 API,十分适合交互式地进行制图。而且也可以方便地将它作为绘图控件,嵌入 GUI 应用程序中。
它的文档相当完备,并且 Gallery 页面中有上百幅缩略图,打开之后都有源程序。因此如果你需要绘制某种类型的图,只需要在这个页面中浏览/复制/粘贴一下,基本上都能搞定。
在 Linux 下比较著名的数据图工具还有gnuplot
,这个是免费的,Python
有一个包可以调用gnuplot
,但是语法比较不习惯,而且画图质量不高。
而 Matplotlib
则比较强:Matlab
的语法、python
语言、latex
的画图质量(还可以使用内嵌的latex
引擎绘制的数学公式)。
二、 matplotlib 应用
matplotlib
中的快速绘图的函数库可以通过如下语句载入:
matplotlib
还提供了名为pylab
的模块,其中包括了许多numpy
和pyplot
中常用的函数,方便用户快速进行计算和绘图,可以用于IPython
中的快速交互式使用。
接下来调用figure
创建一个绘图对象,并且使它成为当前的绘图对象。
也可以不创建绘图对象直接调用接下来的 plot 函数直接绘图,matplotlib
会为我们自动创建一个绘图对象。如果需要同时绘制多幅图表的话,可以是给figure
传递一个整数参数指定图标的序号,如果所指定序号的绘图对象已经存在的话,将不创建新的对象,而只是让它成为当前绘图对象。
通过figsize
参数可以指定绘图对象的宽度和高度,单位为英寸;dpi 参数指定绘图对象的分辨率,即每英寸多少个像素,缺省值为 80。因此本例中所创建的图表窗口的宽度为 8*80 = 640 像素。
但是用工具栏中的保存按钮保存下来的 png 图像的大小是 800*400 像素。这是因为保存图表用的函数 savefig 使用不同的 DPI 配置,savefig 函数也有一个 dpi 参数,如果不设置的话,将使用 matplotlib 配置文件中的配置,此配置可以通过如下语句进行查看:
下面的两行程序通过调用plot
函数在当前的绘图对象中进行绘图:
plot
函数的调用方式很灵活,第一句将 x,y 数组传递给 plot 之后,用关键字参数指定各种属性:
label
: 给所绘制的曲线一个名字,此名字在图示(legend)中显示。只要在字符串前后添加 $符号,matplotlib 就会使用其内嵌的 latex 引擎绘制的数学公式。
color
: 指定曲线的颜色;
linewidth
: 指定曲线的宽度;
第一句直接通过第三个参数 b--指定曲线的颜色和线型,这个参数称为格式化参数,它能够通过一些易记的符号快速指定曲线的样式。其中 b 表示蓝色,--表示线型为虚线。
在IPython
中输入 plt.plot?
可以查看格式化字符串的详细配置。
接下来通过一系列函数设置绘图对象的各个属性:
xlabel
: 设置 X 轴的文字
ylabel
: 设置 Y 轴的文字
title
: 设置图表的标题
ylim
: 设置 Y 轴的范围
legend
: 显示图示
最后调用plt.show()
显示出我们创建的所有绘图对象。
三、配置属性
matplotlib
所绘制的图的每个组成部分都对应有一个对象,我们可以通过调用这些对象的属性设置方法set_*
或者pyplot
的属性设置函数 setp 设置其属性值。例如 plot 函数返回一个 matplotlib.lines.Line2D 对象的列表,下面的例子显示如何设置Line2D
对象的属性:
这段例子中,通过调用 Line2D 对象 line 的set_antialiased
方法,关闭对象的反锯齿效果。或者通过调用plt.setp
函数配置多个 Line2D 对象的颜色和线宽属性。
同样我们可以通过调用 Line2D 对象的 get_*方法,或者 plt.getp 函数获取对象的属性值:
注意 getp 函数只能对一个对象进行操作,它有两种用法:
指定属性名:返回对象的指定属性的值
不指定属性名:打印出对象的所有属性和其值
matplotlib
整个图表为一个Figure
对象,此对象在调用plt.figure
函数时返回,也可以通过plt.gcf
函数获取当前的绘图对象:
Figure
对象有一个 axes 属性,其值为AxesSubplot
对象的列表,每个AxesSubplot
对象代表图表中的一个子图,前面所绘制的图表只包含一个子图,当前子图也可以通过 plt.gca 获得:
用plt.getp
可以发现AxesSubplot
对象有很多属性,例如它的 lines 属性为此子图所包括的 Line2D 对象列表:
通过这种方法我们可以很容易地查看对象的属性和它们之间的包含关系,找到需要配置的属性。
四、配置文件
绘制一幅图需要对许多对象的属性进行配置,例如颜色、字体、线型等等。我们在绘图时,并没有逐一对这些属性进行配置,许多都直接采用了 matplotlib 的缺省配置。
matplotlib
将这些缺省配置保存在一个名为“matplotlibrc”的配置文件中,通过修改配置文件,我们可以修改图表的缺省样式。配置文件的读入可以使用 rc_params(),它返回一个配置字典;在 matplotlib 模块载入时会调用 rc_params(),并把得到的配置字典保存到 rcParams 变量中;matplotlib 将使用 rcParams 字典中的配置进行绘图;用户可以直接修改此字典中的配置,所做的改变会反映到此后创建的绘图元素。
五、绘制多子图(快速绘图)
Matplotlib
里的常用类的包含关系为 Figure -> Axes -> (Line2D, Text, etc.)
一个Figure
对象可以包含多个子图(Axes),在matplotlib
中用 Axes 对象表示一个绘图区域,可以理解为子图。
可以使用subplot()
快速绘制包含多个子图的图表,它的调用形式如下:
subplot 将整个绘图区域等分为 numRows 行* numCols 列个子区域,然后按照从左到右,从上到下的顺序对每个子区域进行编号,左上的子区域的编号为 1。如果 numRows,numCols 和 plotNum 这三个数都小于 10 的话,可以把它们缩写为一个整数,例如 subplot(323)和 subplot(3,2,3)是相同的。subplot 在 plotNum 指定的区域中创建一个轴对象。如果新创建的轴和之前创建的轴重叠的话,之前的轴将被删除。
subplot()返回它所创建的 Axes 对象,我们可以将它用变量保存起来,然后用 sca()交替让它们成为当前 Axes 对象,并调用 plot()在其中绘图。
六、绘制多图表(快速绘图)
如果需要同时绘制多幅图表,可以给 figure()传递一个整数参数指定 Figure 对象的序号,如果序号所指定的 Figure 对象已经存在,将不创建新的对象,而只是让它成为当前的 Figure 对象。
七、在图表中显示中文
matplotlib
的缺省配置文件中所使用的字体无法正确显示中文。为了让图表能正确显示中文,可以有几种解决方案。
在程序中直接指定字体。
在程序开头修改配置字典 rcParams。
修改配置文件。
比较简便的方式是,中文字符串用 unicode 格式,例如:u''测试中文显示'',代码文件编码使用 utf-8 加上 # coding = utf-8。
但以上方法只是解决了标题部分显示中文的问题,并未解决图例中文显示的问题。可采用修改配置字典的方式设置图例显示中文,代码如下:
配置好配置字典之后即可实现图例显示中文。
matplotlib
API 包含有三层,Artist 层处理所有的高层结构,例如处理图表、文字和曲线等的绘制和布局。通常我们只和 Artist 打交道,而不需要关心底层的绘制细节。
直接使用 Artists 创建图表的标准流程如下:
创建 Figure 对象
用 Figure 对象创建一个或者多个 Axes 或者 Subplot 对象
调用 Axies 等对象的方法创建各种简单类型的 Artists
matplotlib 还提供了一个名为 pylab 的模块,其中包括了许多 NumPy 和 pyplot 模块中常用的函数,方便用户快速进行计算和绘图,十分适合在 IPython 交互式环境中使用。这里使用下面的方式载入 pylab 模块:
7.1 折线图 Line plots(关联一组 x 和 y 值的直线)
7.2 散点图 Scatter plots
把pl.plot(x, y)
改成pl.plot(x, y, 'o')
即可。线条颜色 红色:把pl.plot(x, y, 'o')
改成pl.plot(x, y, ’or’)
线条样式 虚线:plot(x,y, '--')
蓝色星型markers:plot(x,y, ’b*’)
7.3 图和轴标题以及轴坐标限度 Plot and axis titles and limits
7.4 在一个坐标系上绘制多个图 Plotting more than one plot on the same set of axes
做法是很直接的,依次作图即可:
7.5 图例 Figure legends
pl.legend((plot1, plot2), (’label1, label2’), 'best’, numpoints=1)
其中第三个参数表示图例放置的位置:'best’‘upper right’, ‘upper left’, ‘center’, ‘lower left’, ‘lower right’
如果在当前figure
里 plot 的时候已经指定了 label,如plt.plot(x,z,label=cos(x2))
,直接调用 plt.legend()就可以了哦。
7.6 直方图 Histograms
如果不想要黑色轮廓可以改为 pl.hist(data, histtype=’stepfilled’)
7.7 自定义直方图 bin 宽度 Setting the width of the histogram bins manually
增加这两行
7.8 从 Ascii 文件中读取数据 Reading data from ascii files
读取文件的方法很多,这里只介绍一种简单的方法,更多的可以参考官方文档和 NumPy 快速处理数据(文件存取)。
numpy 的 loadtxt 方法可以直接读取如下文本数据到 numpy 二维数组
7.9 写入数据到文件 Writing data to a text file
写文件的方法也很多,这里只介绍一种可用的写入文本文件的方法,更多的可以参考官方文档。
八、对 LaTeX 数学公式的支持
Matlplotlib
对 LaTeX 有一定的支持,如果记得使用 raw 字符串语法会很自然:xlabel(rx2y4)
在 matplotlib 里面,可以使用 LaTex 的命令来编辑公式,只需要在字符串前面加一个“r”即可
这里给大家看一个简单的例子。
再看一个《用 Python 做科学计算》中的简单例子,下面的两行程序通过调用 plot 函数在当前的绘图对象中进行绘图:
8.1 matplotlib.rcParams 属性字典
想要它正常工作,在 matplotlibrc 配置文件中需要设置 text.markup = tex。
如果希望图表中所有的文字(包括坐标轴刻度标记)都是 LaTeX,需要在 matplotlibrc 中设置 text.usetex = True。如果你使用 LaTeX 撰写论文,那么这一点对于使图表和论文中其余部分保持一致是很有用的。
九、matplotlib 使用小结
在实际中,我们可能经常会用到对数坐标轴,这时可以用下面的三个函数来实现。
ax.semilogx(x,y)
#x 轴为对数坐标轴ax.semilogy(x,y)
#y 轴为对数坐标轴ax.loglog(x,y)
#双对数坐标轴
版权声明: 本文为 InfoQ 作者【No Silver Bullet】的原创文章。
原文链接:【http://xie.infoq.cn/article/e8252bbbaf1aee465d37b70ac】。文章转载请联系作者。
评论