写点什么

恒源云 _opencv(论文笔记)

作者:恒源云
  • 2021 年 12 月 03 日
  • 本文字数:5223 字

    阅读完需:约 17 分钟

恒源云_opencv(论文笔记)

文章来源 | 恒源云社区


原文地址 | opencv


原文作者 | instter




不逛不知道,一逛有惊喜!哈哈哈哈哈,随手一翻,就看见一位版主在社区发的新论文笔记,开屏就是颜值暴击啊啊啊,就冲着这份暴击,我也得不辞辛苦的搬运出来给大家伙瞅一瞅,接下来,和小编一起欣赏精彩内容吧!

正文开始

一、opencv 简介

1 图像的起源

1.1 图像是什么

图像是人类视觉的基础,是自然景物的客观反映,是人类认识世界和人类本身的重要源泉。“图”是物体反射或透射光的分布,“像“是人的视觉系统所接受的图在人脑中所形版的印象或认识,照片、绘画、剪贴画、地图、书法作品、手写汉学、传真、卫星云图、影视画面、X 光片、脑电图、心电图等都是图像。—姚敏. 数字图像处理:机械工业出版社,2014 年。

1.2 模拟图像和数字图像

图像起源于 1826 年前后法国科学家 Joseph Nicéphore Niépce 发明的第一张可永久保存的照片,属于模拟图像。==模拟图像又称连续图像==,它通过某种物理量(如光、电等)的强弱变化来记录图像亮度信息,所以是连续变换的。模拟信号的特点是**容易受干扰,**如今已经基本全面被数字图像替代。


在第一次世界大战后,1921 年美国科学家发明了 Bartlane System,并从伦敦传到纽约传输了第一幅数字图像,==其亮度用离散数值表示==,将图片编码成 5 个灰度级,如下图所示,通过海底电缆进行传输。在发送端图片被编码并使用打孔带记录,通过系统传输后在接收方使用特殊的打印机恢复成图像。1950 年左右,计算机被发明,数字图像处理学科正式诞生。



模拟图像和数字图像的对比,我们可以看一下:


2 数字图像的表示

2.1 位数

计算机采用 0/1 编码的系统,数字图像也是利用 0/1 来记录信息,我们平常接触的图像都是 8 位数图像,包含 0~255 灰度,其中 0,代表最黑,1,表示最白。



人眼对灰度更敏感一些,在 16 位到 32 位之间。


2.2 图像的分类

二值图像:一幅二值图像的二维矩阵仅由 0、1 两个值构成,“0”代表黑色,“1”代白色。由于每一像素(矩阵中每一元素)取值仅有 0、1 两种可能,所以计算机中二值图像的数据类型通常为 1 个二进制位。二值图像通常用于文字、线条图的扫描识别(OCR)和掩膜图像的存储。


灰度图:每个像素只有一个采样颜色的图像,这类图像通常显示为从最暗黑色到最亮的白色的灰度,尽管理论上这个采样可以任何颜色的不同深浅,甚至可以是不同亮度上的不同颜色。灰度图像与黑白图像不同,在计算机图像领域中黑白图像只有黑色与白色两种颜色;但是,灰度图像在黑色与白色之间还有许多级的颜色深度。灰度图像经常是在单个电磁波频谱如可见光内测量每个像素的亮度得到的,用于显示的灰度图像通常用每个采样像素 8 位的非线性尺度来保存,这样可以有 256 级灰度(如果用 16 位,则有 65536 级)。


彩色图:每个像素通常是由红(R)、绿(G)、蓝(B)三个分量来表示的,分量介于(0,255)。RGB 图像与索引图像一样都可以用来表示彩色图像。与索引图像一样,它分别用红(R)、绿(G)、蓝(B)三原色的组合来表示每个像素的颜色。但与索引图像不同的是,RGB 图像每一个像素的颜色值(由 RGB 三原色表示)直接存放在图像矩阵中,由于每一像素的颜色需由 R、G、B 三个分量来表示,M、N 分别表示图像的行列数,三个 M x N 的二维矩阵分别表示各个像素的 R、G、B 三个颜色分量。RGB 图像的数据类型一般为 8 位无符号整形,通常用于表示和存放真彩色图像。

3 OPENCV-PYTHON

OpenCV-Python 是一个 Python 绑定库,旨在解决计算机视觉问题。


Python 是一种由 Guido van Rossum 开发的通用编程语言,它很快就变得非常流行,主要是因为它的简单性和代码可读性。它使程序员能够用更少的代码行表达思想,而不会降低可读性。


与 C / C++等语言相比,Python 速度较慢。也就是说,Python 可以使用 C / C++轻松扩展,这使我们可以在 C / C++中编写计算密集型代码,并创建可用作 Python 模块的 Python 包装器。这给我们带来了两个好处:首先,代码与原始 C / C++代码一样快(因为它是在后台工作的实际 C++代码),其次,在 Python 中编写代码比使用 C / C++更容易。OpenCV-Python 是原始 OpenCV C++实现的 Python 包装器。


OpenCV-Python 使用 Numpy,这是一个高度优化的数据库操作库,具有 MATLAB 风格的语法。所有 OpenCV 数组结构都转换为 Numpy 数组。这也使得与使用 Numpy 的其他库(如 SciPy 和 Matplotlib)集成更容易。

3.1 OpenCV 部署方法

安装 OpenCV 之前需要先安装 numpy, matplotlib。


创建 Python 虚拟环境 cv, 在 cv 中安装即可。


先安装 OpenCV-Python, 由于一些经典的算法被申请了版权,新版本有很大的限制,所以选用 3.4.3 以下的版本


pip install opencv-python==3.4.2.17
复制代码


现在可以测试下是否安装成功,运行以下代码无报错则说明安装成功。


import cv2# 读一个图片并进行显示(图片路径需自己指定)lena=cv2.imread("1.jpg")cv2.imshow("image",lena)cv2.waitKey(0)
复制代码


如果我们要利用 SIFT 和 SURF 等进行特征提取时,还需要安装:


pip install opencv-contrib-python==3.4.2.17
复制代码
3.2 OPENCV 的模块

下图列出了 OpenCV 中包含的各个模块:



其中core、highgui、imgproc是最基础的模块,该课程主要是围绕这几个模块展开的,分别介绍如下:


  • core 模块实现了最核心的数据结构及其基本运算,如绘图函数、数组操作相关函数等。

  • highgui 模块实现了视频与图像的读取、显示、存储等接口。

  • imgproc 模块实现了图像处理的基础方法,包括图像滤波、图像的几何变换、平滑、阈值分割、形态学处理、边缘检测、目标检测、运动分析和对象跟踪等。


对于图像处理其他更高层次的方向及应用,OpenCV也有相关的模块实现


  • features2d 模块用于提取图像特征以及特征匹配,nonfree 模块实现了一些专利算法,如 sift 特征。

  • objdetect 模块实现了一些目标检测的功能,经典的基于 Haar、LBP 特征的人脸检测,基于 HOG 的行人、汽车等目标检测,分类器使用 Cascade Classification(级联分类)和 Latent SVM 等。

  • stitching 模块实现了图像拼接功能。

  • FLANN 模块(Fast Library for Approximate Nearest Neighbors),包含快速近似最近邻搜索 FLANN 和聚类 Clustering 算法。

  • ml 模块机器学习模块(SVM,决策树,Boosting 等等)。

  • photo 模块包含图像修复和图像去噪两部分。

  • video 模块针对视频处理,如背景分离,前景检测、对象跟踪等。

  • calib3d 模块即 Calibration(校准)3D,这个模块主要是相机校准和三维重建相关的内容。包含了基本的多视角几何算法,单个立体摄像头标定,物体姿态估计,立体相似性算法,3D 信息的重建等等。

  • G-API 模块包含超高效的图像处理 pipeline 引擎

二、opencv 基本操作

1 图像的 IO 操作

这里我们会给大家介绍如何读取图像,如何显示图像和如何保存图像。

1.1 读取图像

API


cv.imread()
复制代码


参数:


  • 要读取的图像

  • 读取方式的标志

  • 1⃣️ cv.IMREAD*COLOR:以彩色模式加载图像,任何图像的透明度都将被忽略。这是默认参数。

  • 2⃣️ cv.IMREAD*GRAYSCALE:以灰度模式加载图像

  • 3⃣️ cv.IMREAD_UNCHANGED:包括 alpha 通道的加载图像模式。

  • 可以使用 1、0 或者-1 来替代上面三个标志

  • 参考代码


import numpy as npimport cv2 as cv# 以灰度图的形式读取图像img = cv.imread('messi5.jpg',0)
复制代码
1.2 显示图像

API


cv.imshow()
复制代码


参数:


  • 显示图像的窗口名称,以字符串类型表示

  • 要加载的图像注意:在调用显示图像的 API 后,要调用 cv.waitKey()给图像绘制留下时间,否则窗口会出现无响应情况,并且图像无法显示出来。另外我们也可使用 matplotlib 对图像进行展示。

  • 参考代码


# opencv中显示cv.imshow('image',img)cv.waitKey(0)# matplotlib中展示plt.imshow(img[:,:,::-1])
复制代码
1.3 保存图像

API


cv.imwrite()
复制代码


参数:


  • 文件名,要保存在哪里

  • 要保存的图像


参考代码:


cv.imwrite('messigray.png',img)
复制代码
1.4 总结

我们通过加载灰度图像,显示图像,如果按’s’并退出则保存图像,或者按 ESC 键直接退出而不保存。


import numpy as npimport cv2 as cvimport matplotlib.pyplot as plt# 1 读取图像img = cv.imread('messi5.jpg',0)# 2 显示图像# 2.1 利用opencv展示图像cv.imshow('image',img)# 2.2 在matplotplotlib中展示图像plt.imshow(img[:,:,::-1])plt.title('匹配结果'), plt.xticks([]), plt.yticks([])plt.show()k = cv.waitKey(0)# 3 保存图像cv.imwrite('messigray.png',img)
复制代码

2 绘制几何图形

2.1 绘制直线
cv.line(img,start,end,color,thickness)
复制代码


参数:


  • 列 img:要绘制直线的图像

  • 列 Start,end: 直线的起点和终点

  • 列 color: 线条的颜色

  • 列 Thickness: 线条宽度

2.2 绘制圆形
cv.circle(img,centerpoint, r, color, thickness)
复制代码


参数:


  • img:要绘制圆形的图像

  • Centerpoint, r: 圆心和半径

  • color: 线条的颜色

  • Thickness: 线条宽度,为-1 时生成闭合图案并填充颜色

2.3 绘制矩形
cv.rectangle(img,leftupper,rightdown,color,thickness)
复制代码


参数:


  • img:要绘制矩形的图像

  • Leftupper, rightdown: 矩形的左上角和右下角坐标

  • color: 线条的颜色

  • Thickness: 线条宽度

2.4 向图像中添加文字
cv.putText(img,text,station, font, fontsize,color,thickness,cv.LINE_AA)
复制代码


参数:


  • img: 图像

  • text:要写入的文本数据

  • station:文本的放置位置

  • font:字体

  • Fontsize :字体大小

2.5 效果展示

我们生成一个全黑的图像,然后在里面绘制图像并添加文字


import numpy as npimport cv2 as cvimport matplotlib.pyplot as plt# 1 创建一个空白的图像img = np.zeros((512,512,3), np.uint8)# 2 绘制图形cv.line(img,(0,0),(511,511),(255,0,0),5)cv.rectangle(img,(384,0),(510,128),(0,255,0),3)cv.circle(img,(447,63), 63, (0,0,255), -1)font = cv.FONT_HERSHEY_SIMPLEXcv.putText(img,'OpenCV',(10,500), font, 4,(255,255,255),2,cv.LINE_AA)# 3 图像展示plt.imshow(img[:,:,::-1])plt.title('匹配结果'), plt.xticks([]), plt.yticks([])plt.show()
复制代码


结果:


3 获取并修改图像中的像素点

我们可以通过行和列的坐标值获取该像素点的像素值。对于BGR图像,它返回一个蓝,绿,红值的数组。对于灰度图像,仅返回相应的强度值。使用相同的方法对像素值进行修改。


import numpy as npimport cv2 as cvimg = cv.imread('messi5.jpg')# 获取某个像素点的值px = img[100,100]# 仅获取蓝色通道的强度值blue = img[100,100,0]# 修改某个位置的像素值img[100,100] = [255,255,255]
复制代码

4 获取图像的属性

图像属性包括行数,列数和通道数,图像数据类型,像素数等。


5 图像通道的拆分与合并

有时需要在 B,G,R 通道图像上单独工作。在这种情况下,需要将 BGR 图像分割为单个通道。或者在其他情况下,可能需要将这些单独的通道合并到 BGR 图像。你可以通过以下方式完成。


# 通道拆分b,g,r = cv.split(img)# 通道合并img = cv.merge((b,g,r))
复制代码
6 色彩空间的改变

OpenCV 中有 150 多种颜色空间转换方法。最广泛使用的转换方法有两种,BGR<=>Gray 和 BGR<=>HSV。


cv.cvtColor(input_image,flag)
复制代码


参数:


  • input_image: 进行颜色空间转换的图像

  • flag: 转换类型

  • 1⃣️ cv.COLOR_BGR2GRAY : BGR<=>Gray

  • 2⃣️ cv.COLOR_BGR2HSV: BGR→HSV

三、算术操作

1.图像的加法

你可以使用 OpenCV 的cv.add()函数把两幅图像相加,或者可以简单地通过numpy操作添加两个图像,如res = img1 + img2。两个图像应该具有相同的大小和类型,或者第二个图像可以是标量值。


注意:OpenCV 加法和 Numpy 加法之间存在差异。OpenCV 的加法是饱和操作,而 Numpy 添加是模运算。


参考以下代码:


>>> x = np.uint8([250])>>> y = np.uint8([10])>>> print( cv.add(x,y) ) # 250+10 = 260 => 255[[255]]>>> print( x+y )          # 250+10 = 260 % 256 = 4[4]
复制代码


这种差别在你对两幅图像进行加法时会更加明显。OpenCV 的结果会更好一点。所以我们尽量使用 OpenCV 中的函数。


我们将下面两幅图像:



import numpy as npimport cv2 as cvimport matplotlib.pyplot as plt
# 1 读取图像img1 = cv.imread("view.jpg")img2 = cv.imread("rain.jpg")
# 2 加法操作img3 = cv.add(img1,img2) # cv中的加法img4 = img1+img2 # 直接相加
# 3 图像显示fig,axes=plt.subplots(nrows=1,ncols=2,figsize=(10,8),dpi=100)axes[0].imshow(img3[:,:,::-1])axes[0].set_title("cv中的加法")axes[1].imshow(img4[:,:,::-1])axes[1].set_title("直接相加")plt.show()
复制代码


结果


2.图像的混合

这其实也是加法,但是不同的是两幅图像的权重不同,这就会给人一种混合或者透明的感觉。图像混合的计算公式如下:


通过修改 α 的值(0 → 1),可以实现非常炫酷的混合。


现在我们把两幅图混合在一起。第一幅图的权重是 0.7,第二幅图的权重是 0.3。函数cv2.addWeighted()可以按下面的公式对图片进行混合操作。


这里γ取为零。参考以下代码:


import numpy as npimport cv2 as cvimport matplotlib.pyplot as plt
# 1 读取图像img1 = cv.imread("view.jpg")img2 = cv.imread("rain.jpg")
# 2 图像混合img3 = cv.addWeighted(img1,0.7,img2,0.3,0)
# 3 图像显示plt.figure(figsize=(8,8))plt.imshow(img3[:,:,::-1])plt.show()
复制代码



用户头像

恒源云

关注

专注人工智能云GPU服务器训练平台 2020.12.25 加入

还未添加个人简介

评论

发布
暂无评论
恒源云_opencv(论文笔记)