ROS 机器视觉入门：从基础到人脸识别与目标检测

2024-11-18
四川
本文字数：5418 字
阅读完需：约 18 分钟

前言

从本文开始，我们将开始学习 ROS 机器视觉处理，刚开始先学习一部分外围的知识，为后续的人脸识别、目标跟踪和 YOLOV5 目标检测做准备工作。我采用的笔记本是联想拯救者游戏本，系统采用 Ubuntu20.04，ROS 采用 noetic。

颜色编码格式，图像格式和视频压缩格式

（1）RGB 和 BGR：这是两种常见的颜色编码格式，分别代表了红、绿、蓝三原色。不同之处在于，RGB 按照红、绿、蓝的顺序存储颜色信息，而 BGR 按照蓝、绿、红的顺序存储。

rgb8图像格式：常用于显示系统，如电视和计算机屏幕。	RGB值以8 bits表示每种颜色，总共可以表示256×256×256=16777216种颜色。	例如： (255,0,0) 表示红色，(0,255,0) 表示绿色，(0,0,255) 表示蓝色。bgr8图像格式：由一些特定的硬件制造商采用，	软件方面最著名的就是opencv，其默认使用BGR的颜色格式来处理图像。	与RGB不同， (0,0,255) 在BGR中表示红色，(0,255,0) 仍然表示绿色，(255,0,0) 表示蓝色。

复制代码

在自动驾驶里，使用 rgb8 图像格式的图像，一般称为原图，是数据量最大的格式，没有任何压缩。（2）（2）YUV：这是另一种颜色编码方法，与 RGB 模型不同的是，它将图像信息分解为亮度（Y）和色度（U 和 V）两部分。这种方式更接近于人类对颜色的感知方式。

Y：代表亮度信息，也就是灰阶值。U：从色度信号中减去Y得到的蓝色信号的差异值。V：从色度信号中减去Y得到的红色信号的差异值。

复制代码

YUV 颜色编码主要用在电视系统以及视频编解码标准中，在这些系统中，Y 通道信息可以单独使用，这样黑白电视机也能接收和显示信号。而彩色信息则通过 U 和 V 两个通道传输，只有彩色电视机才能处理。这样设计兼容了黑白电视和彩色电视。YUV 色彩空间相比 RGB 色彩空间，更加符合人眼对亮度和色彩的敏感度，在视频压缩时，可以按照人眼的敏感度对 YUV 数据进行压缩，以达到更高的压缩比。由于历史和技术的原因，YUV 的标准存在多种，例如 YUV 4:4:4、YUV 4:2:2 和 YUV 4:2:0 等，这些主要是针对 U 和 V 通道的采样方式不同定义的。采样不同，对应的压缩比也不同。

（3）图像压缩格式：

jpeg：Joint Photographic Experts Group，是一种常见的用于静态图像的损失性压缩格式，	它特别适合于全彩色和灰度图片，被广泛使用。	通常情况下，JPEG可以提供10:1到20:1的有损压缩比，根据图像质量自由调整。png： Portable Network Graphics，PNG是一种无损压缩格式，主要使用了DEFLATE算法。	由于这是无损压缩，所以解压缩图像可以完全恢复原始数据。	被广泛应用于需要高质量图像的场景，如网页设计、艺术作品等。bmp：Bitmap，BMP是Windows系统中常用的一种无压缩的位图图像格式，通常会创造出较大的文件。

复制代码

位图（Bitmap）是一种常见的计算机图形，最小单位是像素，每个像素都包含一定量的信息，如颜色和亮度等。位图图像的一个主要特点就是，在放大查看时，可以看到图像的像素化现象，也就是我们常说的"马赛克"。BMP、JPEG、GIF、PNG 等都是常见的位图格式。

（4）H264 和 H265：这是两个视频压缩格式，也是两种视频编解码标准。以 1280*720 的摄像头为例，如果是 rgb8 格式的原图，一帧图像的大小是：

3*1280*720=27648000 字节，即 2.7648MB

如果是一小时的视频，那将是非常大的数据量，对网络传输，数据存储，都是很大的压力。而 H264 通过种种帧间操作，可以达到 10:1 到 50:1 的压缩比，甚至更高。H265 更进一步，压缩比更高，用来解决 4K 或 8K 视频的传输。

更具体的原理见：图像编码与 H264 基础知识在自动驾驶领域，图像数据也使用 h264 格式，主要用于数采和回放，控制数据量。

usb_cam

（1）linux 针对摄像头硬件有一套 Video for Linux 内核驱动框架，对应提供的有命令行工具 v4l2-ctl （Video for Linux 2），可以查看摄像头硬件信息：

ls /dev/video0  //一般video0是笔记本自带摄像头设备文件v4l2-ctl -d /dev/video0 --all

复制代码

这里截取了部分关键信息，下面的 usb_cam 的 launch 文件将用到：

（2）usb_cam 是 ros 里 usb camera 的软件包，一般称为 ros 摄像头驱动，但这是一个应用程序，其调用 v4l2 并通过 ros topic 发出图像数据。搞机器视觉，第一步就是要有图。安装并启动 usb_cam，查看图像：

sudo apt-get install ros-noetic-usb-cam roslaunch usb_cam usb_cam-test.launchrqt_image_view

复制代码

usb_cam-test.launch：

<launch>  <node name="usb_cam" pkg="usb_cam" type="usb_cam_node" output="screen" >    //指定设备文件名，默认是/dev/video0    <param name="video_device" value="/dev/video0" />    // 宽和高分辨率	    <param name="image_width" value="640" />    <param name="image_height" value="480" />    // 像素编码，可选值：mjpeg，yuyv，uyvy    <param name="pixel_format" value="yuyv" />    <param name="color_format" value="yuv422p" />    // camera坐标系名    <param name="camera_frame_id" value="usb_cam" />    // IO通道，可选值：mmap，read，userptr，大数据量信息一般用mmap    <param name="io_method" value="mmap"/>  </node>  <node name="image_view" pkg="image_view" type="image_view" respawn="false" output="screen">  	// 指定发出的topic名：/usb_cam/image_raw    <remap from="image" to="/usb_cam/image_raw"/>    <param name="autosize" value="true" />  </node></launch>

复制代码

（3）/usb_cam/image_raw 的数据结构体：

rostopic info /usb_cam/image_rawrosmsg show  sensor_msgs/Image

复制代码

//消息头，每个topic都有std_msgs/Header header	  uint32 seq  time stamp  // 坐标系名  string frame_id// 高和宽分辨率uint32 heightuint32 width// 无压缩的图像编码格式，包括rgb8，YUV444string encoding// 图像数据的大小端存储模式uint8 is_bigendian// 一行图像数据的字节数量，作为步长参数uint32 step// 存储图像数据的柔性数组，大小是step*heightuint8[] data

复制代码

/usb_cam/image_raw 内容展示：

（4）/usb_cam/image_raw/compressed 的数据结构体：

rostopic info /usb_cam/image_raw/compressedrosmsg show sensor_msgs/CompressedImage

复制代码

std_msgs/Header header  uint32 seq  time stamp  string frame_id// 压缩的图像编码格式，jpeg，pngstring formatuint8[] data

复制代码

/usb_cam/image_raw/compressed 内容展示：

摄像头标定

标定引入

（1）Calibration：翻译过来就是校准和标定。（2）摄像头标定：Camera Calibration 是计算机视觉中的一种关键技术，其目的是确定摄像头的内部参数（Intrinsic Parameters）和外部参数（Extrinsic Parameters）。

内部参数：包括焦距、主点坐标以及镜头畸变等因素。	这些参数与相机本身的硬件有关，如镜头和图像传感器等，一般由厂家提供。外部参数：摄像头相对于环境的位置和方向。	例如，它可能描述了一个固定摄像头相对于周围环境的姿态或者安装位置。	以汽车为例，外参包括各个摄像头之间的关系，摄像头与radar，摄像头与lidar的关系。

复制代码

（3）汽车各种传感器的之间的相对位置和朝向，用 3 自由度的旋转矩阵和 3 自由度的平移向量表示，这些外参由整车厂自己标。一般整车下线之后，进入特定的房间，使用静态标靶、定位器的等高精度设备，完成 Camera、radar、Lidar 等传感器的标定，称之为产线标定，也叫做下线标定。

笔记本摄像头内参标定

这里我们使用标定常用的标靶图形，完成笔记本摄像头的内参标定。usb_cam 可以使用内参标定，避免图像畸变。（1）安装标定功能包（ubuntu20.04+noetic）

sudo apt-get install ros-noetic-camera-calibration

复制代码

（2）创建 robot_vision 软件包，并标定相关文件

cd ~/catkin_ws/srccatkin_create_pkg robot_vision cv_bridge image_transport sensor_msgs std_msgs geometry_msgs message_generation roscpp rospy
cd robot_vision mkdir doc launchtouch launch/cameta_calibration.launch

复制代码

标定靶图片：

cameta_calibration.launch：

<launch>  // 使用usb_cam包，发出/usb_cam/image_raw图像数据  <node name="usb_cam" pkg="usb_cam" type="usb_cam_node" output="screen" >    <param name="video_device" value="/dev/video0" />    <param name="image_width" value="640" />    <param name="image_height" value="480" />    <param name="pixel_format" value="yuyv" />    <param name="camera_frame_id" value="usb_cam" />    <param name="io_method" value="mmap"/>  </node>  // 使用标定功能包，完成标定。  // 参数中，8x6表示横向8个内部角点，竖向有6个  // square 是每个棋盘格的边长  // /usb_cam/image_raw是监听的图像topic  <node      pkg="camera_calibration"      type="cameracalibrator.py"      name="camera_calibration"      output="screen"      args="--size 8x6 --square 0.024 image:=/usb_cam/image_raw camera:=/usb_cam"  /></launch>

复制代码

（3）编译并运行

cd ~/catkin_ws/catkin_make --source src/robot_vision source devel/setup.bashroslaunch robot_vision cameta_calibration.launch

复制代码

不断晃动，直到 COMMIT 按键亮起，然后点击，即可生成标定文件，本人的路径为：/home/mm/.ros/camera_info/head_camera.yaml。

opencv 和 cv_bridge 引入

（1）opencv 和 cv_bridge

安装 opencv（ubuntu20.04+noetic）:

sudo apt-get install ros-noetic-vision-opencv libopencv-dev python3-opencv

复制代码

（2）opencv 和 cv_bridge 的简单架构图如下：

根据这个图，在 ros 里，处理图像的流程一般是：

    # 第一步：使用cv_bridge将ROS的图像数据转换成OpenCV的图像格式	cv_image = cv_bridge.imgmsg_to_cv2(msg, "bgr8")
	# 第二步：使用opencv进行图像处理	。。。		# 第三步，再将opencv格式额数据转换成ros image格式的数据	ros_image = cv_bridge.cv2_to_imgmsg(cv_image, "bgr8")

复制代码

（3）在上节的 robot_vision 包里，我们新增一个 cv_bridge 的小样例，主要功能是在捕捉到的图像上打个蓝色的圆标。

本文不深入讲解 opencv，推荐一个资料：W3Cschool - OpenCV教程

cv_bridge_test.py：

#! /usr/bin/env python3# -*- coding: utf-8 -*-import rospyimport cv2from functools import partialfrom cv_bridge import CvBridge, CvBridgeErrorfrom sensor_msgs.msg import Image
def image_cb(msg, cv_bridge, image_pub):    # 使用cv_bridge将ROS的图像数据转换成OpenCV的图像格式    try:        cv_image = cv_bridge.imgmsg_to_cv2(msg, "bgr8")    except CvBridgeError as e:        print(e)
    # 在opencv的显示窗口中绘制一个圆，作为标记    # cv_image.shape返回一个元组，包含图像的行数（高度），列数（宽度）和通道数（通常是3个通道：BGR）    (rows, cols, channels) = cv_image.shape    # 当图像的宽度和高度都大于60时，才执行画圆标动作    if cols > 60 and rows > 60:    	# 在计算机图像处理中，图像的原点（0,0）通常定义为图像的左上角。(60,60)是圆心的坐标。    	# 30是圆的半径。    	# (255,0,0)定义了圆的颜色。在OpenCV中，默认的颜色空间是BGR，所以这其实是绘制了一个蓝色的圆。    	# -1表示填充圆。如果这个值是正数，则代表绘制的圆的线宽；如果是负数，则代表填充该圆。        cv2.circle(cv_image, (60,60), 30, (255,0,0), -1)
    # 使用Opencv的接口，显示Opencv格式的图像    cv2.imshow("ycao: opencv image window", cv_image)    cv2.waitKey(3)
    # 再将opencv格式额数据转换成ros image格式的数据发布    try:        image_pub.publish(cv_bridge.cv2_to_imgmsg(cv_image, "bgr8"))    except CvBridgeError as e:        print(e)
def main():    rospy.init_node("cv_bridge_test")    rospy.loginfo("starting cv_bridge_test node")
    bridge = CvBridge()    image_pub = rospy.Publisher("/cv_bridge_image", Image, queue_size=1)    bind_image_cb = partial(image_cb, cv_bridge=bridge, image_pub=image_pub)	// 订阅/usb_cam/image_raw，然后再回调函数里处理图像，并发布出来    rospy.Subscriber("/usb_cam/image_raw", Image, bind_image_cb)    rospy.spin()    cv2.destroyAllWindows()if __name__ == "__main__":    main()

复制代码

cv_bridge_test.launch

<launch>  <node name="usb_cam" pkg="usb_cam" type="usb_cam_node" output="screen" >    <param name="video_device" value="/dev/video0" />    <param name="image_width" value="640" />    <param name="image_height" value="480" />    <param name="pixel_format" value="yuyv" />    <param name="camera_frame_id" value="usb_cam" />    <param name="io_method" value="mmap"/>  </node>  <node      pkg="robot_vision"      type="cv_bridge_test.py"      name="cv_bridge_test"      output="screen"  />  <node      pkg="rqt_image_view"      type="rqt_image_view"      name="rqt_image_view"      output="screen"  /></launch>

复制代码

（4）编译并运行

cd ~/catkin_ws/catkin_make --source src/robot_vision source devel/setup.bashroslaunch robot_vision cv_bridge_test.launch

复制代码

总结

本文主要系统介绍了机器视觉处理的外围知识，引入了 opencv 和 cv_bridge，后面几篇文章，我们将用它们继续丰富 robot_vision 软件包。

发布于: 刚刚阅读数: 5

原文链接:【http://xie.infoq.cn/article/08767257d730e4f864b4d47fe】。文章转载请联系作者。

梦笔生花

关注

凡事预则立，不预则废！ 2022-06-01 加入

某公司芯片AE工程师，嵌入式开发工程师，InfoQ签约作者，阿里云专家博主，华为云·云享专家，51CTO专家博主，腾讯云社区优秀共创官。

发布

暂无评论

创作场景

ROS 机器视觉入门：从基础到人脸识别与目标检测

前言

颜色编码格式，图像格式和视频压缩格式

usb_cam

摄像头标定

标定引入

笔记本摄像头内参标定

opencv 和 cv_bridge 引入

总结

梦笔生花

评论