一种无人机图像识别技术体系研究与应用

赵薛强

PDF(1403 KB)
中国农村水利水电 ›› 2022 ›› (5) : 195-200.
水电建设

一种无人机图像识别技术体系研究与应用

作者信息 +

The Study and Application of a UAV Image Recognition Technology System

Author information +
稿件信息 +

摘要

为了实现水利工程巡检、河湖岸线、河湖环境监测等海量无人机图像异常特征物的智能化检测识别,提高管理效率,满足智慧水利建设的需求,基于YOLO v3算法框架,通过引入注意力模块SE,构建了高精度的YOLO v3-SE目标检测算法,形成了无人机图像识别技术体系,并将其成功应用于多个水利工程的海量无人机图像的异常特征物检测识别中。结果表明:通过自建66 000 张图片数据的训练集和35 514张图片数据的测试集,本算法与原始YOLO v3算法、改进的SKSet-YOLO v3算法和CBAM-YOLO v3算法相比,在积水、塌方、运输船、滑坡、聚集型垃圾和分散型垃圾等6类目标物的检测精度AP均有较大幅度的提升;平均检测精度mAP也分别从59.83%提升至90.17%、从79%提升至90.17%、从 72%提升至90.17%,精度得到明显提升,满足水利工程智慧化监控的需求。

Abstract

In order to make the intelligent detection and identification of abnormal features of massive UAV images, such as water conservancy project inspection, river and lake shoreline, and the realization of river and lake environmental monitoring, the enhancement of management efficiency, the satisfaction of demands for intelligent water conservancy construction based on YOLO v3 algorithm framework, a high-precision YOLO v3-SE target detection algorithm is constructed by the introduction of the SE, the UAV image recognition technology system is formed and it is also successfully applied to the detection and identification of massive UAV images in multiple water conservancy projects. It is shown based on the results that are compared with the original YOLO v3. SKSet-YOLO v3 and CBAM-YOLO v3 algorithm are improved by a self-built 66 000 picture data training set and a test set of 35 514 picture data, for the algorithm, the detection accuracy of 6 types of targets such as water, landslide, carrier, landslide, aggregate garbage and decentralized garbage has been greatly improved. With regard to the average detection accuracy mAP, it has also increased from 59.83% to 90.17%, from 79% to 90.17%, and from 72% to 90.17%.

关键词

YOLO v3-SE / 图像识别 / 通道注意力模块 / 水利工程 / 技术体系

Key words

YOLO v3-SE / image identification / channel attention module / hydraulic works / technical system

引用本文

导出引用
赵薛强. 一种无人机图像识别技术体系研究与应用[J].中国农村水利水电, 2022(5): 195-200
Xue-qiang ZHAO. The Study and Application of a UAV Image Recognition Technology System[J].China Rural Water and Hydropower, 2022(5): 195-200

0 引 言

无人机由于其便利性、经济性近年来被广泛应用于水库大坝、水电站等水利工程的巡检巡查中,获取了海量照片、视频等可视化图像数据,为水利行业智慧化监管做出了重大贡献1。崔保春等2提出了一种基于模式识别技术的高光谱遥感影像检测方法提高了影像拼接的精度,董淑娟等3提出了一种仅针对摄像头、雷达等采集的水利工程质量图像的误差补偿神经网络的检测算法。在水利工程无人机图像智能识别领域,国内外学者主要在无人机图像质量和图像细节纹理等方面开展检测识别研究,而针对海量的多期巡检图像违规违法等异常问题检测方面主要采用人工判别的方法,费时费力且效率不高,为满足智慧水利建设和水利信息化行业发展的需要,亟须构建新的智能化图像识别方法技术体系。随着人工智能技术的发展,基于目标识别检测算法的人工智能技术为水利工程的无人机海量图像异常特征识别提供了技术支撑。
Redmon J等4于2015年提出的YOLO(You Only Look Once: Unified, Real-Time Objection Detection )算法在图像识别领域被广泛应用,从第一代YOLO v1已发展到第五代 YOLO v55,其中YOLO v1、YOLO v2、YOLO v3均由Redmon J等提出并改进发展的,YOLO v4、YOLO v5是针对特定的应用环境由其他学者改进发展的,由于算法源码公开时间短等原因,存在一定的应用局限性6-8。YOLO v3作为YOLO算法框架系列的经典,针对其小目标识别精度不高这一弊端,国内外学者对YOLO v3算法进行了一些改进9-17,蔡鸿峰等9提出了选用Darknet-49为主干网络,通过引入DIoU函数,对损失函数进行了优化改进,但mAP仅提升了2.4%;顾晋等10通过改进的车辆算法对原YOLO v3中的模型进行剪枝处理,提升了YOLO v3算法识别的精度和效率,上述研究多应用于行人检测11、车辆检测12、交通标志识别13、船只识别14等小尺度、单目标的特征物检测识别领域,在大范围、小尺度和多目标的水利工程无人机图像检测识别领域应用较少。
为提升无人机图像识别的精度和效率,满足水利工程建设期针对工程安全、进度等强监管工作的要求,达到智能化施工和管理的目的,拟通过开展无人机图像智能识别技术体系研究,基于YOLO v3单阶段目标检测算法框架,在引入通道注意力模块(Squeeze-and-Excitation(SE)-block)的基础上,优化算法设计,搭建基于Yolov3-SE框架的高精度、高效率的图像识别算法,研发无人机图像自动识别系统,形成适合水利工程的无人机图像智能识别技术体系,提升无人机图像识别的效率和成功率,为水利工程建设期的无人机巡检图像异常特征物智能识别提供技术支撑,也为河湖环境监测、防洪应急救援、河湖岸线监测等行业领域的无人机动态监管提供关键技术支撑。

1 研究方法

在深入分析前人研究成果的基础上,基于YOLO v3单目标检测算法框架,通过引入SE-block,开展高精度、高效率地YOLO v3-SE算法设计研究,构建无人机图像智能识别技术体系,研发无人机图像自动识别系统。
主要关键技术流程分为以下3个步骤:首先,针对无人机航摄图像的类型,将视频统一转化为照片,构建图片流处理中心,开展图像处理、图像分割、像元处理等的图像预处理工作;其次,根据应用需求,对图片中异常特征物体开展标注和用于模型训练的数据集制作工作;最后,基于YOLO v3算法框架,通过引入SE-block,构建YOLO v3-SE算法框架,开展无人机图像异常特征物识别,并开发相应的自动识别系统满足工程应用实践要求。具体技术流程见图1所示。
图1 技术流程

Fig.1 Technical process

Full size|PPT slide

2 关键技术算法设计

2.1 YOLO v3-SE算法设计

YOLO v3作为YOLO系列算法的一个代表,其实现原理如图2所示。它在特征提取网络部分引入了残差结构加深网络深度,并引入跳层连接,有效防止梯度消失,由此构建了更深层次和更高精度的特征提取网络DarkNet53。对象分类用Logistic取代了Softmax。在检测部分,它利用3个输出分支分别对不同尺寸的目标物进行检测,同时3个特征层之间通过特征金字塔结构实现特征的有效融合,提高了检测性能和小目标识别。 YOLO v3是一个端到端的深度神经网络结构,因此建立了新的多任务损失函数来进行网络的训练。其损失函数由边界框坐标回归损失、分类损失和置信度损失三部分构成。
图2 YOLO v3算法结构

Fig.2 Structure of YOLO v3 algorithm

Full size|PPT slide

边界框坐标回归损失为:
Losscoo=2- wphpxp,yp,wp,hp-xt,yt,wt,ht2
其中 xp,yp,wp,hp为预测目标框位置信息, xt,yt,wt,ht为真实目标框位置信息,该损失函数主要用于目标位置的回归。
置信度损失为:
Lossconf= confp-conft2
式中: confp conft分别表示目标预测和真实置信度,该损失主要用于判断网格内是否存在目标。
分类损失为:
Losscls= -i=0h×wciplg cit+(1-cip)lg (1-cit)
式中: cip cit表示第i个网格中属于目标类的预测概率和真实概率。
总体损失函数为上述三部分损失的加权和:
Loss= λcooLosscoo+λconfLossconf+λclsLosscls
式中: λcoo λconf λcls为正数的权值参数,在训练过程中该损失采用误差反向传递的方式进行网络参数的调整。
YOLO v3在Microsoft COCO数据集上mAP@0.5达到57.9%,每张图像的检测速度可达到51 ms18。相比YOLO v1、YOLO v2算法框架,YOLO v3算法无论是检测精度和检测速度都有较大幅度的提升,但YOLO v3对3个输出分支特征层的特征利用存在不足,无法充分地利用有效特征,这使得YOLO v3对目标的定位并不精准。
为了提升YOLO v3算法识别小目标物的精度,国内外学者通过引入注意力机制,提升了小目标物识别的精度。其基本实现原理为:注意力机制(SKNet、SE-block、CBAM等) 19-21依靠神经网络计算出梯度通过前向传播与后向反馈的方式获得注意力权重,并应用于YOLO v3的优化改造中以提升目标识别率。与其他注意力机制相比,SE-block可以在通过较少的参数,减少无关信息带来的干扰,这对异常特征样本量较少的无人机图像识别尤为重要,其通过对各通道的依赖性进行建模以提高网络的表征能力,并且可以对特征进行逐通道调整,这样网络就可以通过自主学习来选择性地加强包含有用信息的特征并抑制无用特征,进而可提高小目标识别的精度。SE-block基本原理如图3所示。首先,经过一个标准的卷积操作,如式(5)所示。再经过Squeeze操作将H×W×C压缩至1×1×C,将该通道的表示定义为各通道的全局空间特征,形成通道描述符,如式(6)所示;然后经过Excitation操作开展对各通道的依赖程度的学习,同时依据依赖程度的不同调整特征图,获得全局的特征通道权值系数S,如式(7)所示。最后将学习到的各个通道的权值系数乘到特征图U上,完成通道维度上的有效特征加强,无效特征的抑制,如式(8)所示。
U= FtrX,   
Ftr:XU,XRH×W×C ,URH×W×C
Z= FsqU= 1H×Wi=1Hj=1WUi,j , ZRC
S=  FexZ,W= σgZ,W= σW2 RELUW1Z    
W1 RCr×C, W2RC×Cr
x˜= FscaleU,S=SC
图3 通道注意力模块(SE-block)

Fig.3 Channel attention module(SE-block)

Full size|PPT slide

式(5)~(8)和图3中, U 表示二维矩阵;H为每个维度特征图的高;W为每个维度特征图的宽; W1Z表示第1个全连接操作; W2 RELU.为第2个全连接操作; RELU.为ReLU激活函数; σ.为Sigmoid函数;S为各通道重要程度的权重。
针对无人机拍摄的照片、视频中特征物大小尺寸不同和异常特征物样本库较少等问题,为实现无人机图像特征目标物的高精度提取,通过在3个输出分支添加SE-block,增强每个分支的特征表达,构建新的YOLO v3-SE算法框架,从而使网络有选择性地加强关键特征,并抑制无用特征,YOLO v3-SE算法网络结构如图4所示。
图4 Yolov3-SE算法结构图

Fig.4 Yolov3-SE algorithm structures

Full size|PPT slide

同时,针对数据集样本中各类目标物的类间数据量不均衡,存在较大差距,不利于模型的训练,以及对于实际的检测效果也是有较大影响等弊端,根据图片数据和目标物分布的实际情景通过对原始图片采取翻转、随机裁剪(3种不同尺寸)以及翻转和随机裁剪混合的方式来进行数据增强,用以提高无人机特征物识别的成功率。数据增强效果示意如图5所示。
图5 数据增强示意图

Fig.5 Data enhancement diagram

Full size|PPT slide

2.2 自动识别系统设计

为实现从海量无人机图像中智能化、自动化地检测识别水利工程建设期的非法弃渣、工地塌方、施工挖坑积水等异常特征状况,基于云计算、大数据、YOLO v3-SE目标检测算法、计算机开发语言、GIS技术等技术方法研发无人机图像自动识别系统,用于满足海量无人机航拍视频、照片等图像的智能化精确识别的需求。系统具体设计步骤为:首先,构建无人机原始图像和异常特征识别标记图像数据库,开展无人机图像的数据库设计研究,前端采用JavaScript语言、后端采用Java语言,数据库采用具有空间数据存储管理功能的PostgreSQL数据库,空间数据显示管理可采用开源GIS平台,通过读取无人机航摄图像自带的POS定位信息,建立地图定位点与图像之间的空间联系,开展航摄图像信息的读取和入库;其次,融合YOLO v3-SE算法,采用Pytorch1.2.0深度学习框架和Python编程语言,构建后端无人机图像自动识别计算和大数据处理中心;最后,通过前端WEB端进行调用深度学习框架,开展不同期的无人机航摄图像异常特征物识别,并将异常照片进行入库和图上定位显示,以便技术人员进行判别比对和管理。

2.3 精度评价指标

目标特征检测识别常用的精度评价指标主要为基于mAP值( Mean Average Precision)的评价法。mAP是指不同召回率下的精度均值。在无人机图像异常目标检测中,一个模型会检测多种不同异常特征物,每一类都绘制一条PR(Precision- Recall)曲线,并计算出AP值,而mAP可通过多个类别的AP值平均值求取。由于通过计算数据集中所有类别AP值的平均值即可求取mAP,因此只需计算AP即可。AP计算方法主要有3种方法:
(1)在VOC2010数据集以前,先求取当Recall >= 0, 0.1, 0.2, …, 1共11段时的Precision最大值,然后计算11个Precision的平均值即为AP如公式(9)所示,mAP即为所有类别AP值的平均数。
AP=γ(0,0.1,,1)ρ(γ
式中: γ为召回率Recall的取值; ρ(γ)为召回率大于11个点时的最大准确率值。
(2)在VOC2010数据集及以后,需选取每一个召回率Recall大于等于Recall值时的Precision最大值,计算PR曲线下面积作为AP值,然后求取mAP,此方法为目前较为常用的mAP精度评定方法。
Precision=TPTP+FP
Recall=TPTP+FN
式中;TP (True Positive )表示一个正确的定位结果;FP (False Positive)表示一个错误的结果;FN (False Negative)表示未预测出的结果。
(3)在Microsoft COCO数据集中,可采用设定多个IOU
(Intersection over Union)阈值(步长选择0.05,阈值范围为0.5~0.95,)的方法,在每一个IOU阈值下都对应相应一类别的AP值,然后计算在不同IOU阈值下的AP平均数,即为所求的某一类的AP值。

3 实验应用与结果分析

3.1 实验区域

实验区域为大藤峡水利枢纽工程、南渡江引水工程、环北部湾广东水资源配置工程等10多个大型水利工程。为科学监管和掌握建设期的工程进度,利用无人机航空摄影测量技术开展了工程建设期的巡检巡查工作,获取了海量的无人机巡检图像。为智能化地检测、识别和管理海量的水利工程无人机图像,基于YOLO v3-SE算法和计算机开发语言,自主研发了无人机图像自动识别系统,实现了实验区域无人机图像异常特征的自动识别。为评估本文所提出的Yolov3-SE算法的检测性能,选取了各类别精度AP和平均精度mAP作为评价指标,选用第二种AP计算方法,在自制的实际应用场景数据集上进行了有效验证。

3.2 实验环境与实验数据集

选取无人机航拍巡检数据库中的图像数据,并针对实际应用场景中的异常特征目标物,基于VOC标准制作了实际应用场景下的标准数据集。使用Lableimg标注工具进行人工标注数据集,依照如表1所示的异常目标物标准,制作了包含101 540 张图片数据、140 300 个目标物的标准数据集。数据集具体参数如表2所示。训练集包含66 000 张图片数据,测试集包含 35 514 张图片数据。YOLO v3-SE算法一共开展了90轮迭代训练,其中前60轮学习率设置为le-4,后30轮设置为le-5,每轮训练的批大小(batchsize)设置为8,优化策略采用Adam,深度学习率衰减为0.95。实验硬件环境为:Intel Xeon Gold 5122 CPU,显卡NVIDIA GTX-1080Ti(2张,显存各11GB);软件环境为:深度学习框架Pytorch1.2.0,操作系统Ubuntu 18.04,3.6.12版本的Python编程语言。
表1 异常目标物标准

Tab.1 norm of abnormal target

类别 描述

g_garbage

d_garbage

聚集型垃圾(坝站设置的拦网或建筑处所形成的聚集型漂浮物)

分散型垃圾(针对河面飘散的不成堆,零散的漂浮物)

trans_boat 运输船
spoil 弃渣(主要为施工区域的废弃建筑垃圾)
stag_water 积水(施工区域的积水)
collapse 塌方(河岸线、道路、护坡等区域的坍塌情况)
表2 数据集参数表

Tab.2 Parameters of Dataset

类别名 图片数 目标数
g_garbage 10 530 17 750
d_garbage 12 100 12 430
trans_boat 14 050 33 910
spoil 18 200 12 080
stag_water 29 490 45 130
collapse 17 170 19 000

3.3 定量实验结果分析

为了评估YOLO v3-SE算法性能,将本文算法与YOLO v3基础算法、融入注意力模块的SKNet-YOLO v3算法和CBAM-YOLO v3算法进行了比较。选取了各类别的识别精度AP,以及所有类别的平均精度mAP作为评估标准,统计情况如表3所示。从表3可以看出,本文算法相较于YOLO v3基础算法、SKNet-YOLO v3算法和CBAM-YOLO v3算法在积水(stag_water)、塌方(collapse)、运输船(trans_boat)、聚集型漂浮物(g_garbage)、弃渣(spoil)和分散型漂浮物(d_garbage)6类目标物的检测精度AP均有较大幅度的提升。与YOLO v3基础算法相比,平均检测精度mAP从59.83%提升至90.17%,与添加注意力模块的SKNet-YOLO v3改进算法相比,平均检测精度mAP从79%提升至90.17%,与添加注意力模块的CBAM-YOLO v3改进算法相比,平均检测精度mAP从72%提升至90.17%。综上所述,本文提出的YOLO v3-SE算法相较于YOLO v3基础算法和其他添加注意模块的改进YOLO v3算法相比,在针对无人机图像的单个目标物检测精度AP及mAP均有明显提升。
表3 各算法的识别精度统计表 (%)

Tab.3 Statistical table of recognition accuracy of each algorithm

网络结构 collapse stag_water trans_boat d_garbage spoil g_garbage mAP
YOLO v3 62 59 61 60 56 61 59.83
SKNet-YOLOV3 81 80 78 76 83 76 79.00
CBAM-YOLO v3 75 74 74 71 70 68 72.00
本文算法 95 89 93 91 81 92 90.17

3.4 定性实验结果分析

为了定性分析实验结果,从自制的标准数据集中选取了6个类别的图片数据。同时为了更好地对YOLO v3-SE算法的检测效果进行评估,选取不同角度和不同区域的图片数据进行实际测验。实际可视化结果如图6所示。从图6中可以看出,我们可以有效的识别出图片中的目标物,而且检测的精度也是相当高的。尤其是在积水的检测中,漏检的情况很少,且对于船只的检测已经达到非常精确的效果。由此可见YOLO v3-SE算法在实际检测中效果良好,能够达到检测要求。
图6 6类目标物可视化结果图

Fig.6 Visualized results on 6 tagets

Full size|PPT slide

4 结 语

通过深入研究YOLO v3算法框架,引入SE-block,提出了基于YOLO v3-SE算法的无人机图像检测识别方法,设计了无人机图像自动识别系统,形成了无人机图像识别技术体系,主要工作如下。
(1)为了提高检测成果的精度,弥补YOLO v3基础算法针对无人机航摄图像小目标物识别精度不高的局限性,通过引入SE-block,对YOLOv3的基本框架进行改进,自主构建了YOLO v3-SE识别算法框架。并针对标注数据集样本不均衡的情况,
根据图像数据和目标物分布的实际情景做相应的数据增强,提高了无人机特征物识别的成功率。从实验结果对比分析可知,相比于基础YOLO v3以及引入其他注意力模块的SKSet-YOLO v3改进算法和CBAM-YOLO v3改进算法,YOLO v3-SE算法针对无人机航摄图像的检测有着更好的效果,检测精度AP和mAP均得到了明显提升。从定性定量分析结果来看,YOLOv3-SE检测算法是一种较好的无人机航摄图像目标检测识别方法。
(2)融合YOLO v3-SE算法,采用GIS技术、大数据等,自主研发的无人机图像自动识别系统,完成了多个大型水利工程海量无人机巡检航拍图像的入库、自动识别和管理,为水利工程档案博物馆的建设提供了珍贵的历史影像资料。
(3)设计的无人机图像识别算法和自动识别系统,形成的无人机图像智能识别技术体系,仅是针对无人机航摄获取图像后而进行的图像入库和图像异常特征物识别,相对于防洪抢险、应急救援等极端情况,未来需进一步加强无人机前端实时拍摄图像和视频实时传输监控的异常实时检测识别。同时,本研究仅针对6个应用场景进行实验验证,未来将根据需求增加异常样本库,构建针对更多应用场景的异常识别。

参考文献

1
王小刚,赵薛强,王建成.贴近摄影测量在水利工程监测中的应用[J].人民长江202152():130-133.
增刊1
2
崔保春,徐言勋.基于模式识别技术的高光谱遥感图像检测[J].现代电子技术201942(17):58-62.
3
董淑娟,张志纲,丁爱萍.基于视觉图像的水利工程质量检测研究与仿真[J].计算机仿真201229(6):274-277.
4
REDMON J DIVVALA S GIRSHICK R, et al. You only look once: unified, real-time object detection
C]//CVPR 2016: Proceedings of the 2016 IEEEConference on Computer Vision and Pattern Recognition.Washington, DC: IEEE Computer Society, 2016:779-788.
5
杨高坤.单阶段法目标检测技术研究[J].电子世界2021(3):77-78,81.
6
WILLIAM.一文读懂YOLO v5与YOLO v4 [EB/OL].
7
李维刚,杨潮,蒋林,等.基于改进YOLOv4算法的室内场景目标检测[J/OL].激光与光电子学进展:1-19[2021-08-06].
8
李阿娟. YOLOv5算法改进及其现实应用[D].中北大学,2021.
9
蔡鸿峰,吴观茂.一种基于改进YOLO v3的小目标检测方法[J].湖北理工学院学报202137(2):33-36,47.
10
顾晋,罗素云.基于改进的YOLO v3车辆检测方法[J].农业装备与车辆工程202159(7):98-103.
11
舒壮壮,单梁,马苗苗,等.基于YOLOv3的改进行人检测算法研究[J].南京理工大学学报202145(3):259-264.
12
袁小平,马绪起,刘赛.改进YOLOv3的行人车辆目标检测算法[J].科学技术与工程202121(8):3 192-3 198.
13
王浩,雷印杰,陈浩楠.改进YOLOV3实时交通标志检测算法[J/OL].计算机工程与应用:1-9[2021-08-06].
14
王飞,刘梦婷,刘雪芹,等.基于YOLOv3深度学习的海雾气象条件下海上船只实时检测[J].海洋科学202044(8):197-204.
15
江波,屈若锟,李彦冬,等.基于深度学习的无人机航拍目标检测研究综述[J].航空学报202142(4):137-151.
16
严开忠,马国梁,许立松,等.基于改进YOLOv3的机载平台目标检测算法[J].电光与控制202128(5):70-74.
17
孙奥,金鑫,管相源,等.基于YOLOv3的无人机建筑物空间特征提取方法研究[J/OL].土木建筑工程信息技术:1-7[2021-08-06].
18
邹鑫垚. 基于优化预选区域的二阶段目标检测算法[D].哈尔滨工程大学,2020.
19
郭智超,丛林虎,刘爱东,等.基于SK-YOLOV3的遥感图像目标检测方法[J].兵器装备工程学报202142(7):165-171.
20
孙义博,张文靖,王蓉,等.基于通道注意力机制的行人重识别方法[J/OL].北京航空航天大学学报:1-10[2021-08-06].
21
鞠默然,罗江宁,王仲博,等.融合注意力机制的多尺度目标检测算法[J].光学学报202040(13):132-140.
PDF(1403 KB)

访问

引用

详细情况

段落导航
相关文章

/