当前位置:首页 >> 技术文件 >> 低空专栏

基于动态分布回归细化的航拍目标检测算法

admin 2026-02-13 低空专栏

基于动态分布回归细化的航拍目标检测算法

图片




陶治来

硕士,高级工程师

合肥市轨道交通集团有限公司

研究方向:主要从事轨道交通规划设计、建设及运营维护等领域研究

低空技术成绩:推动低空智能巡检技术在城市轨道交通领域的创新应用,成功验证多种低空无人机巡检模式,突破传统人工巡检在精度、时效性和安全性方面的限制,实现设备隐患的精准定位与快速处置,为运营维护提供智能化支持。同时,积极拓展低空技术在综合交通设施监测与协同巡检中的应用潜力。

邮箱:752592450@qq.com

图片




戴   融

硕士,工程师

合肥市轨道交通集团有限公司

研究方向:电力电子技术,自动控制技术,模式识别与智能系统

低空技术成绩:组织开展合肥轨道4号线地铁保护区低空智能巡检系统试点项目,该项目通过专家评审,并获主流媒体报道,解决了传统人工巡检覆盖范围有限、效率低、响应慢等难题,有效提高运营维护水平。并在此基础上进一步探索轨道交通高架站、供电线路综合巡检。

邮箱:DAIRONG@hfgdjt.com

图片




刘   畅

博士,工程师

通号城市轨道交通技术有限公司

研究方向:计算机视觉,人工智能

低空技术成绩:主导开发无人机管控中的时空冲突检测与解脱功能,实现航线动态调整;深入参与自动化四维路径规划,解决禁飞区与冲突规避问题;构建动态环境响应机制,实现危险区域实时重规划;具备飞行中应急调整能力;同时负责测试数据生成与低空巡检的计算机视觉算法研发,推进目标检测的技术应用。

邮箱:liuchang8@crsc.cn

图片




陈   逸

硕士,高级工程师

通号城市轨道交通技术有限公司

研究方向:低空空中交通管理和控制

低空技术成绩:长期从事低空空中交通管理领域技术研究,牵头研制低空空域智能管控系统,开展低空飞行风险评估、空域流量管理、飞行航迹融合、冲突探测与自动解脱等前沿技术研究。

邮箱:chenyi1@crsc.cn







摘要:针对无人机巡检中车辆和人员目标检测面临的尺寸微小、正样本稀缺、定位不确定性等难题,提出DDRR算法。算法核心创新包括:设计自适应先验移动模块,通过自适应温度参数优化锚框与目标匹配质量;构建基于DIoU的粗正样本筛选机制,采用距离感知几何匹配指标降低计算复杂度;开发基于巴氏距离的细正样本筛选模块,结合智能迭代策略平衡计算效率与检测精度。在VisDrone和AI-TOD-V2数据集上的实验表明,DDRR算法AP分别达到33.25%和27.3%,相较主流检测器显著提升,推理速度19.8 FPS满足实时需求。算法系统性解决无人机巡检中先验错配、样本不均衡和定位不确定性问题,为巡检系统提供高效精确的检测方案

关键词:低空无人机巡检;动态分布回归;车辆人员检测;自适应先验移动;智能迭代优化

中图分类号V279+.2

文献标识码:A








引用格式:陶治来,戴融,刘畅,等.基于动态分布回归细化的航拍目标检测算法[J].铁路通信信号工程技术,2025,22(12):1-11

Tao Zhilai, Dai Rong, Liu Chang, et al. Aerial Object Detection Algorithm Based on Dynamic Distribution Regression Refinement[J]. Railway Signalling & Communication Engineering, 2025, 22(12):1-11.





随着低空无人机技术快速发展,无人机巡检已成为基础设施维护和智能监控的重要手段。然而,巡检中对车辆和人员等关键目标的准确检测面临诸多技术挑战。

无人机巡检目标检测具有以下特点:1)目标呈现微小尺寸,特征信息稀疏且易被复杂背景干扰;2)目标分布不均匀,有效正样本稀缺;3)实时性要求严格,需在保证精度的同时满足效率需求。传统目标检测方法基于固定标签分配策略,难以适应巡检场景中目标的复杂分布特性。

现有动态标签分配方法在一定程度上改善了正负样本划分,但仍存在局限性:无锚框架在微小目标定位精度上表现不足;有锚框架的静态设计难以充分覆盖目标的多样化分布;传统方法采用固定坐标回归,未能充分表达目标定位的不确定性。

为解决这些挑战,本文提出了动态分布回归细化(Dynamic Distribution Regression Refinement, DDRR)算法。该算法基于动态建模和渐进式优化思想,系统性地改进了框回归、标签分配和特征表达机制。具体包括:自适应先验移动模块,动态调整先验框位置;基于距离交并比(Distance Intersection over Union,DIoU)的粗正样本筛选机制;基于巴氏距离的细正样本筛选模块,结合智能迭代策略实现精细化检测。

实验表明,该算法在视觉与无人机数据集(VisDrone)和人工智能微小目标检测数据集(AI-TOD-V2)上的平均精度(Average Precision,AP)分别达到33.25%和27.3%,推理速度19.8帧率(Frames Per Second,FPS),为无人机巡检系统提供了高效精确的检测方案。

1 相关工作

1.1 小目标检测

在低空无人机巡检应用中,小目标检测面临着独特的技术挑战。巡检场景中的车辆和人员目标通常在高空俯视图像中呈现为微小目标,使得传统的目标检测方法难以有效应对。小目标检测的核心难点在于目标尺寸过小导致特征表达弱、有效正样本稀缺以及标签分配不准确等问题。

针对多尺度目标检测,特征金字塔网络(Feature Pyramid Networks,FPN)通过构建多尺度特征金字塔,增强了不同尺度目标的检测能力。正样本稀缺问题在无人机巡检中尤为严重,因为巡检目标尺寸过小导致先验框与真实框的有效交叠区域极其有限。为缓解此问题,研究者提出了多种改进方案:改进交并比(Intersection over Union,IoU)衡量指标(如NWD)能够更好地处理微小目标;异常值学习方法(如RFLA)通过优化正样本选取策略提升了小目标检测性能。此外,基于Transformer的方法和超分辨率技术在小目标特征表达方面也取得了重要进展。

1.2 分布建模在目标检测中的应用

传统目标检测器使用固定形状的矩形框进行目标建模,在无人机巡检应用中面临严峻挑战。巡检环境的复杂性导致车辆和人员目标呈现多样化的几何特征和不确定性分布,传统固定边界框难以准确描述这种几何不确定性。

分布建模主要采用高斯分布或离散分布来对边界框进行细粒度建模。在无人机巡检中,高斯分布通过参数化目标的位置和形状,使检测器能够更灵活地适应巡检目标的形状多样性和大小变化。动态高斯混合模型(Dynamic Gaussian Mixture Model,DGMM)能够更精确地描述巡检环境中目标的多样化分布和尺度特性。然而,现有分布建模方法在巡检应用中仍存在局限性:对训练数据分布的依赖较强,动态调整策略的表达能力不足,计算复杂度较高,难以满足无人机巡检系统对实时性的严格要求。

1.3 动态建模方法的进展

动态建模通过动态调整机制优化目标检测过程中的先验框生成、标签分配和真实框表示。对于无人机巡检而言,动态建模的重要性尤为突出,由于巡检环境的复杂性,使得静态检测方法难以应对车辆和人员目标的多样化分布特征。

动态标签分配策略通过结合先验和后验信息动态优化正负样本划分。例如,动态锚框学习算法(Dynamic Anchor Learning,DAL)引入预测感知的匹配度,动态特征对齐算法(Dynamic Feature Alignment,DFA)利用预测的边界框偏移量,动态地调整特征图上的采样位置,高斯引导的混合标签分配算法(Gaussian-Guided Hybrid Labeling,GGHL)通过2D高斯热力图动态划分并优化样本分配质量。动态先验捕获技术如基于Transformer架构的端到端目标检测模型(Detection Transformer,DETR)通过Transformer机制学习目标的先验位置和分布,基于区域的稀疏卷积神经网络(Sparse Region-based Convolutional Neural Network, Sparse R-CNN)通过迭代更新机制优化先验框。然而,现有动态建模方法在巡检应用中仍存在关键局限:缺乏整体动态优化设计,计算复杂度较高,对小目标和复杂背景的适应性有待提升。

2 方法

本文提出一种目标检测算法DDRR,旨在提升目标检测中的标签分配和边界框回归精度,特别是在小目标和复杂背景场景下表现优异。

DDRR算法包含4个核心阶段:首先通过自适应先验移动模块对先验框进行初步位置调整;其次采用DIoU计算先验框与目标框的匹配分数,筛选出粗正样本;然后引入移动分布预测机制,利用巴氏距离计算预测偏移概率分布与真实偏移分布的相似度;最后通过旋转单高斯分布构建增强几何信息,结合智能迭代策略完成精细位置调整。

整个算法流程通过从粗到精的正样本优化机制,实现高精度的目标检测。DDRR算法架构如图1所示。





image.png





2.1 自适应先验移动(Adaptive Priori-Movement,APM)模块

目标检测中的先验框初始位置通常固定于特征图的网格中心,然而,特征图相对原始图像的下采样比率通常为1/16或1/32,小目标可能位于先验框之间或者偏离先验框中心,导致先验框与目标错配,如图2所示,图中的每个红色边框表示一个先验框。因此,设计一种基于自适应移动分布的先验移动模块,通过轻量级偏移预测网络对先验框进行位置调整,并针对不同尺度目标采用自适应策略,使其更接近潜在目标。





image.png





使用可变形卷积获取多层特征信息,对每个先验框中心点的xy方向生成离散偏移预测值,如图3所示。黄色边框为初始边框,橘色边框为移动后边框,直方图表示对应边框中心点的偏移预测概率,偏移范围为n∈{-s,-s+1...s-1,s},其中s是下采样步长。





image.png





为提升对不同尺度目标的适应性,引入自适应温度参数ττmin+(τmaxτmin)·exp[-α·min(wanchor, hanchor)],其中τminτmax分别是温度参数的最小值和最大值,α是控制尺寸敏感度的参数,wanchorhanchor分别表示先验框的宽和高。

网络输出通过带温度参数的概率化处理,形成自适应概率分布(PΔxPΔy ),如公式(1)所示。

image.png

其中logitΔx(n)和logitΔy (n)是偏移网络预测的离散偏移值的原始数值,n表示偏移范围。

两个方向的偏移量Δx和Δy可通过加权平均得到,如公式(2)所示。

image.png

调整后的先验框中心点位置(x'centery'center)如公式(3)所示。

image.png

该模块通过捕捉先验框与目标框之间的距离关系和尺度特性,动态调整框的位置和分布锐度,有效缓解初始位置固定和尺度不匹配问题。

2.2 粗正样本筛选(Coarse Positive Sample Screening,CPSS)模块

在调整先验框中心位置后,采用DIoU作为核心指标筛选粗正样本。DIoU不仅考虑框的重叠程度,还考虑中心点距离,对小目标检测更加敏感且计算高效。

DIoU结合了传统IoU和中心点距离信息,定义如公式(4)所示。

image.png

其中Boxanchor和BoxGT分别表示锚点(anchor)先验框和真实(ground truth,GT)边框。ρ2 (canchor , cGT)表示先验框中心点canchor与目标框中心点cGT的欧式距离平方;d2表示包围两框的最小外接矩形对角线长度平方;(xminymin)和(xmaxymax)分别是包围两框的最小外接矩形的左上角和右下角坐标。

先验框Boxanchor和目标框BoxGT,  j 的几何匹配得分Pgeo, ij定义如公式(5)所示。

image.png

对于每个先验框Boxanchori,选择匹配分数最高的目标框BoxGT,  j*,设置几何匹配得分阈值τgeo筛选粗正样本(Positive Anchors,PA),如公式(6)所示。

image.png

基于DIoU的粗正样本筛选快速过滤大部分无关先验框,为后续精细优化提供高质量的初始正样本集合,同时大幅降低计算复杂度。

2.3 细正样本筛选(Fine Positive Sample Screening,FPSS)模块

对粗正样本进行动态移动分布建模和增强几何匹配,进一步筛选生成细正样本。

2.3.1 动态移动分布建模

对每个粗正样本的4条边偏移量独立建模为离散概率分布PΔd(n),其中d∈{lrtb}表示左、右、上、下4个边界;n∈{-nmax...nmax}表示边界离散偏移量,其中nmax为边框长度的一半,即ScreenShot_2025-12-10_154627_893.png。通过在特征图上对粗正样本先验框中心点位置进行双线性插值,提取上下文特征,并利用可变形卷积预测偏移原始数值,通过softmax归一化得到概率分布PΔd,如公式(7)所示。

image.png

2.3.2 基于巴氏 (Bhattacharyya,BC) 距离的移动分布匹配得分

移动分布匹配得分基于预测的概率分布PΔd(n)和目标偏移量分布的相似度计算,以反映预测位置的不确定性和调整难度。目标偏移量被建模为一维正态分布,以反映其潜在的不确定性,原始概率为Prawn),归一化后得到PGTn),计算过程如公式(8)所示。

image.png

其中μGT为真值平均值,κ为调节因子,wGT和 hGT分别表示边框的真实宽和高。

预测分布与目标分布相似性BC (PΔdPGT)通过BC距离衡量,如公式(9)所示。

image.png

整体移动分布匹配得分Pdist如公式(10)所示。

image.png

其中:Pdistd为每条边的移动分布匹配得分;d∈{lrtb}表示左、右、上、下4个边界。

2.3.3 基于旋转单高斯分布的增强几何匹配得分

为提升几何匹配准确性,特别是处理目标方向性特征,提出基于旋转单高斯分布的增强几何匹配方法。基于CPSS模块得到的粗正样本集合,计算 N个粗正样本先验框(Positive Anchors,PA)中心点均值,根据公式(11)来定义目标框第二中心点(sxsy)。

image.png

基于几何中心点(CxCy)和第二中心点(sxsy),计算旋转角度θ,如公式(12)所示。

image.png

目标框旋转单高斯分布表示G (xy)如公式(13)所示。

image.png

其中图片=( Cx,C)T是几何中心,旋转协方差矩阵ScreenShot_2025-12-10_143934_777.png定义如公式(14)所示。

image.png

其中γ是根据粗正样本数量的调节因子;wjhj是目标框宽和高;R(θ)是旋转矩阵。

对于第i个先验框中心点(xiyi),与第j个目标框的增强几何匹配得分Pgeo, ij如公式(15)所示。

image.png

旋转单高斯分布相比传统轴对齐分布更好地捕捉目标框方向性特征,相比多中心分布大幅降低计算复杂度。

综合匹配得分中,增强几何匹配得分Pgeo, ij与公式(10)中的移动分布匹配得分Pdist, ij结合,形成最终综合得分Pmatch, ij如公式(16)所示。

image.png

其中αβ是权重超参数,通过交叉验证确定。

最后,通过公式(17)来设定阈值τmatch筛选细正样本(Refined Positive Anchors,RPA)。

image.png

2.4 智能迭代移动

为进一步提升细正样本边界框定位精度,设计智能迭代移动方法。该方法通过预测加权移动分布,逐层优化边界框位置,使其逐步逼近目标框,如图4所示,直方图代表每个边的移动预测分布。相比单次优化,迭代移动逐步对齐预测分布与目标分布,减少偏移累积误差,并通过收敛判断机制避免不必要计算开销。





image.png





为增强偏移灵活性,公式(7)中的偏移分布PΔd(n)引入线性自适应权重函数W(n),计算公式如(18)所示。

image.png

其中λ是线性增长因子,通常设为0.5~1.0。n为偏移量,nmax为边框长度的一半,小偏移值(接近0)对应精细位置调整,给予基础权重(W≈1);大偏移值(接近±nmax)对应较大范围移动,给予递增权重(W≈1+λ)。

经过权重映射的分布为ScreenShot_2025-12-10_144616_855.png,移动距离∆d由离散偏移值的加权平均得到,如公式(19)所示。

image.png

为提升计算效率,引入智能收敛判断机制。每次迭代后,计算位置变化量为ScreenShot_2025-12-10_144806_841.png,当连续两次迭代的位置变化量小于阈值τconv 时,认为已收敛,提前停止。τconv 根据目标尺寸自适应设置,如公式(20)所示。

image.png

其中ε通常取0.05~0.1,wGThGT分别表示边框的真实宽和高。

每次迭代结合更新的上下文特征和边界框位置,预测新的分布参数计算下步移动量。随着迭代进行,边界框逐步靠近目标框,分布预测集中性提高,位置不确定性降低。为防止过度迭代,设置最大迭代次数为3次。实验表明,算法通常在2次迭代内收敛,智能早停机制有效避免不必要计算开销,同时保持检测精度。

2.5 损失函数

设计结合局部精确对齐和全局分布一致性的高效损失函数,通过分布感知的细粒度定位损失和巴氏距离约束,实现精细优化的同时保持计算高效性。

2.5.1 分布感知细粒度定位损失

针对边界框每条边,设计分布感知的细粒度定位损失(Fine-Grained Localization, FGL)。计算目标框真实偏移量对应的离散索引nGT=round(dGT),其中dGT是目标框真实偏移量,round表示取整。采用公式(8)的软标签方式,构建目标分布PGT(n)作为监督信号,对修正后的偏移分布ScreenShot_2025-12-10_145148_955.png计算分布感知细粒度定位损失函数LFGL,如公式(21)所示。

图片

其中K表示边框数量,IoUk为边框和真实框的交并比,作为权重可降低高不确定性区域对损失优化的影响。

2.5.2 全局分布一致性损失

为保持预测分布与目标分布的全局一致性,使用BC距离作为约束项,全局分布一致性损失函数LBC如公式(22)所示。

image.png

2.5.3 综合损失函数

综合损失函数L结合了局部精确对齐和全局分布一致性,如公式(23)所示。

image.png

其中λ1λ2是权重参数。实验中设置λ1=1.0,λ2=0.5效果最佳。

引入基于训练阶段的自适应权重调整机制,根据当前IoUcurrent质量动态调整λ2得到 ScreenShot_2025-12-10_145522_466.png,计算公式如(24)所示。

image.png

当IoUcurrent较低(<0.5)时,增强分布约束帮助学习正确的偏移分布模式;当IoUcurrent较高(>0.5)时,适当减弱分布约束专注于精确定位。

2.5.4 多层迭代损失

对于多层迭代优化,总损失Ltotal定义为所有R个迭代层的加权求和,如公式(25)所示。

image.png

其中wr=r/R是第r个迭代层权重,体现迭代细化的重要性。

3 实验与分析

3.1 实验数据与设置

在VisDrone和AI-TOD-V2两个航拍数据集上验证方法有效性。VisDrone包含8 599张无人机图像(训练集6 471张、验证集548张、测试集1 580张),目标类别为车辆和行人,共约54万实例。AI-TOD-V2包含28 036张航拍图像和752 745个目标实例(训练集11 214张、验证集2 804张、测试集14 018张),目标平均尺寸仅12.7像素,86%的目标小于16像素。

模型在四张NVIDIA RTX 3090 GPU上训练,批量大小48,骨干网络为ResNet-50+FPN。优化器采用SGD,初始学习率0.015,动量0.9,权重衰减0.000 1。在数据集VisDrone训练12轮,数据集AI-TOD-V2上训练40轮。

关键超参数:温度参数τmin=0.1,τmax=2.0;几何匹配阈值τgeo在VisDrone和AI-TOD-V2上分别为0.3和0.25;离散偏移范围nmax分别为16和12;权重参数αβ 在两数据集上分别为(0.6,0.4)和(0.7,0.3)。

3.2 对比实验结果

3.2.1 在VisDrone数据集上的实验结果

如表1所示,DDRR算法AP达到33.25%,相比Faster R-CNN提升11.85%,相比YOLOv5提升9.15%,超越DNTR 0.15%。在小目标(APs)检测方面表现突出,相比DensityMap和CDMNet分别提升6.21%和5.31%。





image.png





不同自然环境下的航拍图像检测结果如图5所示,红色边框表示极端小目标区域。可以看到,DDRR模型显著地消除了假阴性和假阳性预测,特别是对于极端形状的小目标。





image.png





3.2.2 在AI-TOD-V2数据集上的实验结果

实验结果如表2所示,DDRR模型在 AI-TOD-V2 测试集上超越了包括基于卷积神经网络(Convolutional Neural Network,CNN) 和 基于Transformer方法在内的多种主流检测算法,取得了显著的性能提升。具体而言,AP 达到 27.3%,相比次优方法有明显优势。在针对极小目标(极端小目标检测精度,APvt)和微小目标(APt)时表现尤为突出,分别提升了 2.0% 和 3.1%,而在小目标(APs)和中目标(APm)检测上也分别提高了 1.8% 和 0.7%。这一性能优势说明DDRR模型在APvt检测和高密度场景下表现出显著的适应性。





image.png





3.2.3 计算效率分析

为验证DDRR算法在无人机巡检应用中的实时性能力,进行了全面的计算效率分析。实验在NVIDIA RTX 3090 GPU上进行,输入图像分辨率为1 024×1 024,批量大小为1,测试了推理速度、内存占用、计算复杂度等关键指标。

推理速度对比分析:如表3所示,DDRR算法在VisDrone数据集上的推理速度达到19.8 FPS,相比传统方法具有显著优势。具体而言,相比Faster R-CNN的15.2 FPS提升了30.3%,相比精度相近的DNTR的18.5 FPS提升了7.0%。这一性能提升主要得益于以下设计:1)采用DIoU替代复杂的广义Jensen-Shannon散度(Generalized Jensen-Shannon Divergence,GJSD)计算,单次匹配计算时间从1.2 ms降低至0.4 ms;2)智能早停机制使得平均迭代次数控制在2.3次,避免了不必要的计算开销;3)离散分布建模避免了连续积分计算,巴氏距离计算时间仅为0.18 ms。





image.png





3.3 消融实验

为验证所提出方法中各关键组件与设计策略的有效性,设计了一系列消融实验,涵盖逐步引入策略的性能评估和匹配分数构造方式对性能的影响。通过逐步拆解并测试各模块和策略,实验旨在全面量化每个组件的独立贡献,并分析其潜在的局限性。

3.3.1 各策略的效果

逐步引入各模块验证有效性。基础检测器AP为30.81%,加入APM后提升至31.15%,如图6所示,黄色表示先验样本框中心点,红色表示正样本。展示了FPN第一层特征层中锚点位置,可以看出,动态调整先验框位置能够显著改善与目标的初步对齐,为小目标引入更多的正样本,进一步引入CPSS后AP达到31.95%,应用FPSS后AP提升至32.58%,最终结合迭代移动策略达到33.25%,如表4所示。





image.png





3.3.2 匹配分数构造方式的影响

基于IoU的几何匹配AP为30.81%,改用DIoU提升至30.97%。加入移动分布匹配后AP提升至32.36%,最终综合3种匹配信息达到33.25%,如表5所示,验证了几何、分布和增强几何信息的互补性。





image.png





4 结论

本文提出了DDRR算法,系统性解决了无人机巡检中车辆和人员目标检测面临的尺寸微小、正样本稀缺和定位不确定性等核心挑战。算法通过自适应先验移动机制动态调整预测分布锐度,有效缓解先验框与目标错配问题;构建基于DIoU的高效粗正样本筛选机制,在降低计算复杂度的同时保持建模精度;开发基于巴氏距离的细正样本筛选模块,结合智能迭代策略实现精细化检测。在VisDrone和AI-TOD-V2数据集上的实验表明,DDRR算法AP分别达到33.25%和27.3%,相较主流检测器显著提升,推理速度19.8 FPS满足实时需求。算法为电力线路、管道监测、交通监控和边界安防等无人机巡检场景提供了高效精确的车辆与人员检测方案,未来可进一步探索特定场景优化、多模态融合、轻量化设计和时序跟踪等技术方向,以提升无人机巡检系统的智能化水平。

v