无人驾驶中红外视频转换为可见光视频的方法技术

技术编号:30962612 阅读:13 留言:0更新日期:2021-11-25 20:26
本发明专利技术公开一种无人驾驶中红外视频转换为可见光视频的方法,包括:步骤1,输入红外源域视频和可见光目标域视频;输出视频帧图像;步骤2,初始化参数;步骤3,随机读入数据;步骤4,生成对应的预测生成视频帧;步骤5,生成对应生成视频帧;步骤6,生成可见光预测帧;步骤7,计算损失函数;步骤8,优化生成器、特征提取器MLP、预测器及判别器的参数;步骤9,重复步骤3至8,直到达到最大迭代次数N或模型参数收敛。本发明专利技术所述方法从内容和风格的角度优化模型生成,重视频帧的细节生成,能够得到更好的模型输出结果,并使得模型的输出在时间和空间上都能保证良好的一致性,有效的缓解了连续帧间的风格漂移、模糊、闪烁等常见的问题。闪烁等常见的问题。闪烁等常见的问题。

【技术实现步骤摘要】
无人驾驶中红外视频转换为可见光视频的方法


[0001]本专利技术涉及视频转化
,具体涉及一种无人驾驶中红外视频转换为可见光视频的方法。

技术介绍

[0002]随着科学技术的发展,无人驾驶已逐步走进了人们的生活。通过不同的车载传感器,无人驾驶汽车能够感知外部世界,自动规划行车路线及执行智能驾驶操控,无人驾驶的最终目标是完全排除人为操控,因此优化汽车对外部世界的感知是最基础且最重要的步骤之一。在现实场景中,人的视觉和可见光传感器成像往往受到光照和极端天气条件(如雨、雾等)的影响。在这种情况下,一些车辆导航和监控系统会使用红外传感器来辅助视觉信号的采集,其热成像原理使得红外传感器在以上极端条件下仍能获得很好的视觉信号。但是,单通道的红外热成像在语义信息的描述能力上没有可见光成像一样易于被人理解,不利于研究人员对无人驾驶系统做出的决策进行深层次的分析和改进。此外,车载可见光视频的采集由于以上极端条件的影响,往往失去了它们的数据价值,无法应用到实际的研究工作中。而可见光数据在提升无人驾驶技术的研究中又是十分重要的一种数据源,许多目标检测、目标跟踪等无人驾驶所关心的研究,都需要高质量的可见光数据。因此,将车载红外传感器采集的红外视频转换为对应场景下的可见光视频,对无人驾驶技术的进一步研究具有重要价值。同时,现有的专利和技术中缺少相关的研究。
[0003]许多现有的图像、视频上色研究工作均基于对色彩通道的不同描述方式,旨在寻找某种线性或非线性映射关系,将灰度图转换为彩色图像,而红外成像的热成像原理无法直接套用可见光间的色彩描述关系,因而无法通过传统的数学方式进行红外与可见光成像间的转换。另外,随着数据的大规模增长,深度神经网络(Deep Neural Network,DNN)在计算机视觉任务上取得了极大的进展,许多基于DNN的图片风格迁移工作成为了研究热点。其中,基于风格、内容损失的最小化域间距离的方法是近年来无监督风格迁移领域最具前景的方法之一,通过最小化参照风格输入和目标输出之间的风格损失减小两种不同分布之间的域间距,使得模型的输出在风格上与参照风格相一致,而在内容上通过最小化内容损失,仍保留原有的内容和结构。但是,这种基于域间距离最小化的算法完全依赖于距离的度量方式,即损失函数的设计,由于无法精确地刻画风格信息之间的距离,使得算法性能受到影响。
[0004]此外,无人驾驶要求系统能够实时地作出操控响应。相比于某一时刻获取的图像而言,视频数据具有上下文信息,能够很好的表达当前场景信息,这使得视频数据天然适配于无人驾驶。而视频对于图片而言,增加了时间的维度,这使得以往针对图片的风格迁移模型不适用于视频的风格迁移,通过现有的图像风格迁移模型直接逐帧生成视频的结果会出现时空不一致,如前后风格漂移、视频帧间模糊、闪烁等问题。
[0005]例如,中国专利申请号CN202110278464.9公开了一种基于改进图像增强算法与生成对抗网络的夜景复原方法,包括以下步骤:S1:采集夜间图像,并利用MSRCP算法对夜间图
像进行增强处理;S2:判断增强处理后的夜间图像是否需要进行风格迁移,若是则进入步骤S3,否则进入步骤S4;S3:进行风格迁移,并进入步骤S4;S4:对增强处理后的夜间图像依次进行暗通道先验去雾和清晰度处理,完成夜景复原。适用于安防监控和有区域夜间取景需要的领域,对模型的泛化性要求不高。
[0006]又如,中国专利申请号CN200310108933.4通过一种图像融合的方式,在对红外图像和可见光图像分别进行多分辨率分解的基础上,利用红外图像和可见光图像不同的成像特性,从原图像中获得相对的“目标”信息和“背景”信息,以此将图像划分为背景区域,目标区域以及它们之间的边缘部分,对这三部分分别采用三种不同的融合规则来确定融合图像的多分辨率表示,最后经过多分辨率反变换得到融合图像。
[0007]再如,网络上公开的可用于无人驾驶任务中的红外与可见光数据集大部分针对于图像,它们并没有连续且对应的红外与可见光视频数据,VOT2019、FLIR以及KAIST数据集中虽然提供了对应场景的红外与可见光数据,但是它们的数据量较少,且数据集的采集场景较为单一,其中,VOT2019虽然提供了60个视频片段,但它们为监控场景下的红外和可见光数据,无法有效的应用于无人驾驶视频任务中;FLIR只有一个单一的视频片段,无法提供多样性的数据;KAIST虽然有大量的数据,但是采集场景单一,红外数据质量不佳,缺乏数据的多样性。
[0008]如上述专利技术专利申请中,一类局限于对现有效果不佳的可见光图像进行可视效果处理,没有利用红外图像的优势信息;另一类以图像融合的方式,呈现的可视化效果依旧保留红外图像的风格,无法像可见光图像直观地表达语义信息。
[0009]综上,由于域间间距过大,无法通过传统的数学方式进行色彩转换来解决无人驾驶中红外和可见光视频之间的转换;且由于视频的时空一致特性,现有针对图像的风格迁移方法不能满足视频的风格迁移工作。
[0010]有鉴于此,本专利技术提供一种无人驾驶中红外视频转换为可见光视频的方法。

技术实现思路

[0011]为了解决现有技术存在的上述技术问题,本专利技术提出了一种无人驾驶中红外视频转换为可见光视频的方法。
[0012]本专利技术采用以下技术方案:
[0013]步骤1,构建神经网络,其中包括:2个生成器G
X
和G
Y
、2个2层的MLP作为生成器中计算互信息时的特征提取器F
X
和F
Y
、2个预测器P
X
和P
Y
、2个判别器D
X
和D
Y

[0014]步骤2,以连续三帧为一个样本的方式将红外数据x0、x1、x2和可见光数据y0、y1、y2加载到网络,其中,每次读入批大小B(Batch size,B)组样本;
[0015]步骤3,预测器P
X
根据红外数据输入的前2帧x0、x1预测生成红外视频第3帧计算生成的第3帧与真实第3帧x2间的L1损失和感知损失,记作预测一致性损失;
[0016]步骤4,将红外视频数据的前2帧x0、x1输入至生成器G
Y
中获得可见光生成帧结果中获得可见光生成帧结果
[0017]步骤5,根据可见光生成帧结果和预测器P
Y
对可见光第3帧进行预测生成,获
得第3帧预测结果
[0018]步骤6,将可见光生成帧结果和第3帧预测结果输入到判别器D
Y
中,判断生成的帧是否真实并获得对抗损失,其中,计算出的对抗损失用来更新生成器和判别器;
[0019]步骤7,将可见光生成帧结果通过生成器G
X
重新生成属于红外输入域的红外图像计算重新生成的视频帧与对应原始视频帧x0、x1的L1损失与感知损失,记作循环一致性损失;
[0020]步骤8,将第3帧预测结果通过生成器G
X
重新本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种无人驾驶中红外视频转换为可见光视频的方法,其特征在于,包括:步骤1,构建神经网络,其中包括:2个生成器G
X
和G
Y
、2个2层的MLP作为生成器中计算互信息时的特征提取器F
X
和F
Y
、2个预测器P
X
和P
Y
、2个判别器D
X
和D
Y
;步骤2,以连续三帧为一个样本的方式将红外数据x0、x1、x2和可见光数据y0、y1、y2加载到网络;步骤3,预测器P
X
根据红外数据输入的前2帧x0、x1预测生成红外视频第3帧计算生成的第3帧与真实第3帧x2间的L1损失和感知损失,记作预测一致性损失;步骤4,将红外视频数据的前2帧x0、x1输入至生成器G
Y
中获得可见光生成帧结果中获得可见光生成帧结果步骤5,根据可见光生成帧结果和预测器P
Y
对可见光第3帧进行预测生成,获得第3帧预测结果步骤6,将可见光生成帧结果和第3帧预测结果输入到判别器D
Y
中,判断生成的帧是否真实并获得对抗损失;步骤7,将可见光生成帧结果通过生成器G
X
重新生成属于红外输入域的红外图像计算重新生成的视频帧与对应原始视频帧x0、x1的L1损失与感知损失,记作循环一致性损失;步骤8,将第3帧预测结果通过生成器G
X
重新生成属于源输入域的红外图像计算重新生成的视频帧与原始视频帧x2的L1损失与感知损失,记作循环预测损失;步骤9,计算目标可见光视频帧和对应的红外输入视频帧x0、x1、x2之间的InfoNCE互信息损失,获得跨域对比损失;步骤10,根据相邻视频帧之间的互信息差异,获得同域对比损失;步骤11,根据预测一致性损失、对抗损失、循环一致性损失、循环预测损失、跨域对比损失和同域对比损失更新生成器和判别器;步骤12,重复步骤2至步骤11,直至迭代次数达到最大。2.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤6中对抗损失函数如下:L
ADV
=∑
s
logD
Y
(y
s
)+∑
t
log(1

D
Y
(G
Y
(x
t
)))
……
(1),上式(1)中:y
s
表示目标域视频输入序列中的第s帧,x
t
表示源域视频输入序列中的第t帧。3.根据权利要求1所述的无人驾驶中红外视频转换为可见光视频的方法,其特征在于,步骤3中用于网络更新预测器的目标损失函数如下:L
PCP
=L
CON
+L
STY
……
(2),
L
RCUR
(P
X
)=∑
t
(||x2‑
P
X
(x0,x1)||1+λ1L
PCP
)
……
(5),上式(2)中,L
PCP
为感知损失,其中包括内容损失L
CON
和风格损失L
STY
;上式(3)表示损失网络在l层计算内容损失的方式,C
l
,H
l
,W
l
为网络l层对应的特征图大小,φ
l
(
·
)表示当前网络层l的特征提取;上式(4)表示损失网络在l层计算风格损失的方式,表示计算当前网络层l所提取特征的Gram矩阵;...

【专利技术属性】
技术研发人员:李爽刘驰韩秉峰
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1