一种基于多模态深度学习的环境识别方法及装置制造方法及图纸

技术编号:38347344 阅读:11 留言:0更新日期:2023-08-02 09:27
本发明专利技术公开了一种基于多模态深度学习的环境识别方法及装置,方法包括:利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2D特征的第三特征向量;气象数据、音频数据及图像数据为在同一时间对目标环境采集得到的数据;将第一特征向量、第二特征向量及第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括气象数据、音频数据及图像数据融合特征的融合特征向量;通过MKL多核分类器根据融合特征向量各个通道对应的权重确定目标环境的类别。本发明专利技术可以提高环境识别的准确性,可广泛应用于环境学习领域。广泛应用于环境学习领域。广泛应用于环境学习领域。

【技术实现步骤摘要】
一种基于多模态深度学习的环境识别方法及装置


[0001]本专利技术涉及环境学习
,尤其是一种基于多模态深度学习的环境识别方法及装置。

技术介绍

[0002]目前广泛采用的环境场景识别技术多为通过视觉数据通过分类模型分析实现,在实际的环境中,需要汇聚更多的数据实现对于场景更精准的识别,例如综合气象数据、声音及视觉来对环境进行更精准的识别,在这样的背景下,基于气象数据、声音数据和视觉数据,进行融合特征分析,结合机器学习和深度学习及迁移学习技术,成为环境场景识别分析的有效手段。
[0003]但是,现有技术针对环境识别分析通常基于单模态,例如声音、麦克矩阵或者视觉图像进行模型训练,而在实际应用中,通常有气象仪数据、声音及视觉多模态数据,现有技术不具备多模态分析任务的能力,难以精准进行环境监测及保护。

技术实现思路

[0004]有鉴于此,本专利技术实施例提供一种基于多模态深度学习的环境识别方法及装置,以提高环境识别的准确度。
[0005]本专利技术实施例的一方面提供了一种基于多模态深度学习的环境识别方法,包括:
[0006]利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2D特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;
[0007]将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;
[0008]通过MKL多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。
[0009]优选地,所述利用归一化方法从气象数据中提取定长维度的第一特征向量,包括:
[0010]利用归一化方法从结构化的气象数据中提取定长维度的特征向量,作为第一特征向量。
[0011]优选地,所述从音频数据中提取声学场景声音序列的第二特征向量,包括:
[0012]对所述音频数据以0.5s的时长进行划分,划分标签与所述音频数据的原标签一致,重采样为单声道16kHZ;
[0013]采用0.5s的帧移,以及周期性的汉宁窗口对划分的音频数据进行分帧,并做短时傅里叶变换与信号幅值计算,得到声谱图;
[0014]将所述声谱图映射到梅尔滤波器,得到梅尔谱特征向量,作为第二特征向量。
[0015]优选地,所述从图像数据中提取包含2D特征的第三特征向量,包括:
[0016]从对所述目标环境拍摄得到的视频数据中每秒采集设定数量的采样图像,并将所述采样图像转化为统一且特定的分辨率;
[0017]将采样时间连续的两张采样图像转化为单个图像,得到一个以上的单个图像,作为图像数据;
[0018]将所述图像数据输入不同维度的内核,并通过上采样层将不同核尺寸提取得到的2D特征转换为统一的二维特征,作为第三特征向量。
[0019]优选地,所述多模态深度模型的训练过程,包括:
[0020]通过卷积神经网络将权重矩阵与下层激活矩阵进行卷积使用反向传播对权重进行训练,以获得多个隐藏层;
[0021]通过循环神经网络按时间序列建模依赖关系,每个隐藏层状态都是前一状态的函数;
[0022]通过卷积循环神经网络捕获训练图像数据中的空间结构信息,通过循环神经网络捕获训练视频序列中固有的空间和时间模式。
[0023]优选地,所述将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量,包括:
[0024]将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络,得到卷积神经网络的第一输出与循环神经网络的第二输出;
[0025]融合所述第一输出与所述第二输出,得到融合特征向量。
[0026]本专利技术实施例的另一方面还提供了一种基于多模态深度学习的环境识别装置,包括:
[0027]特征提取单元,用于利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2D特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;
[0028]特征融合单元,用于将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;
[0029]类别预测单元,用于通过MKL多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。
[0030]本专利技术实施例的另一方面还提供了一种电子设备,包括处理器以及存储器;
[0031]所述存储器用于存储程序;
[0032]所述处理器执行所述程序实现上述的方法。
[0033]本专利技术实施例的另一方面还提供了一种计算机可读存储介质,所述存储介质存储有程序,所述程序被处理器执行实现上述的方法。
[0034]本专利技术实施例还公开了一种计算机程序产品或计算机程序,该计算机程序产品或计算机程序包括计算机指令,该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令,处理器执行该计算机指令,使得该计算机设备执行上述的方法。
[0035]本专利技术采用融合目标环境的气象数据、音频数据及图像数据,并通过进行多模态特征融合训练深度卷积神经网络模型结合的方法,进行环境场景识别,相比现有的环境场景的识别方法,提升了环境场景识别的准确率和稳定性,同时本专利技术提出的模型有更好的适应性,能在短时间内生成可靠的场景分析深度学习模型,提高了模型的实用价值。
附图说明
[0036]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0037]图1为本专利技术实施例提供的一种基于多模态深度学习的环境识别方法的流程示意图;
[0038]图2为本专利技术实施例提供的一种基于多模态深度学习的环境识别方法的示例流程图;
[0039]图3为本专利技术实施例提供的一种基于多模态深度学习的环境识别方法的算法流程图;
[0040]图4为本专利技术实施例提供的一种基于多模态深度学习的环境识别方法的示例代码图;
[0041]图5为本专利技术实施例提供的一种基于多模态深度学习的环境识别装置的结构框图。
具体实施方式
[0042]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本专利技术进行进一步详细说明。本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于多模态深度学习的环境识别方法,其特征在于,包括:利用归一化方法从气象数据中提取定长维度的第一特征向量;从音频数据中提取声学场景声音序列的第二特征向量;从图像数据中提取包含2D特征的第三特征向量;所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据;将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型,得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量;通过MKL多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。2.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述利用归一化方法从气象数据中提取定长维度的第一特征向量,包括:利用归一化方法从结构化的气象数据中提取定长维度的特征向量,作为第一特征向量。3.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述从音频数据中提取声学场景声音序列的第二特征向量,包括:对所述音频数据以0.5s的时长进行划分,划分标签与所述音频数据的原标签一致,重采样为单声道16kHZ;采用0.5s的帧移,以及周期性的汉宁窗口对划分的音频数据进行分帧,并做短时傅里叶变换与信号幅值计算,得到声谱图;将所述声谱图映射到梅尔滤波器,得到梅尔谱特征向量,作为第二特征向量。4.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述从图像数据中提取包含2D特征的第三特征向量,包括:从对所述目标环境拍摄得到的视频数据中每秒采集设定数量的采样图像,并将所述采样图像转化为统一且特定的分辨率;将采样时间连续的两张采样图像转化为单个图像,得到一个以上的单个图像,作为图像数据;将所述图像数据输入不同维度的内核,并通过上采样层将不同核尺寸提取得到的2D特征转换为统一的二维特征,作为第三特征向量。5.根据权利要求1所述的一种基于多模态深度学习的环境识别方法,其特征在于,所述多模态深度模型的训练过程,包括:通过卷积神经...

【专利技术属性】
技术研发人员:石磊宋卫华
申请(专利权)人:珠海高凌信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1