一种基于多模态深度学习的环境识别方法及装置制造方法及图纸

技术编号：38347344 阅读：11 留言：0更新日期：2023-08-02 09:27

本发明专利技术公开了一种基于多模态深度学习的环境识别方法及装置，方法包括：利用归一化方法从气象数据中提取定长维度的第一特征向量；从音频数据中提取声学场景声音序列的第二特征向量；从图像数据中提取包含2D特征的第三特征向量；气象数据、音频数据及图像数据为在同一时间对目标环境采集得到的数据；将第一特征向量、第二特征向量及第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型，得到包括气象数据、音频数据及图像数据融合特征的融合特征向量；通过MKL多核分类器根据融合特征向量各个通道对应的权重确定目标环境的类别。本发明专利技术可以提高环境识别的准确性，可广泛应用于环境学习领域。广泛应用于环境学习领域。广泛应用于环境学习领域。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于多模态深度学习的环境识别方法及装置

[0001]本专利技术涉及环境学习
，尤其是一种基于多模态深度学习的环境识别方法及装置。

技术介绍

[0002]目前广泛采用的环境场景识别技术多为通过视觉数据通过分类模型分析实现，在实际的环境中，需要汇聚更多的数据实现对于场景更精准的识别，例如综合气象数据、声音及视觉来对环境进行更精准的识别，在这样的背景下，基于气象数据、声音数据和视觉数据，进行融合特征分析，结合机器学习和深度学习及迁移学习技术，成为环境场景识别分析的有效手段。
[0003]但是，现有技术针对环境识别分析通常基于单模态，例如声音、麦克矩阵或者视觉图像进行模型训练，而在实际应用中，通常有气象仪数据、声音及视觉多模态数据，现有技术不具备多模态分析任务的能力，难以精准进行环境监测及保护。

技术实现思路

[0004]有鉴于此，本专利技术实施例提供一种基于多模态深度学习的环境识别方法及装置，以提高环境识别的准确度。
[0005]本专利技术实施例的一方面提供了一种基于多模态深度学习的环境识别方法，包括：
[0006]利用归一化方法从气象数据中提取定长维度的第一特征向量；从音频数据中提取声学场景声音序列的第二特征向量；从图像数据中提取包含2D特征的第三特征向量；所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据；
[0007]将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型，得到包括所述...

【技术保护点】

【技术特征摘要】
1.一种基于多模态深度学习的环境识别方法，其特征在于，包括：利用归一化方法从气象数据中提取定长维度的第一特征向量；从音频数据中提取声学场景声音序列的第二特征向量；从图像数据中提取包含2D特征的第三特征向量；所述气象数据、所述音频数据及所述图像数据为在同一时间对目标环境采集得到的数据；将所述第一特征向量、所述第二特征向量及所述第三特征向量输入包括卷积神经网络与循环神经网络的多模态深度模型，得到包括所述气象数据、所述音频数据及所述图像数据融合特征的融合特征向量；通过MKL多核分类器根据所述融合特征向量各个通道对应的权重确定所述目标环境的类别。2.根据权利要求1所述的一种基于多模态深度学习的环境识别方法，其特征在于，所述利用归一化方法从气象数据中提取定长维度的第一特征向量，包括：利用归一化方法从结构化的气象数据中提取定长维度的特征向量，作为第一特征向量。3.根据权利要求1所述的一种基于多模态深度学习的环境识别方法，其特征在于，所述从音频数据中提取声学场景声音序列的第二特征向量，包括：对所述音频数据以0.5s的时长进行划分，划分标签与所述音频数据的原标签一致，重采样为单声道16kHZ；采用0.5s的帧移，以及周期性的汉宁窗口对划分的音频数据进行分帧，并做短时傅里叶变换与信号幅值计算，得到声谱图；将所述声谱图映射到梅尔滤波器，得到梅尔谱特征向量，作为第二特征向量。4.根据权利要求1所述的一种基于多模态深度学习的环境识别方法，其特征在于，所述从图像数据中提取包含2D特征的第三特征向量，包括：从对所述目标环境拍摄得到的视频数据中每秒采集设定数量的采样图像，并将所述采样图像转化为统一且特定的分辨率；将采样时间连续的两张采样图像转化为单个图像，得到一个以上的单个图像，作为图像数据；将所述图像数据输入不同维度的内核，并通过上采样层将不同核尺寸提取得到的2D特征转换为统一的二维特征，作为第三特征向量。5.根据权利要求1所述的一种基于多模态深度学习的环境识别方法，其特征在于，所述多模态深度模型的训练过程，包括：通过卷积神经...

【专利技术属性】
技术研发人员：石磊，宋卫华，
申请(专利权)人：珠海高凌信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人