基于深度学习的多模态场景识别方法技术

技术编号:21686974 阅读:40 留言:0更新日期:2019-07-24 14:54
本发明专利技术揭示了一种基于深度学习的多模态场景识别方法,包括如下步骤:S1、对短文本进行分词处理;S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练;S3、训练短文本分类模型;S4、训练图片分类模型;S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,最终得到完整的多模态场景识别模型;S6、将文本和图像预测结果向量相加,得到最终的分类结果;S7、将待识别的短文本和图像分别输入所训练出的所述多模态场景识别模型,进行场景识别。本发明专利技术提出了一种多模态场景搜索方式,为用户提供了更加精准、方便的场景识。

Multi-modal Scene Recognition Method Based on Deep Learning

【技术实现步骤摘要】
基于深度学习的多模态场景识别方法
本专利技术涉及一种多模态场景识别方法,具体涉及一种基于深度学习的多模态场景识别方法,属于人工智能、模式识别领域。
技术介绍
深度学习是机器学习的一个崭新的领域,其目的是让机器学习更加接近人类智能,卷积神经网络是深度学习的代表性算法,具有结构简单、适应性强、训练参数少而连接多等特点,因此,多年来这一网络被广泛地应用在图像处理和模式识别等领域。具体而言,卷积神经网络是一种层次模型,其输入是原始数据,通过卷积操作、池化操作、非线性激活函数等一系列操作的层层叠叠,将高层语意信息逐层从原始数据输入层中抽取出来、并逐层抽象。这一过程被称为“前馈运算”。最终,卷积神经网络最后一层输出目标函数,通过设计损失函数,计算预测值和真实值之间的误差损失,再通过反向传播算法,将误差由最后一层逐层向前反馈,更新每层参数,并在更新参数后再次前馈。如此往复,直到网络模型收敛,从而达到模型训练的目的。目前常用的模态融合方式主要包括决策融合和特征融合两种方式。决策融合是指在获得两个模态分类结果的基础上,对两类结果进行加权综合,得出最终结果。Meng-JuHan等在研究中提出了一种决策融合策略,这一策略将训练样本与决策平面的平均欧氏距离归一化后作为融合的权重,取得了比单模态高约5%的识别率。决策融合的方法虽然处理过程比较简单,但是其所获得的结果不够客观。特征融合则是指在将从两个模态提取出来的特征进行融合后再次进行分类。S.Emerich等在研究中对提取的面部表情特征和语音特征进行了特征的融合,融合后的特征识别率和鲁棒性较单模态均有提升。特征融合的方法所得出的结果比较客观,但事其实现方式则过于复杂。综上所述,如何在现有技术的基础上提出一种全新的多模态场景识别方法,尽可能地保留决策融合和特征融合两种方式各自的优点、克服其各自的不足,也就成为了本领域内技术人员亟待解决的问题。
技术实现思路
鉴于现有技术存在上述缺陷,本专利技术的目的是提出一种基于深度学习的多模态场景识别方法,包括如下步骤:S1、对短文本进行分词处理;S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练;S3、训练短文本分类模型;S4、训练图片分类模型;S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,反复进行训练,直至模型收敛,最终得到完整的多模态场景识别模型;S6、将经过训练的文本和图像预测结果向量相加,得到最终的分类结果;S7、将待识别的短文本和图像分别输入所训练出的所述多模态场景识别模型,进行场景识别。优选地,S1具体包括如下步骤:使用结巴分词工具对短文本进行分词处理。优选地,S3具体包括如下步骤:S31、将输入的短文本分词结果量化,输入三个并行卷积层中;S32、将所述三个并行卷积层的输出依次送入线性修正单元层和池化层中,得到多个池化输出结果;S33、将多个所述池化输出结果连接在一起,经过随机丢弃,作为全连接层的输入,最后计算全连接层,得到文本分类预测结果向量输出。优选地,所述三个并行卷积层包括第一卷积层、第二卷积层以及第三卷积层,所述第一卷积层具有384个3*128大小的卷积核,所述第二卷积层具有256个4*128大小的卷积核,所述第三卷积层具有128个5*128大小的卷积核。优选地,S4具体包括如下步骤:S41、将输入的图片送入第一层卷积网络,通过设计的卷积核个数提取图片中相应的特征个数,输出卷积层结果;S42、将卷积层的输出进行池化,通过卷积核压缩数据核参数的量,减少过拟合,再将池化结果输入下一层卷积,反复经过4次卷积池化,使卷积核内的权值初始化为随机值,并不断训练获得模型参数;S43、将最后一层池化结果输入全连接层,经过随机丢弃,计算得到图像分类预测结果向量输出。优选地,S5中所述计算平均欧式距离并以此作为损失值,具体包括如下步骤:使用损失函数S计算损失值,所述损失函数S的计算公式为其中,h1=H(p1,q1),h2=H(p2,q2),h3=H(p1,p2),p1为S3中输出的文本分类预测结果向量,p2为S4中输出的图像分类预测结果向量,q1为文本分类标准结果向量,q2为图像分类标准结果向量,H(·)为交叉熵函数。优选地,S6具体包括如下步骤:使用Softmax函数将训练好的文本和图像预测结果向量相加,得到最终的分类结果。与现有技术相比,本专利技术的优点主要体现在以下几个方面:本专利技术所提供的基于深度学习的多模态场景识别方法,提出了一种全新的多模态场景搜索方式,为用户提供了更加精准、方便的场景识别手段。本专利技术的方法全面提取了文字与图像的特征,并设计了新的损失函数,利用多种模态的信息,提高了场景识别的准确率。本专利技术也为同领域内的其他相关问题提供了参考,可以以此为依据进行拓展延伸,运用于其他与场景识别方法相关的技术方案中,具有十分广阔的应用前景。以下便结合实施例附图,对本专利技术的具体实施方式作进一步的详述,以使本专利技术技术方案更易于理解、掌握。附图说明图1为本专利技术所构建的多模态场景识别模型的结构示意图。具体实施方式本专利技术针对现有场景识别方法结果不准确、复杂度高等问题提供了一种新的基于深度学习的多模态场景识别方法,将输入的多模态信息,利用卷积神经网络分别提取图像和文本模态的特征信息,并将多模态特征信息进行融合,提高场景识别的准确率。进一步而言,本专利技术的基于深度学习的多模态场景识别方法,包括如下步骤。S1、使用结巴分词工具对短文本进行分词处理。S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练。S3、训练短文本分类模型。具体包括如下步骤:S31、在短文本分类模型的训练过程中,将输入的短文本分词结果量化,输入三个并行卷积层中。所述三个并行卷积层包括第一卷积层、第二卷积层以及第三卷积层,所述第一卷积层具有384个3*128大小的卷积核,所述第二卷积层具有256个4*128大小的卷积核,所述第三卷积层具有128个5*128大小的卷积核。S32、将所述三个并行卷积层的输出依次送入线性修正单元(relu)层和池化层中,得到多个池化输出结果。S33、将多个所述池化输出结果连接在一起,经过随机丢弃,作为全连接层的输入,最后计算全连接层,得到文本分类预测结果向量输出。S4、训练图片分类模型。具体包括如下步骤:S41、将输入的图片送入第一层卷积网络,通过设计的卷积核个数提取图片中相应的特征个数,输出卷积层结果。S42、将卷积层的输出进行池化,通过卷积核压缩数据核参数的量,减少过拟合,再将池化结果输入下一层卷积,反复经过4次卷积池化,使卷积核内的权值初始化为随机值,并不断训练获得适用于本专利技术方法所使用的模型参数。S43、将最后一层池化结果输入全连接层,经过随机丢弃,计算得到图像分类预测结果向量输出。S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,反复进行训练,直至模型收敛,最终得到完整的多模态场景识别模型。模型结构如图1所示。所述计算平均欧式距离并以此作为损失值,具体包括如下步骤:使用损失函数S计算损失值,所述损失函数S的计算公式为其中,h1=H(p1,q1),h2本文档来自技高网
...

【技术保护点】
1.一种基于深度学习的多模态场景识别方法,其特征在于,包括如下步骤:S1、对短文本进行分词处理;S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练;S3、训练短文本分类模型;S4、训练图片分类模型;S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,反复进行训练,直至模型收敛,最终得到完整的多模态场景识别模型;S6、将经过训练的文本和图像预测结果向量相加,得到最终的分类结果;S7、将待识别的短文本和图像分别输入所训练出的所述多模态场景识别模型,进行场景识别。

【技术特征摘要】
1.一种基于深度学习的多模态场景识别方法,其特征在于,包括如下步骤:S1、对短文本进行分词处理;S2、将一组图片和短文本分词及相应的标签输入各自的卷积神经网络中进行训练;S3、训练短文本分类模型;S4、训练图片分类模型;S5、将S3与S4中的全连接层输出分别与标准分类结果计算交叉熵,计算平均欧式距离并以此作为损失值,随后再反馈回各自的卷积神经网络,反复进行训练,直至模型收敛,最终得到完整的多模态场景识别模型;S6、将经过训练的文本和图像预测结果向量相加,得到最终的分类结果;S7、将待识别的短文本和图像分别输入所训练出的所述多模态场景识别模型,进行场景识别。2.根据权利要求1所述的基于深度学习的多模态场景识别方法,其特征在于,S1具体包括如下步骤:使用结巴分词工具对短文本进行分词处理。3.根据权利要求1所述的基于深度学习的多模态场景识别方法,其特征在于,S3具体包括如下步骤:S31、将输入的短文本分词结果量化,输入三个并行卷积层中;S32、将所述三个并行卷积层的输出依次送入线性修正单元层和池化层中,得到多个池化输出结果;S33、将多个所述池化输出结果连接在一起,经过随机丢弃,作为全连接层的输入,最后计算全连接层,得到文本分类预测结果向量输出。4.根据权利要求3所述的基于深度学习的多模态场景识别方法,其特征在于:所述三个并行卷积层包括第一卷积层、第二卷积层以及第三卷积层,所述第一...

【专利技术属性】
技术研发人员:吴家皋刘源孙璨郑剑刚
申请(专利权)人:南京邮电大学
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1