【技术实现步骤摘要】
基于人工智能的图像场景识别方法、装置及电子设备
[0001]本申请涉及人工智能技术,尤其涉及一种基于人工智能的图像场景识别方法、装置、电子设备及计算机可读存储介质。
技术介绍
[0002]人工智能(AI,Artificial Intelligence)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法和技术及应用系统。
[0003]图像理解的首要任务是对图像场景进行识别,例如,针对视频而言,需要针对视频内剧情发生的场景进行识别,通过理解视频中剧情发生的场景,确定视频的标签,从而进行高效率的视频推荐,例如,针对手机拍摄的相片而言,需要针对相片的场景进行识别,通过理解相片的场景,确定相片的标签,从而提高相片分类存储的效率,但是相关技术的图像识别主要针对某个特定对象提取特征,无法有效进行高准确度的场景识别。
技术实现思路
[0004]本申请实施例提供一种基于人工智能的图像场景识别方法、装置、电子设备及计算机可读存储介质,能够提高图像场景识别的准确度。
[0005]本申请实施例的技术方案是这样实现的:本申请实施例提供一种基于人工智能的图像场景识别方法,包括:获取图像的全局特征;对所述图像进行注意力处理,得到所述图像中背景的至少一个局部区域;获取每个所述局部区域的局部特征,对至少一个所述局部特征以及所述全局特征进行融合处理,得到所述图像中背景的融合特征;基于所述融合特征对所述图像进行场景分类处理,得到所述图像所属的场景。 >[0006]本申请实施例提供一种基于人工智能的图像场景识别装置,包括:全局模块,用于获取图像的全局特征;注意力模块,用于对所述图像进行注意力处理,得到所述图像中背景的至少一个局部区域;融合模块,用于获取每个所述局部区域的局部特征,对至少一个所述局部特征以及所述全局特征进行融合处理,得到所述图像中背景的融合特征;分类模块,用于基于所述融合特征对所述图像进行场景分类处理,得到所述图像所属的场景。
[0007]在上述方案中,所述全局模块,还用于:提取所述图像的全局卷积特征;对所述全局卷积特征进行池化处理,得到所述图像的全局池化特征;对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行池化处理,得到所述图像的全局特征。
[0008]在上述方案中,所述全局模块,还用于:通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理;将所述第n残差网络输出的第n特征提取结果传输到第n+1残差网络以继续进行特征提取处理;其中,N为大于或等于2的整数,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N
‑
1;当n取值为1时,所述第n残差网络的输入为所述图像的全局池化特征,当n取值为2≤n≤N
‑
1时,所述第n残差网络的输入为第n
‑
1残差网络的特征提取结果;当n取值为N
‑
1时,对所述第n+1残差网络的输出的特征提取结果进行最大池化处理。
[0009]在上述方案中,所述全局模块,还用于:对所述第n
‑
1残差网络的输出以及第n
‑
1残差网络的输入进行融合处理,得到融合处理结果;对所述融合处理结果进行激活处理,通过所述第n残差网络的卷积层对激活处理结果进行多尺寸的卷积处理。
[0010]在上述方案中,所述注意力模块,还用于:提取所述图像中背景的全局卷积特征;对所述全局卷积特征进行池化处理,得到所述图像的全局池化特征;对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个所述局部区域。
[0011]在上述方案中,所述注意力模块,还用于:对所述特征提取结果进行池化处理,对池化处理结果进行注意力强度预测处理,得到所述池化处理结果中每个空间坐标的注意力强度;对每个所述空间坐标进行回溯处理,得到对应每个所述空间坐标的候选区域;基于多个所述候选区域的注意力强度,对多个所述候选区域进行非极大值抑制处理,得到至少一个所述局部区域。
[0012]在上述方案中,所述注意力模块,还用于:当所述候选区域的数目大于区域数目阈值时,执行以下处理:将多个所述候选区域的注意力强度进行排序,根据排序结果将注意力强度最高的候选区域确定为所述局部区域;针对所述排序结果中除注意力强度最高的候选区域之外的每个候选区域,执行以下处理:确定每个所述候选区域与所述排序结果中注意力强度最高的候选区域之间的交并比,并将交并比大于交并比阈值的候选区域标记为非候选区域。
[0013]在上述方案中,所述融合模块,还用于:提取所述图像中每个所述局部区域的局部卷积特征;对所述局部卷积特征进行池化处理,得到所述图像中每个所述局部区域的池化特征;对每个所述局部区域的池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行池化处理,得到每个所述局部区域的局部特征。
[0014]在上述方案中,所述融合模块,还用于:对至少一个所述局部特征以及所述全局特征进行首尾相连处理,得到所述图像中背景的融合特征;所述分类模块,还用于:对所述融合特征进行概率映射处理,得到所述图像属于每个候选场景的联合概率;将最大联合概率对应的候选场景确定为所述图像所属的场景。
[0015]在上述方案中,针对所述图像的所述场景分类处理是通过场景识别模型实现的,所述场景识别模型是通过图像识别模型以及注意力定位模型进行辅助训练得到的;所述装置还包括:训练模块,用于:基于图像样本以及图像分类损失函数单独训练所述图像识别模型;对所述图像分类损失函数、联合分类损失函数、以及定位损失函数进行融合处理,得到整体损失函数;基于所述图像样本以及所述整体损失函数,将所述场景识别模型、单独训练后的所述图像识别模型以及所述注意力定位模型作为一个整体进行训练;其中,所述场景
识别模型、所述图像识别模型以及所述注意力定位模型共享特征提取网络。
[0016]在上述方案中,所述训练模块,还用于:在所述图像识别模型每次迭代训练过程中执行以下处理:通过所述特征提取网络提取所述图像样本的全局特征,通过所述图像识别模型的全局全连接层,将所述全局特征映射为属于预标记类别的预测全局概率;将对应所述图像样本的预标记类别和所述预测全局概率代入所述图像分类损失函数,以确定所述图像分类损失函数取得最小值时所述图像识别模型的参数。
[0017]在上述方案中,所述训练模块,还用于:通过所述场景识别模型确定所述图像样本属于预标记类别的预测联合概率;通过所述图像识别模型确定所述图像样本属于所述预标记类别的预测全局概率;通过所述注意力定位模型预测所述图像样本的多个样本局部区域,以确定每个所述样本局部区域中图像内容属于所述预标记类别的预测定位概率;将所述预测联合概率、所述预测定位概率、所述预测全局概率以及所述预标记类别代入所述整体损失函数,以确定所述整体损失函数取得最小值时所述场景识别模型、所述图像本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于人工智能的图像场景识别方法,其特征在于,所述方法包括:获取图像的全局特征;对所述图像进行注意力处理,得到所述图像中背景的至少一个局部区域;获取每个所述局部区域的局部特征,对至少一个所述局部特征以及所述全局特征进行融合处理,得到所述图像中背景的融合特征;基于所述融合特征对所述图像进行场景分类处理,得到所述图像所属的场景。2.根据权利要求1所述的方法,其特征在于,所述获取图像的全局特征,包括:提取所述图像的全局卷积特征;对所述全局卷积特征进行池化处理,得到所述图像的全局池化特征;对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行池化处理,得到所述图像的全局特征。3.根据权利要求2所述的方法,其特征在于,所述对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行池化处理,包括:通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理;将所述第n残差网络输出的第n特征提取结果传输到第n+1残差网络以继续进行特征提取处理;其中,N为大于或等于2的整数,n为取值从1开始递增的整数,且n的取值范围满足1≤n≤N
‑
1;当n取值为1时,所述第n残差网络的输入为所述图像的全局池化特征,当n取值为2≤n≤N
‑
1时,所述第n残差网络的输入为第n
‑
1残差网络的特征提取结果;当n取值为N
‑
1时,对所述第n+1残差网络的输出的特征提取结果进行最大池化处理。4.根据权利要求3所述的方法,其特征在于,所述通过N个级联的残差网络中的第n残差网络,对所述第n残差网络的输入进行特征提取处理,包括:对第n
‑
1残差网络的输出以及所述第n
‑
1残差网络的输入进行融合处理,得到融合处理结果;对所述融合处理结果进行激活处理,通过所述第n残差网络的卷积层对激活处理结果进行多尺寸的卷积处理。5.根据权利要求1所述的方法,其特征在于,所述对所述图像进行注意力处理,得到所述图像中背景的至少一个局部区域,包括:提取所述图像中背景的全局卷积特征;对所述全局卷积特征进行池化处理,得到所述图像的全局池化特征;对所述全局池化特征进行多个层次的残差处理,并对所述残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个所述局部区域。6.根据权利要求5所述的方法,其特征在于,所述对所述残差处理得到的特征提取结果进行局部区域预测处理,得到至少一个所述局部区域,包括:对所述特征提取结果进行下采样处理,对下采样处理结果进行注意力强度预测处理,得到所述下采样处理结果中每个空间坐标的注意力强度;
对每个所述空间坐标进行回溯处理,得到对应每个所述空间坐标的候选区域;基于多个所述候选区域的注意力强度,对多个所述候选区域进行非极大值抑制处理,得到至少一个所述局部区域。7.根据权利要求6所述的方法,其特征在于,所述基于多个所述候选区域的注意力强度,对多个所述候选区域进行非极大值抑制处理,得到至少一个所述局部区域,包括:当所述候选区域的数目大于区域数目阈值时,执行以下处理:将多个所述候选区域的注意力强度进行排序,根据排序结果将注意力强度最高的候选区域确定为所述局部区域;所述方法还包括:针对所述排序结果中除注意力强度最高的候选区域之外的每个候选区域,执行以下处理:确定每个所述候选区域与所述排序结果中注意力强度最高的候选区域之间的交并比,并将交并比大于交并比阈值的候选区域标记为非候选区域。8.根据权利要求1所述的方法,其特征在于,所述获取每个所述局部区域的局部...
【专利技术属性】
技术研发人员:郭卉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。