本发明专利技术提供一种基于距离预测信息的图像视频场景识别方法,所述方法至少包括:步骤一、采用已有的图像训练集训练获得距离预测模型,将所述距离预测模型应用于待预测的RGB图像,获取所述RGB图像对应的距离预测信息,再从所述距离预测信息中提取距离特征;步骤二、采用已有的图像视频集训练获得特征分类器,利用所述特征分类器和所述距离特征进行预测,得到图像视频的场景类别。本发明专利技术的图像视频场景识别的方法,利用基于RGB图像内容的距离预测信息,获取表示距离预测信息及视觉颜色信息等图像特征,再利用训练的各种分类器,对待预测RGB图像进行场景识别,提高了图像视频场景识别的能力。
【技术实现步骤摘要】
本专利技术属于信息
,涉及一种图像视频场景识别方法,特别是涉及一种基于距离预测信息的图像视频场景识别方法。
技术介绍
场景理解是计算机视觉领域的一个重要问题。图像视频场景识别作为场景理解的一个主要任务,是指利用图像视频中的视觉信息,自动对其进行处理和分析,并判断出其中所带有的特定场景。随着过去几十年来互联网技术和大容量存储技术的快速发展,大规模图像视频数据集陆续出现,各类场景识别方法被提出,其一般步骤包括:先对图像视频的视觉信息进行描述,也被称为视觉特征提取;再使用已经获取的针对不同场景的识别模型对上述视觉特征进行特征匹配和分类,最终得到图像视频场景识别的结果。视觉特征大致包括底层视觉特征、中层视觉特征和基于学习的特征。底层视觉特征主要是对图像视频颜色、纹理等视觉信息的直接描述。中层视觉特征通常需要设计大量的视觉概念检测器,或挑选出较有区分性的图像区域,再利用概念检测器的结果或图像区域的特征连接构成中层特征表示。基于学习的特征通过训练特征学习模型,例如深度神经网络模型,将模型的输出或中间结果作为特征表示。上述几类视觉特征都是基于图像视频的视觉内容信息,而根据认知科学的研究,视觉画面的距离信息或深度信息对人类识别所处的场景能够起到重要的作用。近年来,随着以Kinect为代表的摄像机的出现,人们可以更加容易的获取带有距离信息的图像视频,这类图像被称为RGB-D图像/视频(RGB-D分别代表Red Green Blue Depth通道),而传统摄像机获取的不带有距离信息的图像也可称为RGB图像/视频。基于RGB-D图像的方法在姿态识别、图像分割、物体检测等任务上取得了性能的提升。在场景识别领域,使用基于RGB-D图像训练的模型也进一步提升了RGB-D图像的识别精度。但是,这类方法还有较大的局限性,包括:1、方法的测试和使用是针对带有距离信息的RGB-D图像,而实际应用过程中,大多数摄像头都只能采集RGB信息而不能获取距离信息,这就限制了模型的可用性;2、用于训练模型的是RGB-D数据集,但RGB-D图像视频数据数量大大小于仅包含RGB信息的数据,这将影响到模型最终的识别效果。
技术实现思路
鉴于以上所述现有技术的缺点,本专利技术的目的在于提供一种基于距离预测信息的图像视频场景识别方法,用于解决现有技术中场景识别精度低、效果差的问题。为实现上述目的及其他相关目的,本专利技术提供一种基于距离预测信息的图像视频场景识别方法,所述识别方法至少包括:步骤一、采用已有的图像训练集训练获得距离预测模型,将所述距离预测模型应用于待预测的RGB图像,获取所述RGB图像对应的距离预测信息,再从所述距离预测信息中提取距离特征;步骤二、采用已有的图像视频集训练获得特征分类器,利用所述特征分类器和所述距离特征进行预测,得到图像视频的场景类别。优选地,所述步骤一中,采用已有的RGB-D图像训练集训练多尺度下的距离预测模型,并将所述多尺度下的距离预测模型合并得到最终的预测模型,利用最终的预测模型获取所述RGB图像对应的距离预测信息后,从所述距离预测信息中直接提取距离特征。优选地,所述RGB-D图像训练集还包含一部分带有距离标注信息的RGB图像。优选地,对获取的所述距离预测信息进行数值变换,从变换后的距离预测信息中提取距离特征。优选地,进行数值变化之前,将获得所述距离预测信息结合待预测的RGB图像生成新的RGB-D图像,再将新的RGB-D图像加入已有的RGB-D图像训练集,从而扩展已有的RGB-D图像训练集。优选地,所述步骤一中,采用全卷积神经网络或者条件随机场算法训练获得所述距离预测模型。优选地,所述步骤一中,从所述距离预测信息中提取距离特征的方法为:直接提取RGB图像上的全局统计信息和局部纹理信息,进而生成全局或局部的距离特征表示,或者使用基于全卷积神经网络的机器学习的特征提取算法生成特征提取模型,进而生成深度信息图像的高层语义距离特征表示。优选地,所述步骤二中,所述特征分类器为SVM、神经网络或者决策树。优选地,所述步骤二中,所述特征分类器包括距离特征分类器,利用所述距离特征分类器和所述距离特征进行预测,得到图像视频的场景类别。优选地,所述步骤二中,所述特征分类器包括距离特征分类器和视觉特征分类器,先通过所述步骤一提取所述距离特征,同时从待预测的RGB图像提取视觉特征,对所述距离特征,利用所述距离特征分类器进行预测,获得所述距离特征的场景识别置信度,对所述视觉特征,利用所述视觉特征分类器进行预测,获得所述视觉特征的场景识别置信度,最后融合距离特征的场景识别置信度和视觉特征景识别置信度,得到图像视频的场景类别。优选地,所述特征分类器包括融合特征分类器,通过所述步骤一提取所述距离特征,同时从待预测的RGB图像提取视觉特征,将所述距离特征和视觉特征进行融合,获得融合后的图像特征,再利用已有的图像视频集训练获得所述融合特征分类器,对所述融合后的图像特征,利用所述融合特征分类器进行预测,得到图像视频的场景类别。如上所述,本专利技术的基于距离预测信息的图像视频场景识别方法,所述方法至少包括:步骤一、采用已有的图像训练集训练获得距离预测模型,将所述距离预测模型应用于待预测的RGB图像,获取所述RGB图像对应的距离预测信息,再从所述距离预测信息中提取距离特征;步骤二、采用已有的图像视频集训练获得特征分类器,利用所述特征分类器和所述距离特征进行预测,得到图像视频的场景类别。本专利技术的图像视频场景识别的方法,利用基于视觉内容的距离预测信息,获取表示距离预测信息及视觉颜色信息等视觉特征,再利用训练的各种分类器,对RGB图像进行场景识别,提高了图像视频场景识别的能力。附图说明图1是本专利技术实施例一中的距离预测信息的特征表示的流程示意图。图2是本专利技术实施例二中的距离预测信息的特征表示的流程示意图。图3是本专利技术实施例三中场景识别的方法其中一种流程示意图。图4是本专利技术实施例四中场景识别的方法另一种流程示意图。图5是本专利技术实施例五中场景识别的方法再一种流程示意图。具体实施方式以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。请参阅附图。需要说明的是,本实施例中所提供的图示仅以示意方式说明本专利技术的基本构想,遂图式中仅显示与本专利技术中有关的组件而非按照实际实施时的组件数目、形状及尺寸绘制,其实际实施时各组件的型态、数量及比例可为一种随意的改变,且其组件布局型态也可能更为复杂。实施例一请参阅附图1,该附图为从距离预测信息中提取距离特征的流程示意图,即为本专利技术基于距离预测信息的图像视频场景识别方法的步骤一,本实施例从距离预测信息中提取距离特征的的流程包括:1)采用已有的图像训练集(或者训练图像集)训练获得距离预测模型。具体地,图像训练集由使用RGB-D摄像头获取的RGB-D图像组成,每张图像均包含各位置的距离信息。可选地,训练图像集还可以包含部分RGB图像,这些图像带有少量距离标注信息,用于提升距离预测模型的精度。训练距离预测模型以多个尺度下的图像的RGB信息作为输本文档来自技高网...
【技术保护点】
一种基于距离预测信息的图像视频场景识别方法,其特征在于,所述识别方法至少包括:步骤一、采用已有的图像训练集训练获得距离预测模型,将所述距离预测模型应用于待预测的RGB图像,获取所述RGB图像对应的距离预测信息,再从所述距离预测信息中提取距离特征;步骤二、采用已有的图像视频集训练获得特征分类器,利用所述特征分类器和所述距离特征进行预测,得到图像视频的场景类别。
【技术特征摘要】
1.一种基于距离预测信息的图像视频场景识别方法,其特征在于,所述识别方法至少包括:步骤一、采用已有的图像训练集训练获得距离预测模型,将所述距离预测模型应用于待预测的RGB图像,获取所述RGB图像对应的距离预测信息,再从所述距离预测信息中提取距离特征;步骤二、采用已有的图像视频集训练获得特征分类器,利用所述特征分类器和所述距离特征进行预测,得到图像视频的场景类别。2.根据权利要求1所述的基于距离预测信息的图像视频场景识别方法,其特征在于:所述步骤一中,采用已有的RGB-D图像训练集训练多尺度下的距离预测模型,并将所述多尺度下的距离预测模型合并得到最终的预测模型,利用最终的预测模型获取所述RGB图像对应的距离预测信息后,从所述距离预测信息中直接提取距离特征。3.根据权利要求2所述的基于距离预测信息的图像视频场景识别方法,其特征在于:所述RGB-D图像训练集还包含一部分带有距离标注信息的RGB图像。4.根据权利要求2或3所述的基于距离预测信息的图像视频场景识别方法,其特征在于:对获取的所述距离预测信息进行数值变换,从变换后的距离预测信息中提取距离特征。5.根据权利要求4所述的基于距离预测信息的图像视频场景识别方法,其特征在于:进行数值变化之前,将获得所述距离预测信息结合待预测的RGB图像生成新的RGB-D图像,再将新的RGB-D图像加入已有的RGB-D图像训练集,从而扩展已有的RGB-D图像训练集。6.根据权利要求1所述的基于距离预测信息的图像视频场景识别方法,其特征在于:所述步骤一中,采用全卷积神经网络或者条件随机场算法训练获得所述距离预测模型。7.根据权利要求1所述的基于距离预测信息的图像视频场景识别...
【专利技术属性】
技术研发人员:郑莹斌,汪宏,叶浩,
申请(专利权)人:中国科学院上海高等研究院,上海市信息技术研究中心,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。