视频识别方法和装置制造方法及图纸

技术编号:14854127 阅读:62 留言:0更新日期:2017-03-18 20:59
本申请提出一种视频识别方法和装置,其中,该方法包括以下步骤:将待识别视频划分为多个区间;分别对镜头色情概率值多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取镜头色情概率值待识别视频的色情统计指标,并根据镜头色情概率值色情统计指标判断镜头色情概率值待识别视频是否为色情视频。本申请的视频识别方法,降低了识别耗时,提高了识别速度和精度。

【技术实现步骤摘要】

本申请涉及视频处理
,特别涉及一种视频识别方法和装置
技术介绍
色情内容作为互联网的一种不良信息,是需要严格管控的,而视频作为互联网流量的主要部分,更加需要对其进行有效识别并进行管控。目前,色情内容的识别方法主要有以下几种:1)基于特征库的匹配识别。在预先存储的人体特征库中查找与待识别图像匹配的人体敏感部位图片所对应的特征数据,然后根据匹配的特征数据计算待识别图像对应的置信度,并进一步根据置信度判断对应的待识别图像是否为色情图像。该方法的召回率和精准度依赖人体特征库的完备性和匹配规则,对人体姿态、遮挡、光照比较敏感,特别地,对于暴露不充分的图像,识别率较低。2)基于肤色模型或敏感部位模型的识别。这种方法主要是通过大量样本图像肤色区域或人体敏感器官训练人体皮肤的颜色模型或人体敏感器官的颜色模型。然后根据上述模型对待识别图像进行人体皮肤区域或敏感器官检测。此种方法虽然对光照和不同肤色的人种比较敏感,但对于正常的裸露,如脸和手臂,误判率较高。此外,敏感部位模型对遮挡比较敏感,特征的提取速度和识别速度都较慢。3)基于卷积神经网络的识别方法的识别。该方法基于卷积神经网络,通过循环训练大量的样本,得到最终的检测模型,并通过检测模型对待识别视频中的图像帧进行识别。虽然,基于卷积神经网络的识别方法能够克服因环境光线的多样化、人种的多样性等问题,但是该方法与方法1)和2)都只是图像级的识别方法。目前在对视频的识别中,可通过抽取视频的关键帧,然后将以上一种或几种图像级的处理方法应用到每个关键帧上进行识别。但是这种方法中关键帧抽取没有考虑到视频中图像在时间域上的连续性,而且决策模型简单,分类特征值区分度不高,导致精度不理想;此外,需要解码整个视频,有大量冗余计算,识别速度非常不理想。
技术实现思路
本申请旨在至少在一定程度上解决上述技术问题。为此,本申请的第一个目的在于提出一种视频识别方法,降低了识别耗时,提高了识别速度和精度。本申请的第二个目的在于提出一种视频识别装置。为达上述目的,根据本申请第一方面实施例提出了一种视频识别方法,包括以下步骤:将待识别视频划分为多个区间;分别对所述多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标,并根据所述色情统计指标判断所述待识别视频是否为色情视频。本申请实施例的视频识别方法,可将待识别视频划分为多个区间,并进行多层级探测,根据探测过程中的色情统计指标判断待识别视频是否为色情视频,通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得的色情统计指标鲁棒性强,并且在探测过程中可根据探测的进度更新色情统计指标,从而并进行判断,从而可提前返回判断结果,无需解码和探测整个待识别视频,降低了识别耗时,提高了识别速度和精度。本申请第二方面实施例提供了一种视频识别装置,包括:划分模块,用于将待识别视频划分为多个区间;探测模块,用于分别对所述多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标;判断模块,用于在对每个区间进行多层级探测的过程中根据所述色情统计指标判断所述待识别视频是否为色情视频。本申请实施例的视频识别装置,可将待识别视频划分为多个区间,并进行多层级探测,根据探测过程中的色情统计指标判断待识别视频是否为色情视频,通过多层级探测的方式,利用了相邻图像帧之间的视觉相似性和时间连续性,获得的色情统计指标鲁棒性强,并且在探测过程中可根据探测的进度更新色情统计指标,从而并进行判断,从而可提前返回判断结果,无需解码和探测整个待识别视频,降低了识别耗时,提高了识别速度和精度。本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。附图说明本申请的上述和/或附加的方面和优点从结合下面附图对实施例的描述中将变得明显和容易理解,其中:图1为根据本申请一个实施例的视频识别方法的流程图;图2为根据本申请一个实施例的多层级结构的示意图;图3为根据本申请一个实施例的对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标的流程图;图4为根据本申请一个实施例的对待识别帧所在的镜头进行镜头级色情识别的流程图;图5为根据本申请一个实施例的对待检测片段进行片段级色情识别的流程图;图6为根据申请一个实施例的获取两个图像帧之间的帧差的流程图;图7为根据本申请另一个实施例的对待识别帧所在的镜头进行镜头级色情识别的流程图;图8为根据本申请一个实施例的对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标并判断待识别视频是否为色情视频的流程图;图9为根据本申请一个实施例的视频识别装置的结构示意图。具体实施方式下面详细描述本申请的实施例,所述实施例的示例在附图中示出,其中自始至终相同或类似的标号表示相同或类似的元件或具有相同或类似功能的元件。下面通过参考附图描述的实施例是示例性的,仅用于解释本申请,而不能理解为对本申请的限制。下面参考附图描述根据本申请实施例的视频识别方法和装置。图1为根据本申请一个实施例的视频识别方法的流程图。如图1所示,根据本申请实施例的视频识别方法,包括:S101,将待识别视频划分为多个区间。在本申请的一个实施例中,可根据待识别视频的时长将其划分为多个区间。本申请对区间的划分的规则不做限定。举例而言,可根据待识别视频的时长将待识别视频平均划分为等长度的多个区间,或者将待识别视频划分为时长为预设时长的多个区间,当待识别视频的时长不能整除预设时长时,可将不能整除的剩余部分单独作为一个区间或者合并至其相邻区间。在本申请的一个实施例中,多个区间可分别具有各自的处理优先级。该处理优先级可在划分区间时对每个区间分别进行设定。处理优先级越高,则在后续进行多层级探测时可被优先处理。具体地,在设定处理优先级时,可根据历史经验进行设定,例如,根据对大量色情视频的分析,得知大部分色情视频中敏感内容大多位于视频中后部,则可将位于待识别视频中后部的区间的处理优先级设置为高。S102,分别对多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取待识别视频的色情统计指标,并根据色情统计指标判断待识别视频是否为色情视频。其中,多层级探测是指根据视频的多层级结构对待识别视频进行探测。具体地,如图2所示,视频自上而下可分别包括:第一级:区间级(图2中用range[i]表示第i个区间)。即将视频根据其时长分为多个区间,可通过S101实现。第二级:镜头级(图2中用shot[i]表示第i个镜头)。镜头是次语义级别的视频处理单元,一个镜头是时间上连续且视觉相似的帧的集合。色情识别在镜头中进行时,以镜头为单位统计色情概率值,并累计时长。第三级:片段级(图2中用segment[i]表示第i个片段)。由于超长的镜头会导致较长的处理耗时,因此,可将长镜头进行切分为一定时长(即第三时间,例如可为15秒)的片段。色情识别在片段中进行时,将片段的统计概率值累加至从属镜头的统计概率值。第四级:帧级(图2中用frame[i]表示第i个图像帧)。从视频中解码获得一个完整的图像帧,基于深度卷积神经网络的色情图像识别算法对图像帧进行识别,将获得色情概率值累加至片段或镜头统计值中。其中,区间中本文档来自技高网
...
视频识别方法和装置

【技术保护点】
一种视频识别方法,其特征在于,包括以下步骤:将待识别视频划分为多个区间;分别对所述多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标,并根据所述色情统计指标判断所述待识别视频是否为色情视频。

【技术特征摘要】
1.一种视频识别方法,其特征在于,包括以下步骤:将待识别视频划分为多个区间;分别对所述多个区间进行多层级探测,并在对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标,并根据所述色情统计指标判断所述待识别视频是否为色情视频。2.如权利要求1所述的视频识别方法,其特征在于,所述多个区间分别具有各自的处理优先级,所述对所述多个区间进行多层级探测具体包括:将所述多个区间分为N个区间组,其中,N为正整数;通过N个并行线程对所述N个区间组分别进行探测,其中,每个线程按照所述处理优先级依次对其对应的区间组中的区间进行多层级探测。3.如权利要求1或2所述的视频识别方法,其特征在于,所述色情统计指标包括总色情时长、累计色情概率值、非色情次数、镜头处理总数、总色情帧数、帧处理总数、所述待识别视频的视频时长和帧率中的一种或多种,根据所述色情统计指标判断所述待识别视频是否为色情视频具体包括:基于预先训练的支持向量机判别模型对所述累计色情概率值、非色情次数、总色情帧数、总色情时长、镜头处理总数、帧处理总数、所述待识别视频的视频时长和帧率中的一种或多种进行分析,以判断所述待识别视频是否为色情视频。4.如权利要求1或2所述的视频识别方法,其特征在于,对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标,并根据所述色情统计指标判断所述待识别视频是否为色情视频,具体包括:按照预设规则对当前探测区间中的图像帧进行采样,其中,被采样的图像帧组成第一初始评估集合;对所述第一初始评估集合进行色情识别,以获取所述第一初始评估集合中每个图像帧的色情概率值;根据所述第一初始评估集合中每个图像帧的色情概率值计算所述第一初始评估集合中的图像帧的平均色情概率值;如果所述第一初始评估集合中的图像帧的平均色情概率值大于第五概率阈值,则判断所述待识别视频为色情视频,否则对所述当前探测区间的下一区间进行探测。5.如权利要求4所述的视频识别方法,其特征在于,还包括:如果所述第一初始评估集合中的图像帧的平均色情概率值不大于第五概率阈值,则确定
\t所述第一初始评估集合中色情概率值最小的图像帧;分别计算所述当前探测区间中未被采样的每个图像帧与所述色情概率值最小的图像帧的帧差,并将帧差为1的未被采样的图像帧添加至所述第一初始评估集合中,以得到第一目标评估集合;对所述第一目标评估集合进行色情识别,以获取所述第一目标评估集合中每个图像帧中的色情概率值;根据所述第一目标评估集合中每个图像帧中的色情概率值计算所述第一目标评估集合中图像帧的平均色情概率值;如果所述第一目标评估集合中图像帧的平均色情概率值大于第五概率阈值,则判断所述待识别视频为色情视频。6.如权利要求1或2所述的视频识别方法,其特征在于,对每个区间进行多层级探测的过程中获取所述待识别视频的色情统计指标,具体包括:S1,将当前探测区间的第一个图像帧作为待识别帧;S2,对所述待识别帧进行色情识别,以获取所述待识别帧的色情概率值;S3,如果所述待识别帧的色情概率值大于第一概率阈值,则对所述待识别帧所在的镜头进行镜头级色情识别,以获取所述待识别帧所在镜头的色情概率值和色情时长;S4,如果所述待识别帧所在镜头的色情概率值大于第二概率阈值,则进一步判断所述待识别帧所在镜头的色情时长是否小于第一时间;S5,如果小于所述第一时间,则将所述待识别帧所在镜头与相邻的同类镜头进行合并,以使合并后的镜头的时长不小于所述第一时间;S6,如果不小于所述第一时间,则将所述待识别帧所在镜头的色情时长累加至当前的总色情时长,以对所述总色情时长进行更新;S7,如果所述总色情时长大于第二时间,则判断所述待识别视频为色情视频;S8,如果所述总色情时长不大于第二时间,则将所述待识别帧的下一图像帧作为新的待识别帧,并重复S2-S8,直至所述当前探测区间探测完成,其中,所述第一时间小于所述第二时间。7.如权利要求6所述的视频识别方法,其特征在于,还包括:S9,如果所述待识别帧的色情概率值不大于所述第一概率阈值,则将非色情次数加1,并判断所述非色情次数是否大于次数阈值;S10,如果所述非色情次数大于所述次数阈值,则判断所述待识别帧所在镜头为非色情镜头,并结束所述当前探测区间的探测,并对所述当前探测区间的下一区间进行探测;S11,如果所述非色情次数不大于所述次数阈值,则将所述待识别帧的下一图像帧作为
\t新的待识别帧,并重复S2-S11,直至所述当前探测区间的探测结束。8.如权利要求6或7所述的视频识别方法,其特征在于,对步骤S3中所述待识别帧所在的镜头进行镜头级色情识别,以获取所述待识别帧所在镜头的色情概率值和色情时长,具体包括:按照预设规则对所述待识别帧所在的镜头中的图像帧进行采样,其中,被采样的图像帧组成第二初始评估集合;对所述第二初始评估集合进行色情识别,以获取所述第二初始评估集合中每个图像帧的色情概率值;根据所述第二初始评估集合中每个图像帧的色情概率值计算所述第二初始评估集合中的图像帧的平均色情概率值;如果所述第二初始评估集合中的图像帧的平均色情概率值大于第六概率阈值,则将所述第二初始评估集合中的图像帧的平均色情概率值作为所述待识别帧所在镜头的色情概率值,并将所述第二初始评估集合中的图像帧的累计时长作为所述待识别帧所在镜头的色情时长。9.如权利要求8所述的视频识别方法,其特征在于,还包括:如果所述第二初始评估集合中的图像帧的平均色情概率值不大于第六概率阈值,则确定所述第二初始评估集合中色情概率值最小的图像帧;分别计算所述待识别帧所在镜头中未被采样的每个图像帧与所述色情概率值最小的图像帧的帧差,并将帧差为1的未被采样的图像帧添加至所述第二初始评估集合中,以得到第二目标评估集合;对所述第二目标评估集合进行色情识别,以获取所述第二目标评估集合中每个图像帧中的色情概率值;根据所述第二目标评估集合中每个图像帧中的色情概率值计算所述第二目标评估集合中图像帧的平均色情概率值;如果所述第二目标评估集合中图像帧的平均色情概率值大于第六概率阈值,则将所述第二目标评估集合中的图像帧的平均色情概率值作为所述待识别帧所在镜头的色情概率值,并将所述第二目标评估集合中的图像帧的累计时长作为所述待识别帧所在镜头的色情时长。10.如权利要求6或7所述的视频识别方法,其特征在于,对步骤S3中所述待识别帧所在的镜头进行镜头级色情识别,以获取所述待识别帧所在镜头的色情概率值和色情时长,具体包括:S301,判断所述待识别帧是否为所述待识别视频的最后一帧图像;S302,如果否,则进一步判断所述待识别帧所在镜头中已识别图像帧的数量是否大于预设数量;S303,如果所述已识别图像帧的数量大于所述预设数量,则对后续图像帧进行搜索,直至达到镜头边界,并将所述待识别帧的下一图像帧作为新的待识别帧。S304,如果所述已识别图像帧的数量不大于所述预设数量,则将所述待识别帧缓存至待检测片段;S305,检测所述待识别帧是否达到镜头边界检测;S306,如果所述待识别帧未达到镜头边界,则判断所述待检测片段中的图像帧的总时长是否达到第三时间;S307,如果所述待检测片段中的图像帧的总时长未达到第三时间,则将所述待识别帧的下一帧作为新的待识别帧,并重复S303-S307,直至所述待检测片段中的图像帧的总时长达到所述第三时间;S308,如果所述待识别帧达到镜...

【专利技术属性】
技术研发人员:毛锋
申请(专利权)人:阿里巴巴集团控股有限公司
类型:发明
国别省市:开曼群岛;KY

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1