直播视频的识别方法、装置及电子设备制造方法及图纸

技术编号:23705575 阅读:27 留言:0更新日期:2020-04-08 11:18
本发明专利技术实施例提供的一种直播视频的识别方法、装置及电子设备,通过从待识别的直播视频中获取多个图像帧,分别对多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接,得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法,获得直播视频属于违规视频的置信度,若置信度满足预设的违规条件,则确定直播视频为违规视频。与传统的仅对视频中的单一图像帧进行识别的方式相比,不仅可以识别单个图像帧中的裸露画面,还可以识别视频片段中的低俗动作,从而降低无法识别低俗动作造成的违规视频漏检。

【技术实现步骤摘要】
直播视频的识别方法、装置及电子设备
本专利技术涉及视频识别
,特别是涉及一种直播视频的识别方法、装置及电子设备。
技术介绍
随着直播行业的迅猛发展,直播视频监管工作面对的视频数量呈爆发式增涨,人工观看各视频以识别违规视频的识别方式已难以满足需求。同时,鉴于视频识别实质上是图像识别的过程,因此,通过引入计算机视觉技术对视频帧进行识别从而实现对视频的自动化识别,以满足大量直播视频的监管需求。在直播视频识别技术中,如果对视频进行逐帧识别,则需要进行大量的计算,无法应对直播视频的实时性。因此,相应的直播视频识别方法中大多基于标准图像识别技术对直播视频进行抽帧检查,采用的技术方案可归纳为:对直播视频进行抽帧采样,将采样得到的图像帧输入预先训练好的卷积神经网络进行检测,得到该图像帧属于违规类型的置信度,当这个置信度大于设定的阈值时,则将此图像帧或视频标记为违规。实际应用中,如果直播视频中出现人体裸露的画面,或者低俗的动作,则该视频属于违规视频。但是,动作特征是由多个图像帧构成的视频片段的整体信息反映的,如果利用上述用于图像帧识别的卷积神经网络进行识别,将只能对构成低俗动作的某些单一图像帧进行识别,而无法对多个图像帧构成的视频片段的整体信息进行识别,也就很难识别低俗动作,导致违规视频漏检。因此,如何对违规视频中的低俗动作进行自动化识别,以降低违规视频的漏检,是现有的直播视频识别技术需要解决的问题。
技术实现思路
本专利技术实施例的目的在于提供一种直播视频的识别方法、装置及电子设备,以降低违规视频的漏检。具体技术方案如下:第一方面,本专利技术实施例提供了一种直播视频的识别方法,该方法包括:从待识别的直播视频中获取多个图像帧;分别对多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵;对图像帧特征矩阵进行拼接,得到多个图像帧组成的视频片段的视频片段特征矩阵;将视频片段特征矩阵输入预设的分类算法,获得直播视频属于违规视频的置信度;若置信度满足预设的违规条件,则确定直播视频为违规视频。第二方面,本专利技术实施例提供了一种直播视频的识别装置,该装置包括:图像获取模块,用于从待识别的直播视频中获取多个图像帧;置信度获取模块,用于分别对多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵;对图像帧特征矩阵进行拼接,得到多个图像帧组成的视频片段的视频片段特征矩阵;将视频片段特征矩阵输入预设的分类算法,获得直播视频属于违规视频的置信度;判断模块,用于当置信度满足预设的违规条件,则确定直播视频为违规视频。第三方面,本专利技术实施例提供了一种电子设备,该设备包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现如上述第一方面提供的直播视频的识别方法的所有步骤。第四方面,本专利技术实施例提供了一种计算机可读存储介质,该存储介质内存储有计算机程序,该计算机程序被处理器执行时实现如上述第一方面提供的直播视频的识别方法的步骤。本专利技术实施例提供的一种直播视频的识别方法、装置及电子设备,通过从待识别的直播视频中获取多个图像帧,分别对多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵。对图像帧特征矩阵进行拼接,得到多个图像帧组成的视频片段的视频片段特征矩阵。将视频片段特征矩阵输入预设的分类算法,获得直播视频属于违规视频的置信度,若置信度满足预设的违规条件,则确定直播视频为违规视频。由于视频片段特征矩阵是拼接多个图像帧的图像帧特征矩阵得到的,能够反映由多个图像帧组成的视频片段的整体特征,从而能够反映视频片段中的动作特征。因此,利用预设的分类算法识别视频片段特征矩阵,与传统的仅对视频中的单一图像帧进行识别的方式相比,不仅可以识别单个图像帧中的裸露画面,还可以识别视频片段中的低俗动作,从而降低无法识别低俗动作造成的违规视频漏检。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍。图1为本专利技术一实施例的直播视频的识别方法的流程示意图;图2为本专利技术另一实施例的直播视频的识别预设的识别模型的训练方法的流程示意图;图3为本专利技术另一实施例的直播视频的识别方法的流程示意图;图4为本专利技术一实施例的直播视频的识别装置的结构示意图;图5为本专利技术另一实施例的直播视频的识别装置的结构示意图;图6为本专利技术再一实施例的直播视频的识别装置的结构示意图;图7为本专利技术一实施例的电子设备的结构示意图。具体实施方式为了使本领域技术人员更好地理解本专利技术中的技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。下面首先对本专利技术实施例提供的一种直播视频的识别方法进行介绍。需要说明的是,本专利技术实施例提供的直播视频的识别方法,可以应用于提供直播服务的电子设备,该设备包括台式计算机、便携式计算机、互联网电视,智能移动终端、可穿戴式智能终端、服务器等,在此不作限定,任何可以实现本专利技术实施例的电子设备,均属于本专利技术实施例的保护范围。如图1所示,本专利技术一实施例的直播视频的识别方法的流程,可以包括:S101,从待识别的获取直播视频中获取多个的图像帧。获取直播视频的图像帧具体可以是按预设周期从待识别的直播视频中采集多个图像帧,从而得到等间隔的多个图像帧。由于动作是由连续的图像帧构成的,且无间隔的连续图像帧的差别可能不大,因此,等间隔的图像帧与无间隔的连续图像帧相比,能够在尽可能保留反映动作特征的图像帧的同时,避免获取无间隔的连续图像帧形成的庞大数据量所导致的数据处理速度缓慢。例如,待识别的直播视频中,构成主播喝水动作的所有图像帧中,无间隔的第1帧图像帧至第5帧图像帧可能都是主播手部接触杯子的动作,无间隔的第6帧图像帧至第15帧图像帧可能都是主播拿起杯子的动作,无间隔的第16帧图像帧至第25帧图像帧可能都是主播喝水的动作。当按照预设周期采集多个图像帧时,可以获得主播手部接触杯子的第5帧图像帧A,主播拿起杯子的第10帧图像帧B以及第15帧图像帧C,主播喝水的第20帧图像帧D以及第25帧图像帧E,从而以相对较少的图像帧构成了主播喝水的动作。S102,分别对多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵。例如,分别对图像帧A,图像帧B,图像帧C,图像帧D以及图像帧E进行特征提取,得到图像帧A的图像特征矩阵a,图像帧B的图像特征矩阵b,图像帧C的图像特征矩阵c,图像帧D的图像特征矩阵d以及图像帧E的图像特征矩阵e。其中,分别对多个图像帧进行特征提取,可本文档来自技高网...

【技术保护点】
1.一种直播视频的识别方法,其特征在于,所述方法包括:/n从待识别的直播视频中获取多个图像帧;/n分别对所述多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵;/n对所述图像帧特征矩阵进行拼接,得到所述多个图像帧组成的视频片段的视频片段特征矩阵;/n将所述视频片段特征矩阵输入预设的分类算法,获得所述直播视频属于违规视频的置信度;/n若所述置信度满足预设的违规条件,则确定所述直播视频为违规视频。/n

【技术特征摘要】
1.一种直播视频的识别方法,其特征在于,所述方法包括:
从待识别的直播视频中获取多个图像帧;
分别对所述多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵;
对所述图像帧特征矩阵进行拼接,得到所述多个图像帧组成的视频片段的视频片段特征矩阵;
将所述视频片段特征矩阵输入预设的分类算法,获得所述直播视频属于违规视频的置信度;
若所述置信度满足预设的违规条件,则确定所述直播视频为违规视频。


2.根据权利要求1所述的方法,其特征在于,所述分别对所述多个图像帧进行特征提取,得到每个图像帧的图像特征矩阵,包括:
分别将所述多个图像帧输入预设的识别模型的特征提取子网络进行特征提取,得到每个图像帧的图像帧特征矩阵;所述预设的识别模型为预先利用收集的多个样本图像训练得到的卷积神经网络模型;
所述将所述视频片段特征矩阵输入预设的分类算法,获得所述直播视频属于违规视频的置信度,包括:
将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络,得到所述直播视频属于违规视频的置信度。


3.根据权利要求2所述的方法,其特征在于,所述将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络,得到所述直播视频属于违规视频的置信度,包括:
对所述视频片段特征矩阵进行转置处理,得到转置视频片段特征矩阵;
对所述转置视频片段特征矩阵进行转置以及降维变形,得到降维视频片段特征矩阵;
将所述降维视频片段特征矩阵输入预设全连接层以及预设激活函数,得到响应权重矩阵;
对所述响应权重矩阵进行变形恢复,得到时空响应权重矩阵;
利用所述时空响应权重矩阵,对所述转置视频片段特征矩阵进行加权处理,得到视频特征向量;
将所述视频特征向量输入预设全连接层以及预设激活函数,得到所述直播视频属于违规视频的置信度。


4.根据权利要求2所述的方法,其特征在于,所述预设的识别模型的数量为多个;
所述分别将所述多个图像帧输入预设的识别模型的特征提取子网络进行特征提取,得到每个图像帧的图像帧特征矩阵,包括:
分别将所述多个图像帧输入每个预设的识别模型的特征提取子网络进行特征提取,得到每个图像帧的多个图像帧特征矩阵;
所述对所述图像帧特征矩阵进行拼接,得到所述多个图像帧组成的视频片段的视频片段特征矩阵,包括:
对得到的多个图像帧特征矩阵中,由同一个预设的识别模型的特征提取子网络提取的图像帧特征矩阵进行拼接,得到所述多个图像帧组成的视频片段的多个视频片段特征矩阵;
所述将所述视频片段特征矩阵输入所述预设的识别模型的分类器子网络,得到所述直播视频属于违规视频的置信度,包括:
分别将得到的多个视频片段特征矩阵输入每个预设的识别模型的分类器子网络,得到所述直播视频属于违规视频的多个置信度;
利用预设融合规则,融合所述多个置信度,得到目标置信度;
所述若所述置信度满足预设的违规条件,则确定所述直播视频为违规视频,包括:
如果所述目标置信度满足预设识别条件,则确定所述直播视频为违规视频。


5.根据权利要求4所述的方法,其特征在于,所述利用预设融合规则,融合所述多个置信度,得到目标置信度,包括:
将所述多个置信度,输入预设加权平均算法,得到目标置信度。


6.根据权利要求4所述的方法,其特征在于,所述利用预设融合规则,融合所述多个置信度,得到目标置信度,包括:
统计所述多个置信度中,相同置信度的数量;
将数量最多的相同置信度,确定为目标置信度。


7.根据权利要求2所述的方法,其特征在于,所述预设的识别模型,采用如下步骤训练获得:
将收集的多个样本图像输入初始的卷积神经网络模型进行训练,得到由所述多个样本图像构成的视频片段属于违规视频的预测置信度;
根据得到的预测置信度和预先标注的每个样本图像属于是否违规的类别信息,利用预设的误差函数,判断处于当前训练阶段的卷积神经网络模型是否收敛;
如果收敛,则将处于当前训练阶段的卷积神经网络模型确定为预设的识别模型;
如果不收敛,则利用预设的梯度函数,采用随机梯度下降算法调整处于当前训练阶段的卷积神经网络模型的模型参数;
将收集的多个样本图像输入调整后的卷积神经网络模型,重复上述进行训练和调整模型参数的步骤,直至调整后的卷积神经网络收敛。...

【专利技术属性】
技术研发人员:苏驰刘弘也
申请(专利权)人:北京金山云网络技术有限公司北京金山云科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1