一种视频检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号:30633129 阅读:23 留言:0更新日期:2021-11-04 00:08
本申请公开了一种视频检测方法、装置、电子设备和存储介质;本申请可以获取待检测视频中目标视频片段对应的音频信息和字幕文本,所述字幕文本包括至少一个文本单元;对所述音频信息进行语音识别,得到所述音频信息对应的目标文本,所述目标文本包括至少一个文本单元;根据所述目标文本的文本单元和所述字幕文本的文本单元,对所述目标文本和所述字幕文本进行文本对齐,得到文本对齐结果;根据所述文本对齐结果,检测所述目标视频片段的完整性。本申请实施例可以基于目标视频片段的音频和字幕进行视频内容完整性检测,提高视频完整性检测的效率,降低检测成本。降低检测成本。降低检测成本。

【技术实现步骤摘要】
一种视频检测方法、装置、电子设备和存储介质


[0001]本申请涉及计算机
,具体涉及一种视频检测方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的发展,多媒体的应用也越来越广泛,各种各样的视频在网络上不断涌现,其中,视频的质量参差不齐。在竞争激烈的视频内容市场上,提升用户体验非常重要,保证视频内容的质量是提升用户体验的重要手段。由于视频内容多为用户自发制作和上传,视频的制作质量通常需要审核团队的把关。视频不完整是质量审核中非常重要的一项,通常包括视频开头或结尾突兀不完整、吞字、字幕还有内容没表达完等情况。
[0003]在目前的相关技术中,视频内容不完整的审核,主要采用人工审核的方式,审核团队会制定非常详细的审核标准,在对审核人员进行培训之后,审核后台会将全量的内容实时传给审核人员进行内容不完整的审核。随着视频内容数量的不断增长,传统的人工审核成本也呈线性增长趋势,检测效率相对较低,无法满足大量视频内容上线的需要。

技术实现思路

[0004]本申请实施例提供一种视频检测方法、装置、电子设备和存储介质,可以提高视频完整性检测的效率,降低检测成本。
[0005]本申请实施例提供一种视频检测方法,包括:
[0006]获取待检测视频中目标视频片段对应的音频信息和字幕文本,所述字幕文本包括至少一个文本单元;
[0007]对所述音频信息进行语音识别,得到所述音频信息对应的目标文本,所述目标文本包括至少一个文本单元;
[0008]根据所述目标文本的文本单元和所述字幕文本的文本单元,对所述目标文本和所述字幕文本进行文本对齐,得到文本对齐结果;
[0009]根据所述文本对齐结果,检测所述目标视频片段的完整性。
[0010]相应的,本申请实施例提供一种视频检测装置,包括:
[0011]获取单元,用于获取待检测视频中目标视频片段对应的音频信息和字幕文本,所述字幕文本包括至少一个文本单元;
[0012]识别单元,用于对所述音频信息进行语音识别,得到所述音频信息对应的目标文本,所述目标文本包括至少一个文本单元;
[0013]对齐单元,用于根据所述目标文本的文本单元和所述字幕文本的文本单元,对所述目标文本和所述字幕文本进行文本对齐,得到文本对齐结果;
[0014]检测单元,用于根据所述文本对齐结果,检测所述目标视频片段的完整性。
[0015]可选的,在本申请的一些实施例中,所述获取单元可以包括获取子单元、抽取子单元、提取子单元和识别子单元,如下:
[0016]所述获取子单元,用于获取待检测视频中目标视频片段对应的音频信息;
[0017]抽取子单元,用于对待检测视频中的目标视频片段进行视频帧抽取,得到所述目标视频片段的至少一个视频帧图像;
[0018]提取子单元,用于通过对所述视频帧图像进行特征提取,确定所述视频帧图像的字幕区域;
[0019]识别子单元,用于对所述字幕区域中的字幕进行识别,得到所述目标视频片段对应的字幕文本。
[0020]可选的,在本申请的一些实施例中,所述提取子单元具体可以用于对所述视频帧图像进行多个尺度下的下采样和上采样处理,得到所述视频帧图像的目标特征图;对所述目标特征图进行卷积操作,得到所述视频帧图像的文本单元热力图;基于所述文本单元热力图,确定所述视频帧图像的字幕区域。
[0021]可选的,在本申请的一些实施例中,步骤“对所述视频帧图像进行多个尺度下的下采样和上采样处理,得到所述视频帧图像的目标特征图”,可以包括:
[0022]对所述视频帧图像进行多次下采样处理,得到所述视频帧图像多个尺度下的下采样特征图;
[0023]对目标尺度的下采样特征图进行多次上采样处理,得到所述视频帧图像多个尺度下的上采样融合特征图,其中,每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征;
[0024]从各个尺度的上采样融合特征图中确定所述视频帧图像的目标特征图。
[0025]可选的,在本申请的一些实施例中,所述文本单元热力图包括字符热力图和字间热力图;步骤“基于所述文本单元热力图,确定所述视频帧图像的字幕区域”,可以包括:
[0026]根据字符热力图中热力点的热力值,从所述字符热力图中选取字符区域;
[0027]根据字间热力图中热力点的热力值,从所述字间热力图中选取字间区域;
[0028]基于所述字符区域和所述字间区域,确定所述视频帧图像的字幕区域。
[0029]可选的,在本申请的一些实施例中,所述识别子单元具体可以用于对所述字幕区域进行特征提取,得到所述字幕区域的特征序列,所述特征序列包括至少一个特征信息;根据所述特征序列中前后特征信息,对所述特征序列中各个特征信息进行预测,得到所述目标视频片段对应的字幕文本。
[0030]可选的,在本申请的一些实施例中,所述识别单元可以包括音频提取子单元、第一确定子单元和第二确定子单元,如下:
[0031]所述音频提取子单元,用于对所述音频信息进行语义提取,得到所述音频信息的音频语义特征信息;
[0032]第一确定子单元,用于基于所述音频语义特征信息,确定所述音频信息翻译为各候选文本的预测概率;
[0033]第二确定子单元,用于基于所述预测概率,从候选文本中确定所述音频信息对应的目标文本。
[0034]可选的,在本申请的一些实施例中,步骤“对所述视频帧图像进行多个尺度下的下采样和上采样处理,得到所述视频帧图像的目标特征图”,可以包括:
[0035]通过字幕区域识别模型,对所述视频帧图像进行多个尺度下的下采样和上采样处
理,得到所述视频帧图像的目标特征图;
[0036]步骤“对所述目标特征图进行卷积操作,得到所述视频帧图像的文本单元热力图”,可以包括:
[0037]通过字幕区域识别模型,对所述目标特征图进行卷积操作,得到所述视频帧图像的文本单元热力图。
[0038]可选的,在本申请的一些实施例中,该视频检测装置还可以包括训练单元;所述训练单元用于训练字幕区域识别模型。具体地,所述训练单元可以用于:
[0039]获取训练数据,所述训练数据包括样本图像、以及所述样本图像对应的目标字幕区域;
[0040]通过预设字幕区域识别模型,对所述样本图像进行多个尺度下的下采样和上采样处理,得到所述样本图像的目标特征图;
[0041]对所述样本图像的目标特征图进行卷积操作,得到所述样本图像的文本单元热力图;
[0042]基于所述文本单元热力图,确定所述样本图像的参考字幕区域;
[0043]基于所述参考字幕区域和所述目标字幕区域,对所述预设字幕区域识别模型的参数进行调整,得到字幕区域识别模型。
[0044]可选的,在本申请的一些实施例中,所述对齐单元可以包括第三确定子单元、匹配子单元、更新子单元和返回子单元,如下:
[0045]所述第三确定子单元,用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种视频检测方法,其特征在于,包括:获取待检测视频中目标视频片段对应的音频信息和字幕文本,所述字幕文本包括至少一个文本单元;对所述音频信息进行语音识别,得到所述音频信息对应的目标文本,所述目标文本包括至少一个文本单元;根据所述目标文本的文本单元和所述字幕文本的文本单元,对所述目标文本和所述字幕文本进行文本对齐,得到文本对齐结果;根据所述文本对齐结果,检测所述目标视频片段的完整性。2.根据权利要求1所述的方法,其特征在于,所述获取待检测视频中目标视频片段对应的音频信息和字幕文本,包括:获取待检测视频中目标视频片段对应的音频信息;对待检测视频中的目标视频片段进行视频帧抽取,得到所述目标视频片段的至少一个视频帧图像;通过对所述视频帧图像进行特征提取,确定所述视频帧图像的字幕区域;对所述字幕区域中的字幕进行识别,得到所述目标视频片段对应的字幕文本。3.根据权利要求2所述的方法,其特征在于,所述通过对所述视频帧图像进行特征提取,确定所述视频帧图像的字幕区域,包括:对所述视频帧图像进行多个尺度下的下采样和上采样处理,得到所述视频帧图像的目标特征图;对所述目标特征图进行卷积操作,得到所述视频帧图像的文本单元热力图;基于所述文本单元热力图,确定所述视频帧图像的字幕区域。4.根据权利要求3所述的方法,其特征在于,所述对所述视频帧图像进行多个尺度下的下采样和上采样处理,得到所述视频帧图像的目标特征图,包括:对所述视频帧图像进行多次下采样处理,得到所述视频帧图像多个尺度下的下采样特征图;对目标尺度的下采样特征图进行多次上采样处理,得到所述视频帧图像多个尺度下的上采样融合特征图,其中,每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征;从各个尺度的上采样融合特征图中确定所述视频帧图像的目标特征图。5.根据权利要求3所述的方法,其特征在于,所述文本单元热力图包括字符热力图和字间热力图;所述基于所述文本单元热力图,确定所述视频帧图像的字幕区域,包括:根据字符热力图中热力点的热力值,从所述字符热力图中选取字符区域;根据字间热力图中热力点的热力值,从所述字间热力图中选取字间区域;基于所述字符区域和所述字间区域,确定所述视频帧图像的字幕区域。6.根据权利要求2所述的方法,其特征在于,所述对所述字幕区域中的字幕进行识别,得到所述目标视频片段对应的字幕文本,包括:对所述字幕区域进行特征提取,得到所述字幕区域的特征序列,所述特征序列包括至少一个特征信息;根据所述特征序列中前后特征信息,对所述特征序列中各个特征信息进行预测,得到
所述目标视频片段对应的字幕文本。7.根据权利要求1所述的方法,其特征在于,所述对所述音频信息进行语音识别,得到所述音频信息对应的目标文本,包括:对所述音频信息进行语义提取,得到所述音频信息的音频语义特征信息;基于所述音频语义特征信息,确定所述音频信息翻译为各候选文本的预测概率;...

【专利技术属性】
技术研发人员:徐孩
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1