一种视频检测方法、装置、电子设备和存储介质制造方法及图纸

技术编号：30633129 阅读：23 留言：0更新日期：2021-11-04 00:08

本申请公开了一种视频检测方法、装置、电子设备和存储介质；本申请可以获取待检测视频中目标视频片段对应的音频信息和字幕文本，所述字幕文本包括至少一个文本单元；对所述音频信息进行语音识别，得到所述音频信息对应的目标文本，所述目标文本包括至少一个文本单元；根据所述目标文本的文本单元和所述字幕文本的文本单元，对所述目标文本和所述字幕文本进行文本对齐，得到文本对齐结果；根据所述文本对齐结果，检测所述目标视频片段的完整性。本申请实施例可以基于目标视频片段的音频和字幕进行视频内容完整性检测，提高视频完整性检测的效率，降低检测成本。降低检测成本。降低检测成本。

全部详细技术资料下载

【技术实现步骤摘要】
一种视频检测方法、装置、电子设备和存储介质

[0001]本申请涉及计算机
，具体涉及一种视频检测方法、装置、电子设备和存储介质。

技术介绍

[0002]随着计算机技术的发展，多媒体的应用也越来越广泛，各种各样的视频在网络上不断涌现，其中，视频的质量参差不齐。在竞争激烈的视频内容市场上，提升用户体验非常重要，保证视频内容的质量是提升用户体验的重要手段。由于视频内容多为用户自发制作和上传，视频的制作质量通常需要审核团队的把关。视频不完整是质量审核中非常重要的一项，通常包括视频开头或结尾突兀不完整、吞字、字幕还有内容没表达完等情况。
[0003]在目前的相关技术中，视频内容不完整的审核，主要采用人工审核的方式，审核团队会制定非常详细的审核标准，在对审核人员进行培训之后，审核后台会将全量的内容实时传给审核人员进行内容不完整的审核。随着视频内容数量的不断增长，传统的人工审核成本也呈线性增长趋势，检测效率相对较低，无法满足大量视频内容上线的需要。

技术实现思路

[0004]本申请实施例提供一种视频检测方法、装置、电子设备和存储介质，可以提高视频完整性检测的效率，降低检测成本。
[0005]本申请实施例提供一种视频检测方法，包括：
[0006]获取待检测视频中目标视频片段对应的音频信息和字幕文本，所述字幕文本包括至少一个文本单元；
[0007]对所述音频信息进行语音识别，得到所述音频信息对应的目标文本，所述目标文本包括至少一个文本单元；
[0008]根据所述目标文本的文...

【技术保护点】

【技术特征摘要】
1.一种视频检测方法，其特征在于，包括：获取待检测视频中目标视频片段对应的音频信息和字幕文本，所述字幕文本包括至少一个文本单元；对所述音频信息进行语音识别，得到所述音频信息对应的目标文本，所述目标文本包括至少一个文本单元；根据所述目标文本的文本单元和所述字幕文本的文本单元，对所述目标文本和所述字幕文本进行文本对齐，得到文本对齐结果；根据所述文本对齐结果，检测所述目标视频片段的完整性。2.根据权利要求1所述的方法，其特征在于，所述获取待检测视频中目标视频片段对应的音频信息和字幕文本，包括：获取待检测视频中目标视频片段对应的音频信息；对待检测视频中的目标视频片段进行视频帧抽取，得到所述目标视频片段的至少一个视频帧图像；通过对所述视频帧图像进行特征提取，确定所述视频帧图像的字幕区域；对所述字幕区域中的字幕进行识别，得到所述目标视频片段对应的字幕文本。3.根据权利要求2所述的方法，其特征在于，所述通过对所述视频帧图像进行特征提取，确定所述视频帧图像的字幕区域，包括：对所述视频帧图像进行多个尺度下的下采样和上采样处理，得到所述视频帧图像的目标特征图；对所述目标特征图进行卷积操作，得到所述视频帧图像的文本单元热力图；基于所述文本单元热力图，确定所述视频帧图像的字幕区域。4.根据权利要求3所述的方法，其特征在于，所述对所述视频帧图像进行多个尺度下的下采样和上采样处理，得到所述视频帧图像的目标特征图，包括：对所述视频帧图像进行多次下采样处理，得到所述视频帧图像多个尺度下的下采样特征图；对目标尺度的下采样特征图进行多次上采样处理，得到所述视频帧图像多个尺度下的上采样融合特征图，其中，每个尺度的上采样输入为相邻尺度的上采样特征图和下采样特征图融合得到的融合特征；从各个尺度的上采样融合特征图中确定所述视频帧图像的目标特征图。5.根据权利要求3所述的方法，其特征在于，所述文本单元热力图包括字符热力图和字间热力图；所述基于所述文本单元热力图，确定所述视频帧图像的字幕区域，包括：根据字符热力图中热力点的热力值，从所述字符热力图中选取字符区域；根据字间热力图中热力点的热力值，从所述字间热力图中选取字间区域；基于所述字符区域和所述字间区域，确定所述视频帧图像的字幕区域。6.根据权利要求2所述的方法，其特征在于，所述对所述字幕区域中的字幕进行识别，得到所述目标视频片段对应的字幕文本，包括：对所述字幕区域进行特征提取，得到所述字幕区域的特征序列，所述特征序列包括至少一个特征信息；根据所述特征序列中前后特征信息，对所述特征序列中各个特征信息进行预测，得到
所述目标视频片段对应的字幕文本。7.根据权利要求1所述的方法，其特征在于，所述对所述音频信息进行语音识别，得到所述音频信息对应的目标文本，包括：对所述音频信息进行语义提取，得到所述音频信息的音频语义特征信息；基于所述音频语义特征信息，确定所述音频信息翻译为各候选文本的预测概率；...

【专利技术属性】
技术研发人员：徐孩，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人