视频数据处理方法、装置、设备及存储介质制造方法及图纸

技术编号：41636773 阅读：19 留言：0更新日期：2024-06-13 02:32

本申请提供一种视频数据处理方法、装置、设备及存储介质，可应用于人工智能、视频播放、视频审核等各种领域。该方法包括：对待处理的目标视频进行数据拆分，得到目标视频的音频数据和图像数据，并对音频数据进行分段，得到N个音频片段，基于N个音频片段的播放时间，将目标视频的图像数据划分为M个图像片段；提取每个音频片段的文本信息，以及提取每个图像片段的文本信息；基于N个音频片段的文本信息和M个图像片段的文本信息，确定该目标视频中是否存在音画不同步的音频语句和字幕语句。即本申请可以实现音频语句和字幕语句之间的音画不同步检查，可以检查出目标视频中短暂的音画不同步现象，提高音画不同步的检查准确性，提升视频质量。

全部详细技术资料下载

【技术实现步骤摘要】

本申请实施例涉及计算机，尤其涉及一种视频数据处理方法、装置、设备及存储介质。

技术介绍

1、随着互联网行业的不断发展，信息获取途径逐渐深入视频领域。相对于文本，视频呈现更为抽象和多元化的信息形式，因此视频建模成为工业界和学术界持续探索的方向。在视频编码、解码和传送的过程中，会出现一些错误和失真现象，使得视频数据的声音和画面不同步，即出现音画不同步的问题。

2、为了降低音画不同步对用户的影响，在视频数据上线之前，需要审核人员进行检查。但是目前的音画不同步的检查方法，检查精度不够，无法实现对音画不同步的精细排查，进而影响视频数据的播放效果。

技术实现思路

1、本申请提供一种视频数据处理方法、装置、设备及存储介质，可以实现对视频数据中音画不同步的精细检查，进而提升视频数据的播放效果，提升用户体验。

2、第一方面，本申请提供一种视频数据处理方法，包括：

3、对待处理的目标视频进行数据拆分，得到所述目标视频的音频数据和图像数据；

4、将所述音频数据划分为n个音频片段，并基于所述n个音频片段中每一个音频片段的播放时间，将所述图像数据划分为m个图像片段，所述n为正整数，所述m为小于或等于n的正整数；

5、对每个音频片段进行语音识别，得到每个音频片段的文本信息，并对每个图像片段中的字幕区域进行文字识别，得到每个图像片段的文本信息；

6、基于所述n个音频片段的文本信息和所述m个图像片段的文本信息，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句。

7、第二方面，本申请提供一种视频数据处理装置，包括：

8、拆分单元，用于对待处理的目标视频进行数据拆分，得到所述目标视频的音频数据和图像数据；

9、划分单元，用于将所述音频数据划分为n个音频片段，并基于所述n个音频片段中每一个音频片段的播放时间，将所述图像数据划分为m个图像片段，所述n为正整数，所述m为小于或等于n的正整数；

10、识别单元，用于对每个音频片段进行语音识别，得到每个音频片段的文本信息，并对每个图像片段中的字幕区域进行文字识别，得到每个图像片段的文本信息；

11、处理单元，用于基于所述n个音频片段的文本信息和所述m个图像片段的文本信息，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句。

12、在一些实施例中，处理单元，具体用于对于所述n个音频片段中的每一个音频片段，基于所述音频片段的播放时间和文本信息，确定所述音频片段所包括的每个音频句子的播放时间和文本信息；对于所述m个图像片段中的每一个图像片段，基于所述图像片段的显示时间和文本信息，确定所述图像片段所包括的每个字幕语句的显示时间和文本信息；基于所述n个音频片段中每一个音频语句的文本信息和播放时间，以及所述m个图像片段中每一个字幕语句的文本信息和显示时间，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句。

13、在一些实施例中，处理单元，具体用于对于所述n个音频片段中的第i个音频语句，在所述m个图像片段所包括的字幕语句中，查找文本信息与所述第i个音频语句的文本信息匹配的第一字幕语句，所述i为正整数；基于所述第i个音频语句的播放时间和所述第一字幕语句的显示时间，确定所述第i个音频语句和所述第一字幕语句是否音画不同步。

14、在一些实施例中，处理单元，具体用于基于所述第i个音频语句所在的第一音频片段的播放时间，从所述m个图像片段中，选出显示时间与所述第一音频片段的播放时间一致的第一图像片段、所述第一图像片段的前一个图像片段和后一个图像片段；在所述第一图像片段、所述前一个图像片段和所述后一个图像片段分别包括的字幕语句中，查询文本信息与所述第i个音频语句的文本信息匹配的第一字幕语句。

15、在一些实施例中，处理单元，具体用于对于所述n个音频片段中的第j个音频片段，从所述m个图像片段中，获取显示时间与所述第j个音频片段的播放时间一致的第二图像片段，所述j为小于或等于n的正整数；基于所述第j个音频片段所包括的音频语句的文本信息和播放时间，以及所述第二图像片段所包括的字幕语句的文本信息和显示时间，确定所述第j个音频片段和所述第二图像片段中是否存在音画不同步的音频语句和字幕语句。

16、在一些实施例中，处理单元，具体用于对于所述第j个音频片段中的第k个音频语句，在所述第二图像片段所包括的字幕语句中，查询文本信息与所述第k个音频语句的文本信息匹配的第二字幕语句，所述k为正整数；基于所述第k个音频语句的播放时间和所述第二字幕语句的显示时间，确定所述第k个音频语句和所述第二字幕语句是否音画不同步。

17、在一些实施例中，若在所述第二图像片段所包括的字幕语句中，未查询到文本信息与所述第k个音频语句的文本信息一致的第二字幕语句时，处理单元，还用于获取所述第二图像片段的前一个图像片段和后一个图像片段中的至少一个；在所述前一个图像片段和所述后一个图像片段中的至少一个图像片段所包括字幕语句中，查询文本信息与所述第k个音频语句的文本信息匹配的第三字幕语句；基于所述第k个音频语句的播放时间和所述第三字幕语句的显示时间，确定所述第k个音频语句和所述第三字幕语句是否音画不同步。

18、在一些实施例中，所述在所述第二图像片段所包括的字幕语句中，查询文本信息与所述第k个音频语句的文本信息匹配的第二字幕语句之前，处理单元，还用于将所述第j个音频片段的文本信息与所述第二图像片段的文本信息进行比对；若所述第j个音频片段的文本信息与所述第二图像片段的文本信息不匹配时，则对于所述第j个音频片段中的第k个音频语句，在所述第二图像片段所包括的字幕语句中，查询文本信息与所述第k个音频语句的文本信息匹配的第二字幕语句。

19、在一些实施例中，处理单元，还用于若所述第j个音频片段的文本信息与所述第二图像片段的文本信息匹配时，则确定所述第j个音频片段和所述第二图像片段中不存在音画不同步的音频语句和字幕语句。

20、在一些实施例中，处理单元，具体用于若所述目标音频语句的播放起始时间点与所述目标字幕语句的显示起始时间点一致，且所述目标音频语句的播放终止时间点与所述目标字幕语句的显示终止时间点一致，则确定所述目标音频语句与所述目标字幕语句音画同步；若所述目标音频语句的播放起始时间点与所述目标字幕语句的显示起始时间点不一致，和/或所述目标音频语句的播放终止时间点与所述目标字幕语句的显示终止时间点不一致，则确定所述目标音频语句与所述目标字幕语句音画不同步；其中，若所述目标音频语句为第i个音频语句时，则所述目标字幕语句为第一字幕语句，若所述目标音频语句为第k个音频语句时，则所述目标字幕语句为第二字幕语句或第三字幕语句。

21、在一些实施例中，若所述目标音频语句与所述目标字幕语句音画不同步时，处理单元，还用于基于所述目标字幕语句的显示时间和所述目标音频语句的播放时间，确定所述目标音频语句与所述目标字幕语句的音画不同步时间差；基本文档来自技高网...

【技术保护点】

1.一种视频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述N个音频片段的文本信息和所述M个图像片段的文本信息，确定所述目标视频中音画不同步的音频语句和字幕语句，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述N个音频片段中每一个音频语句的文本信息和播放时间，以及所述M个图像片段中每一个字幕语句的文本信息和显示时间，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述M个图像片段所包括的字幕语句中，查找文本信息与所述第i个音频语句的文本信息匹配的第一字幕语句，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述N个音频片段中每一个音频语句的文本信息和播放时间和所述M个图像片段中每一个字幕语句的文本信息和显示时间，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第j个音频片段所包括的音频语句的文本信息和播放时间，以及所述第二

7.根据权利要求6所述的方法，其特征在于，若在所述第二图像片段所包括的字幕语句中，未查询到文本信息与所述第k个音频语句的文本信息一致的第二字幕语句时，所述方法还包括：

8.根据权利要求6所述的方法，其特征在于，所述在所述第二图像片段所包括的字幕语句中，查询文本信息与所述第k个音频语句的文本信息匹配的第二字幕语句之前，所述方法还包括：

9.根据权利要求8所述的方法，其特征在于，所述方法还包括：

10.根据权利要求3、6、7任一项所述的方法，其特征在于，基于目标音频语句的播放时间和目标字幕语句的显示时间，确定目标音频语句和目标字幕语句是否音画不同步，包括：

11.根据权利要求10所述的方法，其特征在于，若所述目标音频语句与所述目标字幕语句音画不同步时，所述方法还包括：

12.根据权利要求11所述的方法，其特征在于，所述音画不同步时间差包括如下至少一个：所述目标音频语句的播放起始时间点与所述目标字幕语句的显示起始时间点之间的起始时间差、所述目标音频语句的播放终止时间点与所述目标字幕语句的显示终止时间点之间的终止时间差；

13.根据权利要求1-9任一项所述的方法，其特征在于，所述将所述音频数据划分为N个音频片段，包括：

14.根据权利要求13所述的方法，其特征在于，所述将所述人声数据划分为所述N个音频片段，包括：

15.根据权利要求14所述的方法，其特征在于，所述基于所述人声数据的音量大小，将所述人声数据划分为所述N个音频片段，包括：

16.根据权利要求1-9任一项所述的方法，其特征在于，所述基于所述N个音频片段中每一个音频片段的播放时间，将所述图像数据划分为M个图像片段，包括：

17.根据权利要求1-9任一项所述的方法，其特征在于，所述对每个图像片段中的字幕区域进行文字识别，得到每个图像片段的文本信息，包括：

18.一种视频数据处理装置，其特征在于，包括：

19.一种电子设备，其特征在于，包括处理器和存储器；

20.一种计算机可读存储介质，其特征在于，用于存储计算机程序；

...

【技术特征摘要】

1.一种视频数据处理方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述基于所述n个音频片段的文本信息和所述m个图像片段的文本信息，确定所述目标视频中音画不同步的音频语句和字幕语句，包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述n个音频片段中每一个音频语句的文本信息和播放时间，以及所述m个图像片段中每一个字幕语句的文本信息和显示时间，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句，包括：

4.根据权利要求3所述的方法，其特征在于，所述在所述m个图像片段所包括的字幕语句中，查找文本信息与所述第i个音频语句的文本信息匹配的第一字幕语句，包括：

5.根据权利要求2所述的方法，其特征在于，所述基于所述n个音频片段中每一个音频语句的文本信息和播放时间和所述m个图像片段中每一个字幕语句的文本信息和显示时间，确定所述目标视频中是否存在音画不同步的音频语句和字幕语句，包括：

6.根据权利要求5所述的方法，其特征在于，所述基于所述第j个音频片段所包括的音频语句的文本信息和播放时间，以及所述第二图像片段所包括的字幕语句的文本信息和显示时间，确定所述第j个音频片段和所述第二图像片段中是否存在音画不同步的音频语句和字幕语句，包括：

...

【专利技术属性】
技术研发人员：杨善明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人