视频台词提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：44040019 阅读：8 留言：0更新日期：2025-01-15 01:17

本发明专利技术实施例提供了一种视频台词提取方法、装置、电子设备及存储介质，该方法包括：获取待处理视频和所述待处理视频的视频类型；对所述待处理视频进行抽帧处理，得到所述待处理视频的多张抽帧图像；根据每张所述抽帧图像中的文本框，确定所述多张抽帧图像的基准台词文本框；根据所述视频类型和所述基准台词文本框，在所述文本框中确定所述多张抽帧图像的特殊台词文本框；从所述多张抽帧图像中提取位于所述基准台词文本框和所述特殊台词文本框内的台词。本发明专利技术实施例结合基准台词文本框和特殊台词文本框，可以避免台词的遗漏，提高视频台词的召回率。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及文本检测，特别是涉及一种视频台词提取方法、装置、电子设备及存储介质。

技术介绍

1、在长视频的台词提取过程中，会针对长视频的抽帧图像中所检测到文本框进行热图统计，来实现台词的过滤，得到有效的台词文本区域，进而通过文字识别，实现台词的提取。

2、现有技术中，在对视频进行台词提取时，是对检测到的文本框进行热图统计，通过对热图中热度最高区域进行位置回归得到台词文本区域，将该文本区域作为该视频的台词区域。

3、但是，通过热图统计的方式不一定适用所有的视频，例如台词布局不规整的视频，如果仍然使用热图统计的方式进行视频台词的提取，会出现台词非规整区域的台词内容遗漏，导致台词的召回率不足。

技术实现思路

1、本专利技术实施例的目的在于提供一种视频台词提取方法、装置、电子设备及存储介质，以提高视频台词的召回率。具体技术方案如下：

2、在本专利技术实施的第一方面，首先提供了一种视频台词提取方法，包括：

3、获取待处理视频和所述待处理视频的视频类型；

4、对所述待处理视频进行抽帧处理，得到所述待处理视频的多张抽帧图像；

5、根据每张所述抽帧图像中的文本框，确定所述多张抽帧图像的基准台词文本框；

6、根据所述视频类型和所述基准台词文本框，在所述文本框中确定所述多张抽帧图像的特殊台词文本框；

7、从所述多张抽帧图像中提取位于所述基准台词文本框和所述特殊台词文本框内的台词。

8、在本专利

9、获取模块，用于获取待处理视频和所述待处理视频的视频类型；

10、抽帧模块，用于对所述待处理视频进行抽帧处理，得到所述待处理视频的多张抽帧图像；

11、基准台词框确定模块，用于根据每张所述抽帧图像中的文本框，确定所述多张抽帧图像的基准台词文本框；

12、特殊台词框确定模块，用于根据所述视频类型和所述基准台词文本框，在所述文本框中确定所述多张抽帧图像的特殊台词文本框；

13、台词提取模块，用于从所述多张抽帧图像中提取位于所述基准台词文本框和所述特殊台词文本框内的台词。

14、在本专利技术实施的又一方面，还提供了一种电子设备，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

15、存储器，用于存放计算机程序；

16、处理器，用于执行存储器上所存放的程序时，实现上述任一所述的视频台词提取方法步骤。

17、在本专利技术实施的又一方面，还提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，当其在计算机上运行时，使得计算机执行上述任一所述的视频台词提取方法。

18、在本专利技术实施的又一方面，还提供了一种包含指令的计算机程序产品，当其在计算机上运行时，使得计算机执行上述任一所述的视频台词提取方法。

19、本专利技术实施例提供的视频台词提取方法、装置、电子设备及存储介质，通过在根据每张抽帧图像中的文本框确定多张抽帧图像的基准台词文本框后，进一步根据视频类型和基准台词文本框，在文本框中确定多张抽帧图像的特殊台词文本框，进而提取位于基准台词文本框和特殊台词文本框内的台词，这样在基准台词文本框的基础上充分考虑了台词特殊布局，得到特殊台词文本框，结合基准台词文本框和特殊台词文本框，可以避免台词的遗漏，提高视频台词的召回率。

本文档来自技高网...

【技术保护点】

1.一种视频台词提取方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述根据所述视频类型和所述基准台词文本框，在所述文本框中确定所述多张抽帧图像的特殊台词文本框，包括：

3.根据权利要求2所述的方法，其特征在于，所述基准台词类型包括一行基准台词；所述特殊台词文本框包括第一特殊台词文本框和/或第二特殊台词文本框；

4.根据权利要求3所述的方法，其特征在于，所述根据所述基准台词文本框，从所述剩余文本框中确定第一特殊台词文本框，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述基准台词文本框，从所述其他文本框中确定第二特殊台词文本框，包括：

6.根据权利要求2所述的方法，其特征在于，所述基准台词类型包括两行基准台词，所述基准台词文本框包括第一行基准台词文本框和第二行基准台词文本框，在同一所述抽帧图像中第一行基准台词文本框位于所述第二行基准台词文本框的上方；

7.根据权利要求6所述的方法，其特征在于，所述根据所述第二行基准台词文本框，在同一抽帧图像中对位于所述第二行基准台词文本框下方的

8.根据权利要求6所述的方法，其特征在于，所述根据所述第一行基准台词文本框，在同一抽帧图像中对位于所述第一行基准台词文本框上方的剩余文本框进行统计，并根据统计结果，确定所述多帧抽帧图像的特殊台词文本框，包括：

9.根据权利要求1所述的方法，其特征在于，所述根据所述视频类型和所述基准台词文本框，在所述文本框中确定所述多张抽帧图像的特殊台词文本框，包括：

10.一种视频台词提取装置，其特征在于，包括：

11.一种电子设备，其特征在于，包括处理器、通信接口、存储器和通信总线，其中，处理器，通信接口，存储器通过通信总线完成相互间的通信；

12.一种计算机可读存储介质，其上存储有计算机程序，其特征在于，该程序被处理器执行时实现如权利要求1-9中任一所述的方法。

...

【技术特征摘要】

1.一种视频台词提取方法，其特征在于，包括：

4.根据权利要求3所述的方法，其特征在于，所述根据所述基准台词文本框，从所述剩余文本框中确定第一特殊台词文本框，包括：

5.根据权利要求3所述的方法，其特征在于，所述根据所述基准台词文本框，从所述其他文本框中确定第二特殊台词文本框，包括：

7.根据权利要求6所述的方法，其...

【专利技术属性】
技术研发人员：赵瑞书，
申请(专利权)人：北京爱奇艺科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人