本发明专利技术实施例提供一种基于字幕识别的MV字幕移植方法及装置,所述方法包括:分别迭代原MV视频以及需要移植的MV中的每一帧;利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则迭代原MV视频以及需要移植的MV中的下一帧;如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。上述技术方案具有如下有益效果:在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中,可以方便的进行无逐字歌词MV的更新和转换。
【技术实现步骤摘要】
一种基于字幕识别的MV字幕移植方法及装置
本专利技术涉及歌曲MV领域,特别是涉及一种基于字幕识别的MV字幕移植方法及装置。
技术介绍
现有技术歌曲MV字幕添加或者字幕迁移都是基于逐字并标注时间歌词文本文件lrc(歌词)或者krc(歌词文件),如果没有这种逐字歌词文件的话,字幕将不能正确的添加或者移植。
技术实现思路
本专利技术实施例提供一种基于字幕识别的MV字幕移植方法及装置,以在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中,可以方便的进行无逐字歌词MV的更新和转换。一方面,本专利技术实施例提供了一种基于字幕识别的MV字幕移植方法,所述方法包括:分别迭代原MV视频以及需要移植的MV中的每一帧;利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则迭代原MV视频以及需要移植的MV中的下一帧;如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。另一方面,本专利技术实施例提供了一种基于字幕识别的MV字幕移植装置,所述装置包括:迭代单元,用于分别迭代原MV视频以及需要移植的MV中的每一帧;OCR单元,用于利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则所述迭代单元迭代原MV视频以及需要移植的MV中的下一帧;OpenCV单元,用于如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;截取单元,用于根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;移植单元,用于根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。上述技术方案具有如下有益效果:在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中,可以方便的进行无逐字歌词MV的更新和转换。该技术方案利用开源视觉库框架进行MV中逐字歌词的字幕提取并移植到其他视频中,可解决MV花屏移植或者原版MV体积过大需要移植到其他体积较小的视频中等需要迁移字幕的技术场景。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本专利技术实施例一种基于字幕识别的MV字幕移植方法流程图;图2为本专利技术实施例一种基于字幕识别的MV字幕移植装置结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。如图1所示,为本专利技术实施例一种基于字幕识别的MV字幕移植方法流程图,所述方法包括:101、分别迭代原MV视频以及需要移植的MV中的每一帧;102、利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则迭代原MV视频以及需要移植的MV中的下一帧;如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;103、根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;104、根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。优选地,分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。优选地,截取的原MV视频中的字幕范围的两点坐标为(0,宽/1.45)和(长,宽-20px)。优选地,利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标,具体包括:首先将图片灰度,进行图片二值化并膨胀,之后查找图片所有轮廓,并迭代所有查找到的轮廓,获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形,作为符合字幕特征的字幕轮廓并计算字幕坐标。优选地,将不符合字幕特征的轮廓抛弃,即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。对应于上述方法实施例,如图2所示,为本专利技术实施例一种基于字幕识别的MV字幕移植装置结构示意图,所述装置包括:迭代单元21,用于分别迭代原MV视频以及需要移植的MV中的每一帧;OCR单元22,用于利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则所述迭代单元迭代原MV视频以及需要移植的MV中的下一帧;OpenCV单元23,用于如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;截取单元24,用于根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;移植单元25,用于根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。优选地,所述迭代单元21,具体用于分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。优选地,截取的原MV视频中的字幕范围的两点坐标为(0,宽/1.45)和(长,宽-20px)。优选地,所述OpenCV单元23,用于利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标,具体包括:首先将图片灰度,进行图片二值化并膨胀,之后查找图片所有轮廓,并迭代所有查找到的轮廓,获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形,作为符合字幕特征的字幕轮廓并计算字幕坐标。优选地,所述OpenCV单元23,进一步用于将不符合字幕特征的轮廓抛弃,即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。迭代原MV视频以及需要移植的MV中的每一帧,因各个MV字幕位置基本固定,所以截取原MV字幕范围来减小识别的误差,截取图片两点坐标为(0,宽/1.45)(长,宽-20px)得到基本只有字幕的部分,利用OCR识别是否有字幕返回,如果没有字幕迭代下一帧。如果有字幕返回就利用OpenCV进行图片处理,首先将图片灰度,进行图片二值化并膨胀使得轮廓更突出,之后查找图片所有轮廓,并迭代所有查找到的轮廓,当如果高大于宽的1.2倍(太细的矩形)并且计算此轮廓的面积小于某阈值则将其轮廓丢弃,最后计算符合要求的轮廓的四顶点坐标A并计算出四点坐标的最小矩形,并将其矩形在原图中进行截取。保存截取的字幕矩形的坐标B将截取的字幕直接合并在需要移植的MV视频帧图的坐标B的位置,并保证原MV识别的每块字幕区域都贴在固定的移植MV中。现有技术MV字幕添加或者字幕迁移都是基于逐字并标注时间歌词文本文件lrc或者krc,如果没有这种逐字歌词文件的话字幕将不能正确的添加或者移植,此方法在没有歌词文件的前提下可以正确的将MV视频中的歌词准确的截取并贴到新MV中,可以方便的进行无逐字歌词MV的更新和转换。本专利技术实施例提供一种在无歌词文本的情况下根据MV中的字幕本文档来自技高网...
【技术保护点】
1.一种基于字幕识别的MV字幕移植方法,其特征在于,所述方法包括:分别迭代原MV视频以及需要移植的MV中的每一帧;利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则迭代原MV视频以及需要移植的MV中的下一帧;如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。
【技术特征摘要】
1.一种基于字幕识别的MV字幕移植方法,其特征在于,所述方法包括:分别迭代原MV视频以及需要移植的MV中的每一帧;利用光学字符识别OCR识别是否有字幕返回:如果没有字幕返回,则迭代原MV视频以及需要移植的MV中的下一帧;如果有字幕返回,则利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标;根据所述据字幕坐标,截取符合字幕特征的字幕矩形,并保存截取的字幕矩形的矩形坐标;根据截取的字幕矩形的矩形坐标,将截取的字幕矩形合并在所述需要移植的MV中对应所述矩形坐标的位置。2.如权利要求1所述基于字幕识别的MV字幕移植方法,其特征在于,分别迭代截取的原MV视频中的字幕范围以及需要移植的MV中的每一帧。3.如权利要求2所述基于字幕识别的MV字幕移植方法,其特征在于,截取的原MV视频中的字幕范围的两点坐标为(0,宽/1.45)和(长,宽-20px)。4.如权利要求3所述基于字幕识别的MV字幕移植方法,其特征在于,利用OpenCV进行图片处理,筛选出符合字幕特征的字幕轮廓并计算字幕坐标,具体包括:首先将图片灰度,进行图片二值化并膨胀,之后查找图片所有轮廓,并迭代所有查找到的轮廓,获取符合字幕特征的轮廓的四顶点坐标并计算出所述四顶点坐标的最小矩形,作为符合字幕特征的字幕轮廓并计算字幕坐标。5.如权利要求4所述基于字幕识别的MV字幕移植方法,其特征在于,将不符合字幕特征的轮廓抛弃,即将所述轮廓的参数宽大于参数长的1.2倍并且计算此轮廓的面积小于预设阈值的轮廓抛弃。6.一种基于字幕识别的MV字幕移植装置,其特征在于,所述装置包括:迭代单元,用于分别迭...
【专利技术属性】
技术研发人员:马哲,
申请(专利权)人:北京雷石天地电子技术有限公司,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。