语音监督数据获取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:33200713 阅读:21 留言:0更新日期:2022-04-24 00:37
本公开关于一种语音监督数据获取方法、装置、电子设备及存储介质,该方法包括:确定候选视频中的多个视频帧图像;对多个视频帧图像进行文本识别,得到每个视频帧图像对应的第一文本串;对多个视频帧图像对应的第一文本串进行处理,得到多个视频帧图像对应的候选文本,并确定与候选文本对应的起始时间点和结束时间点;从候选视频的音频文件中提取起始时间点和结束时间点之间的音频数据,得到候选文本对应的音频数据;对候选文本对应的音频数据进行语音识别,得到候选文本对应的识别文本;根据候选文本和识别文本,确定音频数据对应的目标文本,并将目标文本确定为音频数据对应的标注数据。本公开可以减少人力成本,提高标注效率。提高标注效率。提高标注效率。

【技术实现步骤摘要】
语音监督数据获取方法、装置、电子设备及存储介质


[0001]本公开涉及语音识别
,尤其涉及一种语音监督数据获取方法、装置、电子设备及存储介质。

技术介绍

[0002]随着人工智能的发展,语音识别已经广泛应用于各行各业。在训练语音识别系统时,需要大量的监督数据,工业界常用几万到几十万小时的海量监督标注数据来训练模型,监督数据常用的获取方法来自于人工对语音进行标注,但是面对几十万小时海量的数据,如果需要人工标注,将会耗费较高的人力成本,而且标注效率较低。

技术实现思路

[0003]本公开提供一种语音监督数据获取方法、装置、电子设备及存储介质,以至少解决相关技术中人力成本高、标注效率低的问题。本公开的技术方案如下:
[0004]根据本公开实施例的第一方面,提供一种语音监督数据获取方法,包括:
[0005]确定候选视频中的多个视频帧图像,对所述多个视频帧图像进行文本识别,得到每个所述视频帧图像对应的第一文本串;
[0006]对所述多个视频帧图像对应的第一文本串进行处理,得到所述多个视频帧图像对应的候选文本,并确定与所述候选文本对应的起始时间点和结束时间点;
[0007]从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据,得到所述候选文本对应的音频数据;
[0008]对所述候选文本对应的音频数据进行语音识别,得到所述候选文本对应的识别文本;
[0009]根据所述候选文本和所述识别文本,确定所述音频数据对应的目标文本,并将所述目标文本确定为所述音频数据对应的标注数据。
[0010]可选的,所述对所述多个视频帧图像对应的第一文本串进行处理,得到所述多个视频帧图像对应的候选文本,并确定与所述候选文本对应的起始时间点和结束时间点,包括:
[0011]从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像;
[0012]根据所述第一预设数量的视频帧图像的文本识别结果,确定字幕所对应的文本区域;
[0013]根据所述文本区域,从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串,得到所述多个视频帧图像分别对应的初始文本;
[0014]对所述多个视频帧图像对应的初始文本进行融合,得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像;
[0015]根据候选文本所对应的起始视频帧图像和结束视频帧图像,确定候选文本所对应的起始时间点和结束时间点。
[0016]可选的,根据所述第一预设数量的视频帧图像的文本识别结果,确定字幕所对应的文本区域,包括:
[0017]分别对所述第一预设数量的视频帧图像进行文本识别,得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域;
[0018]确定每个视频帧图像对应的第二文本串的去重汉字集合;
[0019]比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合,并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串,将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。
[0020]可选的,比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合,并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串,将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域,包括:
[0021]在所述第一预设数量的视频帧图像中,确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值;
[0022]删除所述差值小于第一差值阈值的第二文本串,将剩余的第二文本串确定为保留文本串,并将保留文本串所对应的文本候选区域确定为保留文本候选区域;所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和/或所述第二帧视频帧图像的剩余第二文本串;
[0023]将所述保留文本串依次与所述第一预设数量的视频帧图像中每一帧其他视频帧图像中的第二文本串进行所述去重汉字集合的差值比较,将最后剩余的保留文本串所对应的保留文本候选区域确定为所述字幕所对应的文本区域。
[0024]可选的,对所述多个视频帧图像对应的初始文本进行融合,得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像,包括:
[0025]按照所述多个视频帧图像的顺序,若连续的视频帧图像中初始文本的去重汉字集合的差值小于第二差值阈值,则将所述连续的视频帧图像中的初始文本合并,得到候选文本;
[0026]将所述连续的视频帧图像中的第一帧视频帧图像确定为所述候选文本所对应的起始视频帧图像,将所述连续的视频帧图像中的最后一帧视频帧图像确定为所述候选文本所对应的结束视频帧图像。
[0027]可选的,所述确定候选视频中的多个视频帧图像,包括:
[0028]根据预设抽帧率,对候选视频进行抽帧,得到所述候选视频中的多个视频帧图像;
[0029]根据候选文本所对应的起始视频帧图像和结束视频帧图像,确定候选文本所对应的起始时间点和结束时间点,包括:
[0030]根据所述预设抽帧率以及候选文本所对应的起始视频帧图像和结束视频帧图像,确定候选文本所对应的起始时间点和结束时间点。
[0031]可选的,在确定候选视频中的多个视频帧图像之前,还包括:
[0032]对视频库中的目标视频抽取第二预设数量的视频帧图像,所述目标视频为所述视频库中的任一视频;
[0033]若所述第二预设数量的视频帧图像中包括文字,则确定所述第二预设数量的视频
帧图像所对应的视频为候选视频。
[0034]可选的,根据所述候选文本和所述识别文本,确定所述音频数据对应的目标文本,包括:
[0035]分别确定每个音频数据对应的候选文本与所述识别文本的最小编辑距离;
[0036]将所述最小编辑距离小于预设阈值的音频数据所对应的候选文本确定为所述音频数据对应的目标文本。
[0037]根据本公开实施例的第二方面,提供一种语音监督数据获取装置,包括:
[0038]文本识别模块,被配置为执行确定候选视频中的多个视频帧图像,对所述多个视频帧图像进行文本识别,得到每个所述视频帧图像对应的第一文本串;
[0039]候选文本确定模块,被配置为执行对所述多个视频帧图像对应的第一文本串进行处理,得到所述多个视频帧图像对应的候选文本,并确定与所述候选文本对应的起始时间点和结束时间点;
[0040]音频数据提取模块,被配置为执行从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据,得到所述候选文本对应的音频数据;
[0041]语音识别模块,被配置为执行对所述候选文本对应的音频数据进行语音识别,得到所述候选文本对应的识别文本;
[0042]监督数据确定模块,被配置为执行根据所述候选文本和所述识别文本,确定所述音频数据对应的目标文本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音监督数据获取方法,其特征在于,包括:确定候选视频中的多个视频帧图像,对所述多个视频帧图像进行文本识别,得到每个所述视频帧图像对应的第一文本串;对所述多个视频帧图像对应的第一文本串进行处理,得到所述多个视频帧图像对应的候选文本,并确定与所述候选文本对应的起始时间点和结束时间点;从所述候选视频的音频文件中提取所述起始时间点和结束时间点之间的音频数据,得到所述候选文本对应的音频数据;对所述候选文本对应的音频数据进行语音识别,得到所述候选文本对应的识别文本;根据所述候选文本和所述识别文本,确定所述音频数据对应的目标文本,并将所述目标文本确定为所述音频数据对应的标注数据。2.根据权利要求1所述的方法,其特征在于,所述对所述多个视频帧图像对应的第一文本串进行处理,得到所述多个视频帧图像对应的候选文本,并确定与所述候选文本对应的起始时间点和结束时间点,包括:从所述候选视频或所述多个视频帧图像中抽取第一预设数量的视频帧图像;根据所述第一预设数量的视频帧图像的文本识别结果,确定字幕所对应的文本区域;根据所述文本区域,从所述多个视频帧图像对应的第一文本串中分别提取所述文本区域所对应的第一文本串,得到所述多个视频帧图像对应的初始文本;对所述多个视频帧图像对应的初始文本进行融合,得到所述多个视频帧图像对应的候选文本以及所述候选文本所对应的起始视频帧图像和结束视频帧图像;根据候选文本所对应的起始视频帧图像和结束视频帧图像,确定候选文本所对应的起始时间点和结束时间点。3.根据权利要求2所述的方法,其特征在于,根据所述第一预设数量的视频帧图像的文本识别结果,确定字幕所对应的文本区域,包括:分别对所述第一预设数量的视频帧图像进行文本识别,得到每个视频帧图像对应的第二文本串和与第二文本串对应的文本候选区域;确定每个视频帧图像对应的第二文本串的去重汉字集合;比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合,并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串,将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域。4.根据权利要求3所述的方法,其特征在于,比较所述第一预设数量的视频帧图像对应的第二文本串的去重汉字集合,并删除所述去重汉字集合的差值小于第一差值阈值的第二文本串,将剩余的第二文本串所对应的文本候选区域确定为所述字幕所对应的文本区域,包括:在所述第一预设数量的视频帧图像中,确定第一帧视频帧图像对应的第二文本串的去重汉字集合与第二帧视频帧图像对应的第二文本串的去重汉字集合的差值;删除所述差值小于第一差值阈值的第二文本串,将剩余的第二文本串确定为保留文本串,并将保留文本串所对应的文本候选区域确定为保留文本候选区域;所述剩余的第二文本串包括所述第一帧视频帧图像的剩余第二文本串和...

【专利技术属性】
技术研发人员:曲贺单亚慧
申请(专利权)人:北京达佳互联信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1