一种训练数据的获取方法及装置制造方法及图纸

技术编号:30228067 阅读:15 留言:0更新日期:2021-09-29 09:55
本申请涉及语音识别领域,提供了一种训练数据的获取方法及装置,以解决难以获取到符合语音识别训练标准的训练数据的问题,该方法包括:获取多媒体文件的原始字幕文本,并对原始字幕文本执行第一处理流程,获得候选字幕文本;获取多媒体文件的原始音频片段,并对原始音频片段执行第二处理流程,获得候选音频片段;最后,对候选字幕文本和候选音频片段进行对齐处理,获得包含对应于时间序列的目标字幕文本和目标音频片段的训练数据。本申请实施例对基于弱监督标注的原始字幕文本执行第一处理流程,获得候选字幕文本,不仅降低了训练数据的获取难度,还提高了训练数据的准确率,可在较短时间内获取到大量符合语音识别训练标准的训练数据。准的训练数据。准的训练数据。

【技术实现步骤摘要】
一种训练数据的获取方法及装置


[0001]本申请涉及语音识别
,提供了一种训练数据的获取方法及装置。

技术介绍

[0002]随着科学技术的发展,语音识别技术越来越广泛地应用于人们日常的工作生活当中,比如,在智能家居、车载导航、视频制作等场景中应用语音识别技术。
[0003]语音识别技术的关键是使用标注好的语音识别训练数据,对语音识别模型进行训练,而在相关技术中,提供了以下三种获得训练数据的方式。
[0004]方式一,基于人工标注的训练数据获取方式。该方式中的一条语音数据需要进行多次人工检查,才能被标注为训练数据,获取训练数据的效率较低,也难以保证训练数据的准确率符合语音识别训练标准。另外,标注者在标注西班牙语、葡萄牙语等源自其他语言的语音数据时,也需要标注者具备较高的专业技能,进一步增加了多语种训练数据的获取难度。
[0005]方式二,基于语音识别系统的训练数据获取方式。但语音识别系统的识别结果会存在一定误差,无法保证输出的训练数据完全准确,而且使用语音识别系统的识别结果训练其他语音识别系统,理论上来说,训练完毕的其他语音识别系统的性能,也难以超越原有语音识别系统的性能。
[0006]方式三,基于语音评测系统的训练数据获取方式。因语音评测系统的稀疏性,难以获取大量的、来自不同领域的训练数据,导致语音评测系统最终获取到的训练数据存在明显的偏置,不利于后续训练语音识别系统。

技术实现思路

[0007]本申请实施例提供了一种训练数据的获取方法及装置,以解决难以获取到符合语音识别训练标准的训练数据的问题。
[0008]第一方面,本申请实施例提供了一种训练数据的获取方法,所述训练数据用于训练语音识别模型,包括:
[0009]获取多媒体文件的原始字幕文本,并对所述原始字幕文本执行第一处理流程,获得候选字幕文本;
[0010]获取所述多媒体文件的原始音频片段,并对所述原始音频片段执行第二处理流程,获得候选音频片段;
[0011]对所述候选字幕文本和所述候选音频片段进行对齐处理,获得所述训练数据,其中,所述训练数据包括对应于时间序列的目标字幕文本和目标音频片段。
[0012]可选的,所述获取多媒体文件的原始字幕文本,包括:
[0013]获取所述多媒体文件的外挂式字幕文件;
[0014]对所述外挂式字幕文件进行文件解析,获得外挂式字幕文本,并将所述外挂式字幕文本作为所述原始字幕文本。
[0015]可选的,所述获取多媒体文件的原始字幕文本,包括:
[0016]对所述多媒体文件的各帧第一视频图像进行字符识别处理,获得各帧第一视频图像所包含的初始字符序列;
[0017]对各个初始字符序列进行筛选,剔除不符合预设文本筛选规则的初始字符序列,获得候选字符序列集合,并将所述候选字符序列集合作为所述原始字幕文本。
[0018]可选的,在对所述多媒体文件的各帧第一视频图像进行字符识别处理之前,所述方法还包括,通过以下至少一种方式获得所述各帧第一视频图像:
[0019]针对所述多媒体文件的各帧第二视频图像,分别执行以下操作:比较当前一帧第二视频图像和参考帧视频图像之间的画面变化,若第一比较结果符合预设比较规则,则将所述当前一帧第二视频图像作为一帧第一视频图像输出;
[0020]按照预设抽帧周期,从所述多媒体文件中抽取相应数量的多帧第二视频图像,并将抽取出的所述多帧第二视频图像作为所述各帧第一视频图像输出。
[0021]可选的,所述对所述各个初始字符序列进行筛选,剔除不符合预设文本筛选规则的初始字符序列,获得候选字符序列集合,包括以下至少一种筛选方式:
[0022]从所述各个初始字符序列中,剔除与设定字符序列方向不符的初始字符序列,获得所述候选字符序列集合;
[0023]从所述各个初始字符序列中,剔除第一视频图像的目标字符变化值不符合预设字符变化规则的初始字符序列,获得所述候选字符序列集合;
[0024]基于所述各个初始字符序列的字符数目以及各自对应的连续帧数,对所述各个初始字符序列进行筛选,获得所述候选字符序列集合。
[0025]可选的,所述设定字符序列方向包括水平字符序列,和竖直字符序列。
[0026]可选的,所述从所述各个初始字符序列中,剔除第一视频图像的目标字符变化值不符合预设字符变化规则的初始字符序列,包括:
[0027]针对各帧第一视频图像,分别执行以下操作:若一帧第一视频图像中的全部初始字符变化值均低于设定第一阈值,则判定所述一帧第一视频图像的目标字符变化值不符合所述字符变化规则,并剔除所述一帧第一视频图像上的所述全部初始字符序列。
[0028]可选的,通过以下方式确定所述一帧第一视频图像中的至少一个初始字符变化值:
[0029]循环遍历所述一帧第一视频图像上的各个第一初始字符序列,其中,每遍历一个第一初始字符序列,基于所述一个第一初始字符序列与相邻一帧第一视频图像上对应位置的第二初始字符序列之间的像素差异值,确定所述一个第一初始字符序列的初始字符变化值。
[0030]可选的,所述获取多媒体文件的原始字幕文本,包括:
[0031]对所述多媒体文件的原始音频片段进行语音识别处理,将语音识别结果作为所述原始字幕文本;或者,
[0032]获取所述多媒体文件的音频字幕文件,对所述音频字幕文件进行文件解析,获得所述原始字幕文本。
[0033]可选的,所述对所述原始字幕文本执行第一处理流程,获得候选字幕文本,包括以下至少一种操作:
[0034]将所述原始字幕文本中的特定字符,转换为对应的汉字;
[0035]基于预设的映射关系,将所述原始字幕文本中的拼音缩写转换为对应的映射词集合;
[0036]若所述原始字幕文本中存在混淆词,则在所述原始字幕文本中插入对应的混淆词集合。
[0037]可选的,所述混淆词为同义词、同音词中的至少一种。
[0038]可选的,所述对所述原始音频片段执行第二处理流程,获得候选音频片段,包括:
[0039]对所述多媒体文件的原始音频片段进行语音活性检测处理,滤除所述原始音频片段中的冗余音频片段,获得所述候选音频片段。
[0040]可选的,所述对所述候选字幕文本和所述候选音频片段进行对齐处理,获得所述训练数据,包括:
[0041]将所述候选音频片段输入预设的声学模型中,获得对应的声学状态序列;
[0042]基于所述声学状态序列中的各帧声学状态,与所述候选字幕文本中的各个候选词语之间的匹配概率值,对所述候选字幕文本和所述候选音频片段进行对齐处理,并将对齐结果作为所述训练数据。
[0043]可选的,若获得多个对齐结果,则所述方法还包括:
[0044]将所述多个对齐结果,分别输入预设的文本分类模型中,获得对应的文本合理度;其中,所述文本分类模型每读取一个对齐结果,计算所述一个对齐结果出现在所述候选字幕文本中的条件概率,并将所述条本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种训练数据的获取方法,其特征在于,所述训练数据用于训练语音识别模型,包括:获取多媒体文件的原始字幕文本,并对所述原始字幕文本执行第一处理流程,获得候选字幕文本;获取所述多媒体文件的原始音频片段,并对所述原始音频片段执行第二处理流程,获得候选音频片段;对所述候选字幕文本和所述候选音频片段进行对齐处理,获得所述训练数据,其中,所述训练数据包括对应于时间序列的目标字幕文本和目标音频片段。2.如权利要求1所述的方法,其特征在于,所述获取多媒体文件的原始字幕文本,包括:获取所述多媒体文件的外挂式字幕文件;对所述外挂式字幕文件进行文件解析,获得外挂式字幕文本,并将所述外挂式字幕文本作为所述原始字幕文本。3.如权利要求1所述的方法,其特征在于,所述获取多媒体文件的原始字幕文本,包括:对所述多媒体文件的各帧第一视频图像进行字符识别处理,获得各帧第一视频图像所包含的初始字符序列;对各个初始字符序列进行筛选,剔除不符合预设文本筛选规则的初始字符序列,获得候选字符序列集合,并将所述候选字符序列集合作为所述原始字幕文本。4.如权利要求1所述的方法,其特征在于,所述获取多媒体文件的原始字幕文本,包括:对所述多媒体文件的原始音频片段进行语音识别处理,将语音识别结果作为所述原始字幕文本;或者,获取所述多媒体文件的音频字幕文件,对所述音频字幕文件进行文件解析,获得所述原始字幕文本。5.如权利要求1所述的方法,其特征在于,所述对所述原始字幕文本执行第一处理流程,获得候选字幕文本,包括以下至少一种操作:将所述原始字幕文本中的特定字符,转换为对应的汉字;基于预设的映射关系,将所述原始字幕文本中的拼音缩写转换为对应的映射词集合;若所述原始字幕文...

【专利技术属性】
技术研发人员:杨震刘东李响张神权韩其琛
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1