一种训练数据的获取方法及装置制造方法及图纸

技术编号：30228067 阅读：15 留言：0更新日期：2021-09-29 09:55

本申请涉及语音识别领域，提供了一种训练数据的获取方法及装置，以解决难以获取到符合语音识别训练标准的训练数据的问题，该方法包括：获取多媒体文件的原始字幕文本，并对原始字幕文本执行第一处理流程，获得候选字幕文本；获取多媒体文件的原始音频片段，并对原始音频片段执行第二处理流程，获得候选音频片段；最后，对候选字幕文本和候选音频片段进行对齐处理，获得包含对应于时间序列的目标字幕文本和目标音频片段的训练数据。本申请实施例对基于弱监督标注的原始字幕文本执行第一处理流程，获得候选字幕文本，不仅降低了训练数据的获取难度，还提高了训练数据的准确率，可在较短时间内获取到大量符合语音识别训练标准的训练数据。准的训练数据。准的训练数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种训练数据的获取方法及装置

[0001]本申请涉及语音识别
，提供了一种训练数据的获取方法及装置。

技术介绍

[0002]随着科学技术的发展，语音识别技术越来越广泛地应用于人们日常的工作生活当中，比如，在智能家居、车载导航、视频制作等场景中应用语音识别技术。
[0003]语音识别技术的关键是使用标注好的语音识别训练数据，对语音识别模型进行训练，而在相关技术中，提供了以下三种获得训练数据的方式。
[0004]方式一，基于人工标注的训练数据获取方式。该方式中的一条语音数据需要进行多次人工检查，才能被标注为训练数据，获取训练数据的效率较低，也难以保证训练数据的准确率符合语音识别训练标准。另外，标注者在标注西班牙语、葡萄牙语等源自其他语言的语音数据时，也需要标注者具备较高的专业技能，进一步增加了多语种训练数据的获取难度。
[0005]方式二，基于语音识别系统的训练数据获取方式。但语音识别系统的识别结果会存在一定误差，无法保证输出的训练数据完全准确，而且使用语音识别系统的识别结果训练其他语音识别系统，理论上来说，训练完毕的其他语音识别系统的性能，也难以超越原有语音识别系统的性能。
[0006]方式三，基于语音评测系统的训练数据获取方式。因语音评测系统的稀疏性，难以获取大量的、来自不同领域的训练数据，导致语音评测系统最终获取到的训练数据存在明显的偏置，不利于后续训练语音识别系统。

技术实现思路

[0007]本申请实施例提供了一种训练数据的获取方法及装置，以解决难以获取到符合...

【技术保护点】

【技术特征摘要】
1.一种训练数据的获取方法，其特征在于，所述训练数据用于训练语音识别模型，包括：获取多媒体文件的原始字幕文本，并对所述原始字幕文本执行第一处理流程，获得候选字幕文本；获取所述多媒体文件的原始音频片段，并对所述原始音频片段执行第二处理流程，获得候选音频片段；对所述候选字幕文本和所述候选音频片段进行对齐处理，获得所述训练数据，其中，所述训练数据包括对应于时间序列的目标字幕文本和目标音频片段。2.如权利要求1所述的方法，其特征在于，所述获取多媒体文件的原始字幕文本，包括：获取所述多媒体文件的外挂式字幕文件；对所述外挂式字幕文件进行文件解析，获得外挂式字幕文本，并将所述外挂式字幕文本作为所述原始字幕文本。3.如权利要求1所述的方法，其特征在于，所述获取多媒体文件的原始字幕文本，包括：对所述多媒体文件的各帧第一视频图像进行字符识别处理，获得各帧第一视频图像所包含的初始字符序列；对各个初始字符序列进行筛选，剔除不符合预设文本筛选规则的初始字符序列，获得候选字符序列集合，并将所述候选字符序列集合作为所述原始字幕文本。4.如权利要求1所述的方法，其特征在于，所述获取多媒体文件的原始字幕文本，包括：对所述多媒体文件的原始音频片段进行语音识别处理，将语音识别结果作为所述原始字幕文本；或者，获取所述多媒体文件的音频字幕文件，对所述音频字幕文件进行文件解析，获得所述原始字幕文本。5.如权利要求1所述的方法，其特征在于，所述对所述原始字幕文本执行第一处理流程，获得候选字幕文本，包括以下至少一种操作：将所述原始字幕文本中的特定字符，转换为对应的汉字；基于预设的映射关系，将所述原始字幕文本中的拼音缩写转换为对应的映射词集合；若所述原始字幕文...

【专利技术属性】
技术研发人员：杨震，刘东，李响，张神权，韩其琛，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人