音频数据的获取方法、声学模型、装置及车辆制造方法及图纸

技术编号:38894883 阅读:23 留言:0更新日期:2023-09-22 14:17
本申请涉及一种音频数据的获取方法、声学模型、装置及车辆。该方法包括:获取目标视频数据中的音频数据和具有字幕的图像帧,单帧字幕与待标注的音频数据对应;根据预先构建的语音解码图,获得音频数据的词网格;根据音频数据对应的字幕,在词网格中筛选获得目标识别路径;当目标识别路径中对应的待确认文本符合预设规则时,将待确认文本作为音频数据的目标文本并对应标注,以将音频数据和对应的目标文本用于声学模型的训练样本。本申请的方案,可以定向获得特定群体的音频数据作为训练样本,无需人工标注,节省人力成本,提升数据获取效率,且满足特定群体的语音识别需求。且满足特定群体的语音识别需求。且满足特定群体的语音识别需求。

【技术实现步骤摘要】
音频数据的获取方法、声学模型、装置及车辆


[0001]本申请涉及语音识别
,尤其涉及一种音频数据的获取方法、声学模型、装置及车辆。

技术介绍

[0002]语音识别系统的构建过程整体上包括:训练和识别两部分。其中,训练是指分别对声学模型和语言模型的训练,以得到对应的训练好的模型。识别为通过训练好的模型将用户的语音识别为文本的过程。其中,声学模型用于构建输入语音和输出声学单元之间的概率映射关系,即训练时需要音频数据和对应标注的文本。声学模型的训练过程需要大量已经标注好的音频数据作为训练样本。
[0003]相关技术中,训练样本中的音频数据通常是由人工逐一进行对应标注,需要耗费大量的人力和时间。另外,语音识别系统的目标用户群体一般是成人(泛指12岁以上的人),采用的音频数据也一般来自成人,其对应的文本表达通顺并具有正常语义。基于这样的训练样本所构建的声学模型,可以适用于成人的日常场景中。
[0004]与成人相比,儿童的表达能力普遍稍差,例如儿童发出的语音内容可能存在停顿较多、发音重复、语序颠倒等多种情形。训练样本中如果缺少童声类型的音频数据,会使声学模型难以对童声音频进行准确识别。然而,涉及童声的音频数据存在资源少,且人工标注更加困难,如果对外定向采购相关训练样本,需要耗费较高的采购成本。

技术实现思路

[0005]为解决或部分解决相关技术中存在的问题,本申请提供一种音频数据的获取方法、声学模型、装置及车辆,能够节省人力成本,提升数据获取效率,且满足特定群体的语音识别需求。
[0006]本申请第一方面提供一种音频数据的获取方法,包括:
[0007]获取目标视频数据中的音频数据和具有字幕的图像帧,单帧所述字幕与待标注的所述音频数据对应;
[0008]根据预先构建的语音解码图,获得所述音频数据的词网格;
[0009]根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径;
[0010]当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,以将所述音频数据和对应的目标文本用于声学模型的训练样本。
[0011]一些实施方式中,所述获取目标视频数据中的音频数据和具有字幕的图像帧,包括:
[0012]获取目标视频数据中的具有字幕的图像帧,并将具有相同字幕的所述图像帧进行去重;获取所述目标视频数据中的音频数据,并通过语音端点检测,获得分割后的音频片段;根据去重后的所述图像帧的时间戳及所述音频片段的时间戳,将所述音频片段与所述
图像帧分别进行对应,以将所述图像帧中的字幕作为对应的所述音频片段的对照文本。
[0013]一些实施方式中,所述根据预先构建的语音解码图,获得所述音频数据的词网格,包括:
[0014]预先根据所述字幕中的对照文本,构建偏置语言模型;预先根据已知发音词典、已知声学模型和所述偏置语言模型,生成语音解码图;根据所述语音解码图,分别生成单个所述音频数据对应的词网格。
[0015]一些实施方式中,所述根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径,包括:
[0016]获取所述词网格中的候选识别路径;根据所述音频数据对应的字幕作为参考对象,分别获取所述候选识别路径与所述字幕之间的编辑次数;在各所述候选识别路径中,将所述编辑次数最小的候选识别路径筛选为所述目标识别路径。
[0017]一些实施方式中,所述当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,包括:
[0018]分别获取所述目标识别路径的待确认文本中的各字词的词置信度;根据各所述词置信度进行计算,获得所述目标识别路径的句置信度;当所述句置信度大于或等于预设阈值时,将所述目标识别路径对应的待确认文本作为所述音频数据的目标文本并对应标注。
[0019]一些实施方式中,所述分别获取所述目标识别路径的待确认文本中的各字词的词置信度之后,还包括:
[0020]将所述字词对应的词置信度与噪音阈值进行比较;当所述词置信度小于或等于所述噪音阈值时,对所述字词设置噪音标记。
[0021]一些实施方式中,所述方法还包括:根据所述词网格中的各字词的时间信息,将所述目标文本与所述音频数据进行对齐,获得用于训练声学模型的训练样本。
[0022]本申请第二方面提供一种音频的音频数据的获取装置,其包括:
[0023]数据处理模块,用于获取目标视频数据中的音频数据和具有字幕的图像帧,单帧所述字幕与待标注的所述音频数据对应;
[0024]词图生成模块,用于根据预先构建的语音解码图,获得所述音频数据的词网格;
[0025]路径筛选模块,用于根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径;
[0026]文本标注模块,用于当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,以将所述音频数据和对应的目标文本用作声学模型的训练样本。
[0027]本申请第二方面提供一种声学模型,其根据上述的音频数据的获取方法生成的音频数据及对应的目标文本进行训练,获得训练好的声学模型。
[0028]本申请第三方面提供一种车辆,其包括语音识别系统,所述语音识别系统中包括上述的声学模型。
[0029]本申请第四方面提供一种电子设备,包括:
[0030]处理器;以及
[0031]存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0032]本申请第五方面提供一种计算机可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
[0033]本申请提供的技术方案可以包括以下有益效果:
[0034]本申请的音频数据的获取方法,可以在基于已知的特定类型的视频素材中获得音频数据,并巧妙借助视频中的字幕作为音频数据的对照,从而辅助获得音频数据的目标文本。相较于直接对外采购训练样本,可以有效降低数据成本。另外,借助偏置语言模型构建的语音解码图所获得的词网格,确保不会遗漏掉更符合最新表达方式的识别文本。而且,将词网格中的候选识别路径按照句置信度筛选出更准确的目标文本,并可以直接将词置信度低的字词标记为噪音字词,无需人工另外耗时进行识别标注,提高标注效率,且做好特殊标记的训练样本可以提高声学模型的表达能力。
[0035]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本申请。
附图说明
[0036]通过结合附图对本申请示例性实施方式进行更详细的描述,本申请的上述以及其他目的、特征和优势将变得更加明显,其中,在本申请示例性实施方式中,相同的参考标号通常代表相同部件。
[0037]图1是本申请示出的音频数据的获取方法的流程示意图;
[0038]图2是本申请本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频数据的获取方法,其特征在于,包括:获取目标视频数据中的音频数据和具有字幕的图像帧,单帧所述字幕与待标注的所述音频数据对应;根据预先构建的语音解码图,获得所述音频数据的词网格;根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径;当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,以将所述音频数据和对应的目标文本用于声学模型的训练样本。2.根据权利要求1所述的方法,其特征在于,所述获取目标视频数据中的音频数据和具有字幕的图像帧,包括:获取目标视频数据中的具有字幕的图像帧,并将具有相同字幕的所述图像帧进行去重;获取所述目标视频数据中的音频数据,并通过语音端点检测,获得分割后的音频片段;根据去重后的所述图像帧的时间戳及所述音频片段的时间戳,将所述音频片段与所述图像帧分别进行对应,以将所述图像帧中的字幕作为对应的所述音频片段的对照文本。3.根据权利要求1或2所述的方法,其特征在于,所述根据预先构建的语音解码图,获得所述音频数据的词网格,包括:预先根据所述字幕中的对照文本,构建偏置语言模型;预先根据已知发音词典、已知声学模型和所述偏置语言模型,生成语音解码图;根据所述语音解码图,分别生成单个所述音频数据对应的词网格。4.根据权利要求1或2所述的方法,其特征在于,所述根据所述音频数据对应的字幕,在所述词网格中筛选获得目标识别路径,包括:获取所述词网格中的候选识别路径;根据所述音频数据对应的字幕作为参考对象,分别获取所述候选识别路径与所述字幕之间的编辑次数;在各所述候选识别路径中,将所述编辑次数最小的候选识别路径筛选为所述目标识别路径。5.根据权利要求1所述的方法,其特征在于,所述当所述目标识别路径中对应的待确认文本符合预设规则时,将所述待确认文本作为所述音频数据的目标文本并对应标注,包括:分别获取所述目标识别路径的待确认文本中的各字词的词置信度;根据各所述词置信度进行...

【专利技术属性】
技术研发人员:封家乐
申请(专利权)人:广州小鹏汽车科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1