音频数据的获取方法、声学模型、装置及车辆制造方法及图纸

技术编号：38894883 阅读：23 留言：0更新日期：2023-09-22 14:17

本申请涉及一种音频数据的获取方法、声学模型、装置及车辆。该方法包括：获取目标视频数据中的音频数据和具有字幕的图像帧，单帧字幕与待标注的音频数据对应；根据预先构建的语音解码图，获得音频数据的词网格；根据音频数据对应的字幕，在词网格中筛选获得目标识别路径；当目标识别路径中对应的待确认文本符合预设规则时，将待确认文本作为音频数据的目标文本并对应标注，以将音频数据和对应的目标文本用于声学模型的训练样本。本申请的方案，可以定向获得特定群体的音频数据作为训练样本，无需人工标注，节省人力成本，提升数据获取效率，且满足特定群体的语音识别需求。且满足特定群体的语音识别需求。且满足特定群体的语音识别需求。

全部详细技术资料下载

【技术实现步骤摘要】
音频数据的获取方法、声学模型、装置及车辆

[0001]本申请涉及语音识别
，尤其涉及一种音频数据的获取方法、声学模型、装置及车辆。

技术介绍

[0002]语音识别系统的构建过程整体上包括：训练和识别两部分。其中，训练是指分别对声学模型和语言模型的训练，以得到对应的训练好的模型。识别为通过训练好的模型将用户的语音识别为文本的过程。其中，声学模型用于构建输入语音和输出声学单元之间的概率映射关系，即训练时需要音频数据和对应标注的文本。声学模型的训练过程需要大量已经标注好的音频数据作为训练样本。
[0003]相关技术中，训练样本中的音频数据通常是由人工逐一进行对应标注，需要耗费大量的人力和时间。另外，语音识别系统的目标用户群体一般是成人(泛指12岁以上的人)，采用的音频数据也一般来自成人，其对应的文本表达通顺并具有正常语义。基于这样的训练样本所构建的声学模型，可以适用于成人的日常场景中。
[0004]与成人相比，儿童的表达能力普遍稍差，例如儿童发出的语音内容可能存在停顿较多、发音重复、语序颠倒等多种情形。训练样本中如果缺少童声类型的音频数据，会使声学模型难以对童声音频进行准确识别。然而，涉及童声的音频数据存在资源少，且人工标注更加困难，如果对外定向采购相关训练样本，需要耗费较高的采购成本。

技术实现思路

[0005]为解决或部分解决相关技术中存在的问题，本申请提供一种音频数据的获取方法、声学模型、装置及车辆，能够节省人力成本，提升数据获取效率，且满足特定群体的语音识别需求。
[0...

【技术保护点】

【技术特征摘要】
1.一种音频数据的获取方法，其特征在于，包括：获取目标视频数据中的音频数据和具有字幕的图像帧，单帧所述字幕与待标注的所述音频数据对应；根据预先构建的语音解码图，获得所述音频数据的词网格；根据所述音频数据对应的字幕，在所述词网格中筛选获得目标识别路径；当所述目标识别路径中对应的待确认文本符合预设规则时，将所述待确认文本作为所述音频数据的目标文本并对应标注，以将所述音频数据和对应的目标文本用于声学模型的训练样本。2.根据权利要求1所述的方法，其特征在于，所述获取目标视频数据中的音频数据和具有字幕的图像帧，包括：获取目标视频数据中的具有字幕的图像帧，并将具有相同字幕的所述图像帧进行去重；获取所述目标视频数据中的音频数据，并通过语音端点检测，获得分割后的音频片段；根据去重后的所述图像帧的时间戳及所述音频片段的时间戳，将所述音频片段与所述图像帧分别进行对应，以将所述图像帧中的字幕作为对应的所述音频片段的对照文本。3.根据权利要求1或2所述的方法，其特征在于，所述根据预先构建的语音解码图，获得所述音频数据的词网格，包括：预先根据所述字幕中的对照文本，构建偏置语言模型；预先根据已知发音词典、已知声学模型和所述偏置语言模型，生成语音解码图；根据所述语音解码图，分别生成单个所述音频数据对应的词网格。4.根据权利要求1或2所述的方法，其特征在于，所述根据所述音频数据对应的字幕，在所述词网格中筛选获得目标识别路径，包括：获取所述词网格中的候选识别路径；根据所述音频数据对应的字幕作为参考对象，分别获取所述候选识别路径与所述字幕之间的编辑次数；在各所述候选识别路径中，将所述编辑次数最小的候选识别路径筛选为所述目标识别路径。5.根据权利要求1所述的方法，其特征在于，所述当所述目标识别路径中对应的待确认文本符合预设规则时，将所述待确认文本作为所述音频数据的目标文本并对应标注，包括：分别获取所述目标识别路径的待确认文本中的各字词的词置信度；根据各所述词置信度进行...

【专利技术属性】
技术研发人员：封家乐，
申请(专利权)人：广州小鹏汽车科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人