语音识别校正方法及其相应的装置、设备、介质制造方法及图纸

技术编号:30442340 阅读:30 留言:0更新日期:2021-10-24 18:31
本申请公开一种语音识别校正方法及其相应的装置、设备、介质,该方法包括:获取选定的声学模型从原始音频数据中识别出的初步音频文本及置信度数据;将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;根据与原始音频数据的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。本申请能够对关联于相同语音内容的音频文本和音频数据所构成的脏数据进行高效地清洗,从而制备出声学模型训练所需的训练数据。训练数据。训练数据。

【技术实现步骤摘要】
语音识别校正方法及其相应的装置、设备、介质


[0001]本申请实施例涉及语音识别
,尤其涉及一种语音识别校正方法及其相应的装置、设备、介质。

技术介绍

[0002]海量的训练数据恰恰是优秀的声学模型必不可少的素材,目前主流生产ASR(Automatic Speech Recognition,自动语音识别)训练数据的方法常通过直接采样来获取:借助人工准确阅读某段文字或对话,由此获得朗读所形成的音频数据及被阅读的音频文本,所述音频文件可以作为训练样本,而其音频文本可作为监督标签,故可产出高质量的训练语料,能够直接用于训练的数据。显而易见的,这种方法,采集效率非常低下,数据获取成本非常高昂。
[0003]一种可行的思路是利用音频文字对齐技术来生产声学模型训练所需的音频数据,让音频文字对齐技术在自动语音识别领域中扮演数据生产的角色,具体而言,借助音频文字对齐技术,利用与原始音频数据相对应的原始音频文本,将原始音频数据与从该原始音频数据中识别出来的音频文本在句子粒度下实现时序上的对齐,对齐结果实现了对语音识别出来的音频文本的校正,校正后的音频文本与所述的原始音频数据,便可用于训练ASR声学模型。
[0004]至于所述的原始音频数据及其原始音频文本,可以借助更丰富的手段进行采集,例如,互联网中存在着大量的内容互相对应的音频数据与音频文本,例如电影文件及其字幕文件之间便存在内容上的对应关系,有声书的音频文件与其文本文件之间也存在着内容上的对应关系,甚至一些短视频也同理存在着其视频文件及其中的字幕之间的对应关系,诸如此类,均蕴含着数据挖掘的巨大价值,因此,可以在实施音频文字对齐技术时被引用。然而,这些数据中的音频文本部分,往往丢失了其与音频数据之间的时序对应关系,一般将此类数据命名为“脏数据”,无法直接用于声学模型的训练,因此需要对其做进一步的加工处理,以便生产出有用的训练样本,于是问题的关键便是如何构造有效的技术方案来实现声学模型训练样本的高效生产。

技术实现思路

[0005]本申请的目的针对现有技术中存在的至少部分不足或为满足现有技术的至少部分需求而提供一种语音识别校正方法及其相应的装置、计算机设备及存储介质。
[0006]为解决上述技术问题,本申请采用的一个技术方案是:
[0007]本申请提供一种语音识别校正方法,包括如下步骤:
[0008]获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;
[0009]将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;
[0010]根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;
[0011]将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。
[0012]扩展的实施例中,本申请的语音识别校正方法,包括如下前置步骤:
[0013]调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据;
[0014]计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率;
[0015]统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分;
[0016]将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。
[0017]具体化的实施例中,根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本,包括如下步骤:
[0018]根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐;
[0019]根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐;
[0020]根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记;
[0021]将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。
[0022]进一步的实施例中,根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记,包括如下步骤:
[0023]获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达;
[0024]将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列;
[0025]将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。
[0026]进一步的实施例中,将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列,包括如下步骤:
[0027]构造相似度矩阵,以过程表达中的字词为行坐标维度,以原始表达中的字词为列坐标维度,其每个元素用于存储该元素的行坐标维度与列坐标维度之间的相似度;
[0028]为该相似度矩阵计算所述行坐标维度与列坐标维度之间的相似度,其中:
[0029]——对于行坐标维度为非空洞标记的元素,其存储的相似度为其行坐标维度与其列坐标维度之间的相似度,加上其前一行坐标维度与其后一列坐标维度所指向的元素的相似度;
[0030]——对于行坐标维度为空洞标记的元素,其存储的相似度为如下相似度中的最大值:该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其后一列坐标维度所对应的元素的相似度;
[0031]根据最大贪心匹配算法,从所述相似度矩阵中最大相似度出发,倒查确定出包含空洞标记相关的元素且由相似度最大的元素所构成的最佳路径,确定该路径所对应的最长公共子序列,其中:
[0032]——对于行坐标维度为空洞标记的元素,其在先路径节点为如下最大值所在的元素:该元素的前一行坐标维度与其列坐标维度所指向的元素的相似度、该元素的前一行坐标维度与其前一列坐标维度所指向的元素的相似度、该元素的行坐标维度与其前一列坐标维度所指向的元素的相似度;
[0033]——对于行坐标维度的为非空洞标记的元素,其在先路径节点为该元素的前一行坐标维度与其前一列坐标维度所指向的元素。
[0034]较佳的实施例中,将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中的步骤,该声学模型为所述的选定的声学模型本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音识别校正方法,其特征在于,包括如下步骤:获取选定的声学模型从原始音频数据中识别出的初步音频文本及表征初步音频文本内各字词识别准确度的置信度数据;将初步音频文本中置信度低于预设阈值的字词替换为空洞标记,获得标记音频文本;根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本;将所述原始音频数据标记为训练样本,将所述订正音频文本标记为该原始音频数据的监督标签,存储于声学模型训练所需的样本库中。2.根据权利要求1所述的语音识别校正方法,其特征在于,包括如下前置步骤:调用候选声学模型对多个原始音频数据实施语音识别,识别出相应的多个初步音频文本及表征每一初步音频文本内各字词提取准确度的置信度数据;计算每个初步音频文本中置信度低于预设阈值的字词数量与该初步音频文本的字词总量的比率,作为空洞率;统计所有初步音频文本的空洞率的均值获得该候选声学模型的空洞评分;将空洞评分满足预设条件的候选声学模型确定为选定的声学模型。3.根据权利要求1所述的语音识别校正方法,其特征在于,根据与原始音频数据的语音内容相匹配的原始音频文本对所述标记音频文本实施文本对齐,使标记音频文本中的空洞标记根据原始音频文本获得对应补全,以获得订正音频文本,包括如下步骤:根据与原始音频数据的语音内容相匹配的原始音频文本的段落信息对所述标记音频文本实施段落对齐;根据所述原始音频文本的句法信息对所述标记音频文本实施句子对齐;根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记;将完成空洞标记补全的标记音频文本确定为所述的订正音频文本。4.根据权利要求3所述的语音识别校正方法,其特征在于,根据原始音频文本与标记音频文本之间的句子对齐关系,利用所述原始音频文本对应替换补全所述标记音频文本内每个句子中存在的空洞标记,包括如下步骤:获取具有对齐关系的句子在原始音频文本中的原始表达及其在标记音频文本中的过程表达;将所述原始表达与所述过程表达表示为两个序列,查找出两个序列之间包含空洞标记与字词的对应关系在内的最长公共子序列;将所述过程表达中与最长公共子序列相对应的字词全文替换为所述原始表达中与最长公共子序列相对应的字词,以实现利用原始音频文本对应替换补全标记音频文内每个句子中存在的空洞标记。5.根据权利要求4所述的语音识别校...

【专利技术属性】
技术研发人员:姜博怀
申请(专利权)人:广州华多网络科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1