一种越南语语音识别语料构建方法技术

技术编号:35297557 阅读:14 留言:0更新日期:2022-10-22 12:45
本发明专利技术提出一种越南语语音识别语料构建方法,属于人工智能技术领域。本发明专利技术利用语音预训练模型和文本预训练模型获取到的语音表征和文本表征,先通过CTC进行时序对齐,然后利用局部注意力和全局注意力相结合的混合注意力将语音和文本二次对齐,对齐好的语音和文本可直接作为越南语语音识别语料。实验结果表明,该方法有效减少越南语语音文本对齐任务中语义对齐错位的问题,提升模型在噪声数据的对齐鲁棒性,减小语音文本不同模态的差距,提高越南语语音识别语料的质量。越南语语音识别语料的质量。越南语语音识别语料的质量。

【技术实现步骤摘要】
一种越南语语音识别语料构建方法


[0001]本专利技术涉及越南语语音识别语料构建方法,属于人工智能


技术介绍

[0002]越南语属于资源稀缺型语言,越南语语音识别公开数据集只有数百小时,相较于英文、中文等大语种的数万小时来说,标注数据的稀缺和稀疏性使得模型无法较好适应口音、年龄、环境噪音、语速、近远场等因素引起数据偏移。导致识别模型在越南语上的识别率不理想。而越南语有大量有声读物、影视剧等长语音文本数据可用作训练语料,但人工标注方式工作量大,代价高昂,因此,研究越南语语音文本自动对齐算法,对越南语语音数据进行自动标注对齐具有重大研究意义和价值。同时在互联网数据(语音和文本数据)常常会带有大量噪声数据(语音噪声,文本噪声),常见例如语音与文本不匹配的情况出现漏字、吞字、错字、文本与语音不相符等问题。语音文本对齐任务需要解决的不仅仅只是按照声学边界来与文本进行时序对齐的问题,更需要在语音文本并不完全对应的情况下进行语义对齐。

技术实现思路

[0003]本专利技术提出了越南语语音识别语料构建方法,解决了越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题,该方法使用大型预训练语音和文本模型分别作为语音特征提取器和文本特征提取器,然后使用CTC

混合交叉注意力对语音和文本进行对齐。给予模型理解文本和语音的能力,令模型学习到不同模态间的语义对齐信息;并在上述基础上融合越南语声调特征的越南语音素文本编码器,使模型在学习上下文语义信息的同时,更能关注到越南语语音中声调的变化的特征。
[0004]本专利技术的技术方案是:一种越南语语音识别语料构建方法,所述方法的包含训练过程和解析过程,具体步骤如下:
[0005]训练过程包括:
[0006](1)收集语音长度20秒以内的包含越南语对应的语音和文本作为训练语料和测试语料;
[0007](2)对开源语音识别数据集进行了文本预处理,包括:数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。
[0008](3)对音频进行预处理,切除静音片段;
[0009](4)在步骤(2)的基础上构建音素粒度的词表;
[0010](5)对预训练语音编码器进行微调,其中语音编码器使用Wav2vec2的预训练模型,该模型由7层卷积神经网络和12层transformer网络组合而成,能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量。该模型需要使用无监督语音预训练好,再使用有标签的越南语语音识别数据微调得到。
[0011](6)对预训练文本编码器重新预训练,其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert更小的模型参数,其中隐藏层为4层。
[0012](7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器。
[0013](8)使用CTC

混合交叉注意力对语音特征和文本特征进行联合训练;使用混合交叉注意力对语音表征X
S
和文本表征Y
P
进行语义对齐,其中的得到的语音表征为其中表示语音编码器,得到的文本特征其中为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数全局注意力参数分别分块得到互不重叠的划分子序列例如其中的G为分组的数量,T为序列长度,C为子序列的长度,同理。A矩阵表示语音序列与文本序列之间的相似度矩阵;
[0014][0015][0016][0017][0018][0019][0020][0021][0022]H=concatenate[Z
X
,O
g
]ꢀꢀꢀ
(9)
[0023]如公式(1)所示局部注意力中的参数是通过语音表征Z
X
仿射变换得到,其中W
Q
,W
K
,为模型线性层参数;如公式(2)通过对按组切分补齐得到,为的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5),通过注意加权得到如公式(6)、公式(7),全局注意力同理;如公式(7),将局部特征与全局特征相加再通过仿射变化得到O
g
;如公式(9),将语音表征Z
X
和公式(8)所得特征进行拼接得到H其中H用于CTC损失函数训练;局部查询向量;
[0024]局部被查询信息与其他信息的相关性向量;
[0025]由局部查询向量与局部被查询信息与其他信息的相关性向量计算得到的局部注意力相似度矩阵;b是偏置矩阵;
[0026]局部信息矩阵;
[0027]由局部注意力相似度矩阵与局部信息矩阵运算得到的加权局部信息矩阵;
[0028]全局查询向量;
[0029]全局被查询信息与其他信息的相关性向量;
[0030]全局信息矩阵;
[0031]加权全局信息矩阵;
[0032]W
o
:神经网络模型中的可学习的参数矩阵。
[0033]U
g
:神经网络中的门控参数矩阵。
[0034]解析过程包括:
[0035](9)将一段语音和文本送入训练好的对齐模型;
[0036](10)模型通过CTC

混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。对于首次CTC对齐置信度小于阈值的结果需要使用混合交叉注意力进行二次语义对齐;越南语语音文本对齐模型中有两个解码器输出,分别是wav2vec经过线性层输出的越南语语音语越南语音素词表的概率矩阵其中C为词表的大小;混合交叉注意力得到的越南语语音语越南语音素文本相似度矩阵由概率矩阵F得到其中每一帧对应的字符概率k
j,t
=p(c
j
|t,F)=F
c,t
,c∈[1,N],t∈[1,T],这样利用动态规划算法得到对齐最大联合概率如公式(10)所示;
[0037][0038]其中p(blank|t)为当前时刻t为空白字符的概率,将第一个字符的转移概率设为零,然后计算当下一个字符为空白符或者为下一个字符时的最大转移概率,令当前最后一个字符概率为t=argmax
t

(k

t
,N

1),然后通过回溯转移概率矩阵k
j,t
找到字符与帧对应的一条概率最大的路径,得到对齐关系S
t
,如公式(11)所示;
[0039][0040]通过最小化平均概率能惩罚由于错误的匹配产生的概率得到对齐关系S
att
=[x1=本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种越南语语音识别语料构建方法,其特征在于:所述方法的包含两个过程和10个步骤如下:训练过程包括:(1)收集包含越南语对应的语音和文本作为训练语料和测试语料;(2)对数据集的文本进行预处理,将越南语文本转换成越南语音素;(3)对音频进行预处理,切除静音片段;(4)在步骤(2)的基础上构建音素粒度的词表;(5)对预训练语音编码器进行微调;(6)对预训练文本编码器重新预训练;(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器;(8)使用CTC

混合交叉注意力对语音特征和文本特征进行联合训练;解析过程包括:(9)将一段语音和文本送入训练好的对齐模型;(10)模型通过CTC

混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。2.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(2)中对开源语音识别数据集进行了文本预处理,包括:数据清洗,数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。3.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(5)中,其中语音编码器使用Wav2vec2的预训练模型,该模型由7层卷积神经网络和12层transformer网络组合而成,能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量,该模型需要使用无监督语音预训练好,再使用有标签的越南语语音识别数据微调得到。4.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(6)中,其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert小的模型参数,其中隐藏层为4层。5.根据权利要求1所述的越南语语音识别语料构建方法,其特征在于,所述(8)中,使用混合交叉注意力对语音表征X
S
和文本表征Y
P
进行语义对齐,其中的得到的语音表征为其中表示语音编码器,得到的文本特征其中为文本编码器;根据chunk分块将交叉注意力的局部注意力中的参数全局注意力参数分别分块得到互不重叠的划分子序列A矩阵表示语音序列与文本序列之间的相似度矩阵;与文本序列之间的相似度矩阵;与文本序列之间的相似度矩阵;
H=concatenate[Z
X
,O
g
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)如公式(1)所示局部注意力中的参数是通过语音表征Z
X
仿射变换得到,其中W
Q
,W
K
,为模型线性层参数;如公式(2)通过对按组切分补齐得到,为的相似度矩阵;如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵;如公式(4),通过softmax函数将相似度矩阵映射到0到1之间,交叉注意力机制模型将学习一个对齐矩阵其中N为文本序列长度,T为语音序列长度,用于对齐语音序列和音素文本序列;如公式(5)...

【专利技术属性】
技术研发人员:高盛祥曾令帆余正涛董凌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1