一种越南语语音识别语料构建方法技术

技术编号：35297557 阅读：25 留言：0更新日期：2022-10-22 12:45

本发明专利技术提出一种越南语语音识别语料构建方法，属于人工智能技术领域。本发明专利技术利用语音预训练模型和文本预训练模型获取到的语音表征和文本表征，先通过CTC进行时序对齐，然后利用局部注意力和全局注意力相结合的混合注意力将语音和文本二次对齐，对齐好的语音和文本可直接作为越南语语音识别语料。实验结果表明，该方法有效减少越南语语音文本对齐任务中语义对齐错位的问题，提升模型在噪声数据的对齐鲁棒性，减小语音文本不同模态的差距，提高越南语语音识别语料的质量。越南语语音识别语料的质量。越南语语音识别语料的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种越南语语音识别语料构建方法

：
[0001]本专利技术涉及越南语语音识别语料构建方法，属于人工智能

技术介绍
：
[0002]越南语属于资源稀缺型语言，越南语语音识别公开数据集只有数百小时，相较于英文、中文等大语种的数万小时来说，标注数据的稀缺和稀疏性使得模型无法较好适应口音、年龄、环境噪音、语速、近远场等因素引起数据偏移。导致识别模型在越南语上的识别率不理想。而越南语有大量有声读物、影视剧等长语音文本数据可用作训练语料，但人工标注方式工作量大，代价高昂，因此，研究越南语语音文本自动对齐算法，对越南语语音数据进行自动标注对齐具有重大研究意义和价值。同时在互联网数据(语音和文本数据)常常会带有大量噪声数据(语音噪声，文本噪声)，常见例如语音与文本不匹配的情况出现漏字、吞字、错字、文本与语音不相符等问题。语音文本对齐任务需要解决的不仅仅只是按照声学边界来与文本进行时序对齐的问题，更需要在语音文本并不完全对应的情况下进行语义对齐。

技术实现思路
：
[0003]本专利技术提出了越南语语音识别语料构建方法，解决了越南语语音文本对齐任务中因文本增加或删除等噪声数据导致对齐错位的问题，该方法使用大型预训练语音和文本模型分别作为语音特征提取器和文本特征提取器，然后使用CTC
‑
混合交叉注意力对语音和文本进行对齐。给予模型理解文本和语音的能力，令模型学习到不同模态间的语义对齐信息；并在上述基础上融合越南语声调特征的越南语音素文本编码器，使模型在学习上下文语义信息的同时，更能关注到越南语语音中...

【技术保护点】

【技术特征摘要】
1.一种越南语语音识别语料构建方法，其特征在于：所述方法的包含两个过程和10个步骤如下：训练过程包括：(1)收集包含越南语对应的语音和文本作为训练语料和测试语料；(2)对数据集的文本进行预处理，将越南语文本转换成越南语音素；(3)对音频进行预处理，切除静音片段；(4)在步骤(2)的基础上构建音素粒度的词表；(5)对预训练语音编码器进行微调；(6)对预训练文本编码器重新预训练；(7)将微调好语音编码器和预训练的文本编码器的参数初始化给对齐模型的语音编码器和文本编码器；(8)使用CTC
‑
混合交叉注意力对语音特征和文本特征进行联合训练；解析过程包括：(9)将一段语音和文本送入训练好的对齐模型；(10)模型通过CTC
‑
混合交叉注意力对对齐结果进行二次语义对齐得到对齐结果。2.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(2)中对开源语音识别数据集进行了文本预处理，包括：数据清洗，数据清洗包括去除标点、数字、英文以及非法字符、统一Unicode编码、使用越南语转音素工具Viphoneme对越南语文本转换成音素。3.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(5)中，其中语音编码器使用Wav2vec2的预训练模型，该模型由7层卷积神经网络和12层transformer网络组合而成，能够缩短语音的序列长度并将语音编码成一个隐藏层维度为768的向量，该模型需要使用无监督语音预训练好，再使用有标签的越南语语音识别数据微调得到。4.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(6)中，其中文本编码器使用预训练文本编码器Bert,该模型采取比原Bert小的模型参数，其中隐藏层为4层。5.根据权利要求1所述的越南语语音识别语料构建方法，其特征在于，所述(8)中，使用混合交叉注意力对语音表征X
S
和文本表征Y
P
进行语义对齐，其中的得到的语音表征为其中表示语音编码器，得到的文本特征其中为文本编码器；根据chunk分块将交叉注意力的局部注意力中的参数全局注意力参数分别分块得到互不重叠的划分子序列A矩阵表示语音序列与文本序列之间的相似度矩阵；与文本序列之间的相似度矩阵；与文本序列之间的相似度矩阵；
H＝concatenate[Z
X
，O
g
]
ꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀꢀ
(9)如公式(1)所示局部注意力中的参数是通过语音表征Z
X
仿射变换得到，其中W
Q
，W
K
，为模型线性层参数；如公式(2)通过对按组切分补齐得到，为的相似度矩阵；如公式(3)通过relu非线性激活函数计算出局部注意力参数的相似度矩阵；如公式(4)，通过softmax函数将相似度矩阵映射到0到1之间，交叉注意力机制模型将学习一个对齐矩阵其中N为文本序列长度，T为语音序列长度，用于对齐语音序列和音素文本序列；如公式(5)...

【专利技术属性】
技术研发人员：高盛祥，曾令帆，余正涛，董凌，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人