语音模型训练数据集构建方法及装置制造方法及图纸

技术编号：30227995 阅读：17 留言：0更新日期：2021-09-29 09:55

本申请实施例提供一种语音模型训练数据集构建方法及装置，方法包括：获取多音字样本和非多音字样本后，对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理，根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征，新的多音字样本向量表征以及非多音字样本向量表征，得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置，能够增加语音模型训练数据集中多音字样本向量表征，避免多音字训练样本和非多音字训练样本分布不平衡的情况，进而提升被训练语音模型的转化准确率，提升用户使用体验。户使用体验。户使用体验。

全部详细技术资料下载

【技术实现步骤摘要】
语音模型训练数据集构建方法及装置

[0001]本申请涉及语音交互
，尤其涉及一种语音模型训练数据集构建方法及装置。

技术介绍

[0002]随着人工智能在语音交互领域的发展，智能设备可将用户输入的文本转化为音频。
[0003]目前有大量的基于深度学习的端对端文本转音频的语音模型。用给定的数据集训练这些语音模型之后，再将需要转化的文本输入训练之后的语音模型，就能够得到对应的音频。
[0004]然而，在文本转音频的过程中，核心难点在于多音字的发音问题。而由于多音字数据在日常生活中的使用比例不高，用于对语音模型进行训练的训练样本中，多音字训练样本较少，多音字训练样本和非多音字训练样本分布不平衡。因此，使用现有训练数据集训练得到的语音模型进行文本转音频操作时，容易将多音字预测为非多音字，转化准确率较低，最终造成用户使用体验较差。

技术实现思路

[0005]本申请提供了一种语音模型训练数据集构建方法及装置，用于解决使用现有训练数据集训练得到的语音模型进行文本转音频操作时，容易将多音字预测为非多音字，转化准确率较低，最终造成用户使用体验较差的问题。
[0006]第一方面，本申请实施例提供一种语音模型训练数据集构建方法，该方法包括：
[0007]获取语音模型训练样本集，其中，所述语音模型训练样本集包括多音字样本和非多音字样本，所述多音字样本为至少包含一个中文多音字的句子，所述非多音字样本为不包含中文多音字的句子，所述非多音字样本的数量多于所述多音字样本的数量；
[0008...

【技术保护点】

【技术特征摘要】
1.一种语音模型训练数据集构建方法，其特征在于，包括：获取语音模型训练样本集，其中，所述语音模型训练样本集包括多音字样本和非多音字样本，所述多音字样本为至少包含一个中文多音字的句子，所述非多音字样本为不包含中文多音字的句子，所述非多音字样本的数量多于所述多音字样本的数量；对所述多音字样本和所述非多音字样本进行向量表征，得到对应的多音字样本向量表征和非多音字样本向量表征；对所述多音字样本向量表征进行重复采样处理，以及根据重复采样的所述多音字样本向量表征构建新的所述多音字样本向量表征；将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后，得到构建的语音模型训练数据集。2.根据权利要求1所述的语音模型训练数据集构建方法，其特征在于，所述多音字样本和所述非多音字样本均为句子样本，对所述句子样本进行向量表征的具体步骤为：对所述句子样本进行词分割处理和字分割处理；将词分割处理后的所述句子样本输入词向量表征模型，得到所述句子样本中每个词的向量表征，以及对每个词的向量表征求均值，得到所述句子样本的词向量均值表征；从字向量库获取所述句子样本中每个字的向量表征，以及对每个字的向量表征求均值，得到所述句子样本的字向量均值表征；拼接所述句子样本的所述词向量均值表征和所述句子样本的所述字向量均值表征，得到句子样本向量表征，其中，所述句子样本向量表征为所述多音字样本向量表征或所述非多音样本向量表征中其中一种。3.根据权利要求1所述的语音模型训练数据集构建方法，其特征在于，在对所述多音字样本向量表征进行重复采样处理之前，所述方法还包括：对所述多音字样本向量表征和所述非多音字样本向量表征进行编号；对所述多音字样本向量表征进行重复采样处理，具体步骤为：按照所述编号，对所述多音字样本向量表征进行重复采样处理。4.根据权利要求1所述的语音模型训练数据集构建方法，其特征在于，在对所述多音字样本向量表征进行重复采样处理后，在采样结果中，所述多音字样本向量表征与所述非多音字样本向量表征的比例小于1∶2。5.根据权利要求1所述的语音模型训练数据集构建方法，其特征在于，所述方法包括：利用SMOTE算法根据重复采样的所述多音字样本向量表征构建新的样本。6.根据权利要求1所...

【专利技术属性】
技术研发人员：马明，刘宇，
申请(专利权)人：海信视像科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人