语音模型训练数据集构建方法及装置制造方法及图纸

技术编号:30227995 阅读:17 留言:0更新日期:2021-09-29 09:55
本申请实施例提供一种语音模型训练数据集构建方法及装置,方法包括:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。户使用体验。户使用体验。

【技术实现步骤摘要】
语音模型训练数据集构建方法及装置


[0001]本申请涉及语音交互
,尤其涉及一种语音模型训练数据集构建方法及装置。

技术介绍

[0002]随着人工智能在语音交互领域的发展,智能设备可将用户输入的文本转化为音频。
[0003]目前有大量的基于深度学习的端对端文本转音频的语音模型。用给定的数据集训练这些语音模型之后,再将需要转化的文本输入训练之后的语音模型,就能够得到对应的音频。
[0004]然而,在文本转音频的过程中,核心难点在于多音字的发音问题。而由于多音字数据在日常生活中的使用比例不高,用于对语音模型进行训练的训练样本中,多音字训练样本较少,多音字训练样本和非多音字训练样本分布不平衡。因此,使用现有训练数据集训练得到的语音模型进行文本转音频操作时,容易将多音字预测为非多音字,转化准确率较低,最终造成用户使用体验较差。

技术实现思路

[0005]本申请提供了一种语音模型训练数据集构建方法及装置,用于解决使用现有训练数据集训练得到的语音模型进行文本转音频操作时,容易将多音字预测为非多音字,转化准确率较低,最终造成用户使用体验较差的问题。
[0006]第一方面,本申请实施例提供一种语音模型训练数据集构建方法,该方法包括:
[0007]获取语音模型训练样本集,其中,所述语音模型训练样本集包括多音字样本和非多音字样本,所述多音字样本为至少包含一个中文多音字的句子,所述非多音字样本为不包含中文多音字的句子,所述非多音字样本的数量多于所述多音字样本的数量;
[0008]对所述多音字样本和所述非多音字样本进行向量表征,得到对应的多音字样本向量表征和非多音字样本向量表征;
[0009]对所述多音字样本向量表征进行重复采样处理,以及根据重复采样的所述多音字样本向量表征构建新的样本,得到新的所述多音字样本向量表征;
[0010]将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后,得到构建的语音模型训练数据集。
[0011]第二方面,本申请实施例提供一种语音模型训练数据集构建装置,该装置包括:
[0012]语音模型训练样本集获取单元,用于执行:获取语音模型训练样本集,其中,所述语音模型训练样本集包括多音字样本和非多音字样本,所述多音字样本为至少包含一个中文多音字的句子,所述非多音字样本为不包含中文多音字的句子,所述非多音字样本的数量多于所述多音字样本的数量;
[0013]向量表征单元,用于执行:对所述多音字样本和所述非多音字样本进行向量表征,
得到对应的多音字样本向量表征和非多音字样本向量表征;
[0014]重采样单元,用于执行:对所述多音字样本向量表征进行重复采样处理;
[0015]新数据生成单元,用于执行:根据重复采样的所述多音字样本向量表征构建新的样本,得到新的所述多音字样本向量表征;
[0016]数据合并单元,用于执行:将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后,得到构建的语音模型训练数据集。
[0017]本申请提供的技术方案包括以下有益效果:获取多音字样本和非多音字样本后,对多音字样本和非多音字样本分别向量表征,得到多音字样本向量表征和非多音字样本向量表征。进一步对多音字样本向量表征进行重复采样处理,根据重复采样的多音字样本向量表征构建新的多音字样本向量表征。最后合并多音字样本向量表征,新的多音字样本向量表征以及非多音字样本向量表征,得到构建的语音模型训练数据集。本申请提供的语音模型训练数据集构建方法及提取装置,能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。
附图说明
[0018]为了更清楚地说明本申请的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,对于本领域普通技术人员而言,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0019]图1示出了本申请实施例提供的一种语音模型训练数据集构建方法流程示意图;
[0020]图2示出了本申请实施例提供的句子表征方法流程示意图;
[0021]图3示出了本申请实施例提供的少数类样本K近邻获取方法示意图;
[0022]图4示出了本申请实施例提供的新样本构建方法示意图;
[0023]图5示出了本申请实施例提供的一种语音模型训练数据集构建装置示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整的描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]本说明书通篇提及的

多个实施例



一些实施例



一个实施例



实施例

等,意味着结合该实施例描述的具体特征、结构或特性包括在至少一个实施例中。因此,本说明书通篇出现的短语

在多个实施例中



在一些实施例中



在至少另一个实施例中



在实施例中

等并不一定都指相同的实施例。此外,在一个或多个实施例中,具体特征、结构或特性可以任何合适的方式进行组合。因此,在无限制的情形下,结合一个实施例示出或描述的具体特征、结构或特性可全部或部分地与一个或多个其他实施例的特征、结构或特性进行组合。这种修改和变型旨在包括在本申请的范围之内。
[0026]随着人工智能在语音交互领域的发展,智能设备可将用户输入的文本转化为音频。目前有大量的基于深度学习的端对端文本转音频的语音模型。用给定的数据集训练这
些语音模型之后,再将需要转化的文本输入训练之后的语音模型,就能够得到对应的音频。
[0027]然而,在文本转音频的过程中,核心难点在于多音字的发音问题。而由于多音字数据在日常生活中的使用比例不高,用于对语音模型进行训练的训练样本中,多音字训练样本较少,多音字训练样本和非多音字训练样本分布不平衡。因此,使用现有训练数据集训练得到的语音模型进行文本转音频操作时,容易将多音字预测为非多音字,转化准确率较低,最终造成用户使用体验较差。
[0028]为了解决上述问题,本申请提供一种语音模型训练数据集构建方法,该方法能够增加语音模型训练数据集中多音字样本向量表征,避免多音字训练样本和非多音字训练样本分布不平衡的情况,进而提升被训练语音模型的转化准确率,提升用户使用体验。
[0029]如图1的语音模型训练数据集构建方法本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音模型训练数据集构建方法,其特征在于,包括:获取语音模型训练样本集,其中,所述语音模型训练样本集包括多音字样本和非多音字样本,所述多音字样本为至少包含一个中文多音字的句子,所述非多音字样本为不包含中文多音字的句子,所述非多音字样本的数量多于所述多音字样本的数量;对所述多音字样本和所述非多音字样本进行向量表征,得到对应的多音字样本向量表征和非多音字样本向量表征;对所述多音字样本向量表征进行重复采样处理,以及根据重复采样的所述多音字样本向量表征构建新的所述多音字样本向量表征;将所述多音字样本向量表征、所述非多音字样本向量表征以及新的所述多音字样本向量表征合并后,得到构建的语音模型训练数据集。2.根据权利要求1所述的语音模型训练数据集构建方法,其特征在于,所述多音字样本和所述非多音字样本均为句子样本,对所述句子样本进行向量表征的具体步骤为:对所述句子样本进行词分割处理和字分割处理;将词分割处理后的所述句子样本输入词向量表征模型,得到所述句子样本中每个词的向量表征,以及对每个词的向量表征求均值,得到所述句子样本的词向量均值表征;从字向量库获取所述句子样本中每个字的向量表征,以及对每个字的向量表征求均值,得到所述句子样本的字向量均值表征;拼接所述句子样本的所述词向量均值表征和所述句子样本的所述字向量均值表征,得到句子样本向量表征,其中,所述句子样本向量表征为所述多音字样本向量表征或所述非多音样本向量表征中其中一种。3.根据权利要求1所述的语音模型训练数据集构建方法,其特征在于,在对所述多音字样本向量表征进行重复采样处理之前,所述方法还包括:对所述多音字样本向量表征和所述非多音字样本向量表征进行编号;对所述多音字样本向量表征进行重复采样处理,具体步骤为:按照所述编号,对所述多音字样本向量表征进行重复采样处理。4.根据权利要求1所述的语音模型训练数据集构建方法,其特征在于,在对所述多音字样本向量表征进行重复采样处理后,在采样结果中,所述多音字样本向量表征与所述非多音字样本向量表征的比例小于1∶2。5.根据权利要求1所述的语音模型训练数据集构建方法,其特征在于,所述方法包括:利用SMOTE算法根据重复采样的所述多音字样本向量表征构建新的样本。6.根据权利要求1所...

【专利技术属性】
技术研发人员:马明刘宇
申请(专利权)人:海信视像科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1