一种文本处理方法、装置及设备制造方法及图纸

技术编号:35018567 阅读:15 留言:0更新日期:2022-09-24 22:45
本申请公开了一种文本处理方法、装置及设备。所述文本处理方法,包括:获取待处理的第一文本信息;基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。采用所述方法,解决了将输入文本转换为用于生成音素序列的可读正则化文本的准确度较低的问题。正则化文本的准确度较低的问题。正则化文本的准确度较低的问题。

【技术实现步骤摘要】
一种文本处理方法、装置及设备


[0001]本申请涉及数据处理
,具体涉及一种文本处理方法、装置及设备。

技术介绍

[0002]随着计算机技术的发展,语音合成(Text To Speech,TTS)技术的应用越来越广泛。所谓TTS,是将输入文本合成为能够播放的人类语音的一种技术,其能够赋予机器说话的能力,在有声书阅读、客服、家居娱乐和人机交互等方面得以广泛应用。输入文本信息中往往包含存在歧义、难以直接正确发音的非标准字符,因此在合成语音之前需要将输入文本信息处理为正则化文本信息,正则化文本信息为可读的规范化文本信息,基于该文本信息生成音素序列,以用于合成语音。准确的音素序列能合成自然而准确的语音,因此,将输入文本处理为用于生成音素序列的正则化文本信息,尤其重要。
[0003]现有技术中,一般采用基于规则或基于神经网络模型或将二者结合的方式对输入文本进行规范化处理。基于规则的处理方式中,需要预先总结规则,存在通用性差的缺陷,在复杂语境中准确率存在瓶颈。并且规则准备工作复杂耗时,规则维护困难。基于神经网络模型的处理方式中,需要建模为序列到序列的转换任务,预测得到的转换结果存在一定的不可控性,难以在短时间内快速学习修复。现有的二者结合的处理方式,其思路是利用神经网络模型确定输入文本中非标准字符的类别,再根据类别基于规则进行规范化处理。但是,类别设计比较困难,类别太多会出现数据不足不平衡的问题,类别太少使得覆盖不够全面,难以保证准确率。并且,当需要增添类别和训练数据时,可能需要重新设计类别和标注数据,维护困难。<br/>[0004]因此,如何提高将输入文本转换为用于生成音素序列的正则化文本的准确度,以便自然而准确的合成语音,是需要解决的问题。

技术实现思路

[0005]本申请实施例提供的文本处理方法,解决了将输入文本转换为用于生成音素序列的可读正则化文本的准确度较低的问题。
[0006]本申请实施例提供一种文本处理方法,包括:获取待处理的第一文本信息;基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
[0007]可选的,所述方法还包括:基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,其中,所述第二语义字符序列中不包含非标准词;根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本;获取针对所述目标文本的评分;当针对所述目标文本的评分大于或等于预设阈值时,将所述目标文本作为用于生成与
所述第一文本信息对应的音素序列的第二文本信息。
[0008]可选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前,还包括:确定针对所述目标文本的评分小于所述预设阈值。
[0009]可选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:将所述非标准词拆分为一个或多个子序列,其中,所述子序列中至少存在一个包含非标准词的目标子序列;将所述目标子序列转化为至少一个语义字符子序列,其中,所述语义字符子序列中不包含非标准词;,将所述语义字符子序列进行组合,根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。
[0010]可选的,所述将所述非标准词拆分为一个或多个子序列之前,还包括:确定拆分方式;所述将所述非标准词拆分为一个或多个子序列,包括:根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。
[0011]可选的于,所述根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列。
[0012]可选的,所述根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:对每种拆分方式对应的组合结果的集合进行筛选后,获得所述非标准词对应的至少一个备选的第一语义字符序列。
[0013]可选的,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:确定所述非标准词所属的类别,通过所述类别对应的转化函数将所述非标准词转化为至少一个备选的第一语义字符序列。
[0014]可选的,所述根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本,包括:通过语言模型对各个备选文本分别进行评分,得到包含所述各个备选文本的评分的评分结果,所述评分用于表征对应的备选文本的语义的通顺程度;将所述评分结果中的最高的评分对应的备选文本确定为目标备选文本。
[0015]可选的,所述方法还包括:获取训练样本,所述训练样本为文本样本;基于所述训练样本对基础模型进行训练,获得所述语言模型。
[0016]可选的,所述训练样本包含携带第一标识的正样本、携带第二标识的负样本。
[0017]本申请实施例还提供一种文本处理装置,包括:待处理文本获取单元,用于获取待处理的第一文本信息;非标准词转换单元,用于基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;备选文本生成单元,用于根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;评分单元,用于根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。
[0018]本申请实施例还提供一种电子设备,包括:存储器,以及处理器;所述存储器用于存储计算机程序,所述计算机程序被所述处理器运行后,执行本申请实施例提供的所述方法。
[0019]与现有技术相比,本申请具有以下优点:
[0020]本申请实施例提供的一种文本处理方法、装置及电子设备,通过基于预设的备选规则将第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。基于预设的备选规则生成备选结果集,避免了不可控错误的问题。通过根据各备选文本的语义对各备选文本进行评分来选择最终结果,能够根据语义信息来处理复杂语句,提高文本处理准确率。进一步,通过语言模型进行语义评分,能够有效利用语言模型的语义编码能力,根据全局语义信息本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:获取待处理的第一文本信息;基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,其中,所述第一语义字符序列中不包含非标准词;根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集;根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分,根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。2.根据权利要求1所述的方法,其特征在于,所述方法还包括:基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列,其中,所述第二语义字符序列中不包含非标准词;根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本;获取针对所述目标文本的评分;当针对所述目标文本的评分大于或等于预设阈值时,将所述目标文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。3.根据权利要求2所述的方法,其特征在于,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前,还包括:确定针对所述目标文本的评分小于所述预设阈值。4.根据权利要求1所述的方法,其特征在于,所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列,包括:将所述非标准词拆分为一个或多个子序列,其中,所述子序列中至少存在一个包含非标准词的目标子序列;将所述目标子序列转化为至少一个语义字符子序列,其中,所述语义字符子序列中不包含非标准词;将所述语义字符子序列进行组合,根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。5.根据权利要求4所述的方法,其特征在于,所述将所述非标准词拆分为一个或多个子序列之前,还包括:确定拆分方式;所述将所述非标准词拆分为一个或多个子序列,包括:根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。6.根据权利要求5所述的方法,其特征在于,所述根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列,包括:根据每种拆分方式对应的组合结果的集合,获得所述非标准词对应的至少一个备选的第一语义字符序列...

【专利技术属性】
技术研发人员:张晴朱鹏程毕梦霄吕唐杰
申请(专利权)人:网易杭州网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1