一种文本处理方法、装置及设备制造方法及图纸

技术编号：35018567 阅读：15 留言：0更新日期：2022-09-24 22:45

本申请公开了一种文本处理方法、装置及设备。所述文本处理方法，包括：获取待处理的第一文本信息；基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列，其中，所述第一语义字符序列中不包含非标准词；根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集；根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分，根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。采用所述方法，解决了将输入文本转换为用于生成音素序列的可读正则化文本的准确度较低的问题。正则化文本的准确度较低的问题。正则化文本的准确度较低的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本处理方法、装置及设备

[0001]本申请涉及数据处理
，具体涉及一种文本处理方法、装置及设备。

技术介绍

[0002]随着计算机技术的发展，语音合成(Text To Speech，TTS)技术的应用越来越广泛。所谓TTS，是将输入文本合成为能够播放的人类语音的一种技术，其能够赋予机器说话的能力，在有声书阅读、客服、家居娱乐和人机交互等方面得以广泛应用。输入文本信息中往往包含存在歧义、难以直接正确发音的非标准字符，因此在合成语音之前需要将输入文本信息处理为正则化文本信息，正则化文本信息为可读的规范化文本信息，基于该文本信息生成音素序列，以用于合成语音。准确的音素序列能合成自然而准确的语音，因此，将输入文本处理为用于生成音素序列的正则化文本信息，尤其重要。
[0003]现有技术中，一般采用基于规则或基于神经网络模型或将二者结合的方式对输入文本进行规范化处理。基于规则的处理方式中，需要预先总结规则，存在通用性差的缺陷，在复杂语境中准确率存在瓶颈。并且规则准备工作复杂耗时，规则维护困难。基于神经网络模型的处理方式中，需要建模为序列到序列的转换任务，预测得到的转换结果存在一定的不可控性，难以在短时间内快速学习修复。现有的二者结合的处理方式，其思路是利用神经网络模型确定输入文本中非标准字符的类别，再根据类别基于规则进行规范化处理。但是，类别设计比较困难，类别太多会出现数据不足不平衡的问题，类别太少使得覆盖不够全面，难以保证准确率。并且，当需要增添类别和训练数据时，可能需要重新设计类别和标注数据，维护困难。<...

【技术保护点】

【技术特征摘要】
1.一种文本处理方法，其特征在于，包括：获取待处理的第一文本信息；基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列，其中，所述第一语义字符序列中不包含非标准词；根据所述至少一个备选的第一语义字符序列生成与所述第一文本信息对应的备选文本集；根据所述备选文本集中的各个备选文本的语义对所述各个备选文本进行评分，根据评分结果从所述各个备选文本中选择目标备选文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。2.根据权利要求1所述的方法，其特征在于，所述方法还包括：基于预设的标准规则将所述第一文本信息中的非标准词转换为第二语义字符序列，其中，所述第二语义字符序列中不包含非标准词；根据所述第二语义字符序列生成与所述第一文本信息对应的目标文本；获取针对所述目标文本的评分；当针对所述目标文本的评分大于或等于预设阈值时，将所述目标文本作为用于生成与所述第一文本信息对应的音素序列的第二文本信息。3.根据权利要求2所述的方法，其特征在于，所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列之前，还包括：确定针对所述目标文本的评分小于所述预设阈值。4.根据权利要求1所述的方法，其特征在于，所述基于预设的备选规则将所述第一文本信息中的非标准词转换为至少一个备选的第一语义字符序列，包括：将所述非标准词拆分为一个或多个子序列，其中，所述子序列中至少存在一个包含非标准词的目标子序列；将所述目标子序列转化为至少一个语义字符子序列，其中，所述语义字符子序列中不包含非标准词；将所述语义字符子序列进行组合，根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列。5.根据权利要求4所述的方法，其特征在于，所述将所述非标准词拆分为一个或多个子序列之前，还包括：确定拆分方式；所述将所述非标准词拆分为一个或多个子序列，包括：根据确定的拆分方式将所述非标准词拆分为一个或多个子序列。6.根据权利要求5所述的方法，其特征在于，所述根据组合结果获得所述非标准词对应的至少一个备选的第一语义字符序列，包括：根据每种拆分方式对应的组合结果的集合，获得所述非标准词对应的至少一个备选的第一语义字符序列...

【专利技术属性】
技术研发人员：张晴，朱鹏程，毕梦霄，吕唐杰，
申请(专利权)人：网易杭州网络有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人