本发明专利技术公开了一种文本正则化方法、装置、设备以及存储介质,所述方法包括:对待处理文本进行预处理,得到目标文本;在目标文本中存在非标准词且非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对非标准词进行识别,得到非标准词所属的目标字符类型;根据目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用目标转换规则对非标准词进行替换,得到正则化的目标文本。本发明专利技术在将目标文本转换成正则化的目标文本的过程中,采用神经网络识别模型对非标准词进行识别,实现了对有歧义类型非标准词的识别,提高了对歧义文本的识别率,进而提高了文本正则化的准确性。的准确性。的准确性。
【技术实现步骤摘要】
一种文本正则化方法、装置、设备以及存储介质
[0001]本专利技术涉及语音合成
,尤其涉及一种文本正则化方法、装置、设备以及存储介质。
技术介绍
[0002]随着社会信息化和智能化进程的推进,基于语音合成技术的智能语音交互已经成为汽车应用中不可或缺的功能。文本正则化作为实现智能语音交互的基础任务之一,其准确性会直接影响智能语音交互的效果。
[0003]传统文本正则化方法中的文本识别单元,识别歧义文本的能力差,进而导致文本正则化的准确性低。
技术实现思路
[0004]本专利技术提供了一种文本正则化方法、装置、设备以及存储介质,以提高对歧义文本的识别率,提高文本正则化的准确性。
[0005]根据本专利技术的一方面,提供了一种文本正则化方法,包括:
[0006]对待处理文本进行预处理,得到目标文本;
[0007]在目标文本中存在非标准词且非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对非标准词进行识别,得到非标准词所属的目标字符类型;
[0008]根据目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用目标转换规则对非标准词进行替换,得到正则化的目标文本。
[0009]根据本专利技术的另一方面,提供了一种文本正则化装置,包括:
[0010]目标文本确定模块,用于对待处理文本进行预处理,得到目标文本;
[0011]字符类型确定模块,用于在目标文本中存在非标准词且非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对非标准词进行识别,得到非标准词所属的目标字符类型;
[0012]正则化处理模块,用于根据目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用目标转换规则对非标准词进行替换,得到正则化的目标文本。
[0013]根据本专利技术的另一方面,提供了一种电子设备,所述电子设备包括:
[0014]至少一个处理器;以及
[0015]与至少一个处理器通信连接的存储器;其中,
[0016]存储器存储有可被至少一个处理器执行的计算机程序,计算机程序被至少一个处理器执行,以使至少一个处理器能够执行本专利技术任一实施例的文本正则化方法。
[0017]根据本专利技术的另一方面,提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机指令,计算机指令用于使处理器执行时实现本专利技术任一实施例的文本正则化方法。
[0018]本专利技术实施例的技术方案,通过对待处理文本进行预处理,得到目标文本;在目标
文本中存在非标准词且非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对非标准词进行识别,得到非标准词所属的目标字符类型;根据目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用目标转换规则对非标准词进行替换,得到正则化的目标文本。上述技术方案,在将目标文本转换成正则化的目标文本的过程中,采用神经网络识别模型对非标准词进行识别,实现了对有歧义类型非标准词的识别,提高了对歧义文本的识别率,进而提高了文本正则化的准确性。
[0019]应当理解,本部分所描述的内容并非旨在标识本专利技术的实施例的关键或重要特征,也不用于限制本专利技术的范围。本专利技术的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0020]为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0021]图1是根据本专利技术实施例一提供的一种文本正则化方法的流程图;
[0022]图2是根据本专利技术实施例二提供的一种文本正则化方法的流程图;
[0023]图3是根据本专利技术实施例三提供的一种文本正则化方法的流程图;
[0024]图4是根据本专利技术实施例四提供的一种文本正则化装置的结构示意图;
[0025]图5是实现本专利技术实施例的文本正则化方法的电子设备的结构示意图。
具体实施方式
[0026]为了使本
的人员更好地理解本专利技术方案,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分的实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本专利技术保护的范围。
[0027]需要说明的是,本专利技术的说明书和权利要求书及上述附图中的术语“目标”和“待处理”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本专利技术的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0028]此外,还需要说明的是,本专利技术的技术方案中,所涉及的待处理文本以及样本文本等的收集、存储、使用、加工、传输、提供和公开等处理,均符合相关法律法规的规定,且不违背公序良俗。
[0029]实施例一
[0030]图1为本专利技术实施例一提供的一种文本正则化方法的流程图,本实施例可适用于智能语音交互过程中对文本进行正则化处理的情况,尤其适用于智能语音交互过程中对中
英文混合的文本进行正则化处理的情况,该方法可以由文本正则化装置来执行,该装置可以采用硬件和/或软件的形式实现,可配置于电子设备中,该电子设备可以是车载终端。如图1所示,该方法包括:
[0031]S101、对待处理文本进行预处理,得到目标文本。
[0032]其中,待处理文本可以是指待进行语音合成的文本。目标文本可以是指经预处理后得到的文本。预处理的任务包括但不限于中文简体与中文繁体之间的转换、半角与全角之间的转换、非限定词的识别与过滤、语气词的消除、英文字符的大小写转换以及特殊标志符的增加。需要说明的是,英文字符的大小写转换取决于实际业务场景的需要,可以将英文字符中的大写字符全部转换为小写字符,也可以将英文字符中的小写字符全部转换为大写字符。其中,限定词可以是指能够进行文本正则化处理的文本字符,限定词可以包括如下中文字符、标点符号、数字以及英文字符:
[0033]中文字符:{u3007,CJK扩展:[3400
‑
4DBF],CJK基本:[4E00
‑
9FFF],CJK兼容:[F900
‑
FAFF],CJK扩展B:[20000
‑
2A6DF],CJK扩展C:[2A700
‑
2B73F],CJK扩展D:[2B740
‑
2B81D],CJK兼容扩展:[2F800
本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种文本正则化方法,其特征在于,包括:对待处理文本进行预处理,得到目标文本;在所述目标文本中存在非标准词且所述非标准词属于有歧义类型非标准词的情况下,采用神经网络识别模型对所述非标准词进行识别,得到所述非标准词所属的目标字符类型;根据所述目标字符类型从非标准词的候选转换规则中选择目标转换规则,并采用所述目标转换规则对所述非标准词进行替换,得到正则化的目标文本。2.根据权利要求1所述的方法,其特征在于,所述采用神经网络识别模型对所述非标准词进行识别,得到所述非标准词所属的目标字符类型,包括:对所述非标准词进行特征提取,得到所述非标准词对应的目标特征向量;将所述目标特征向量输入训练后的神经网络识别模型,得到所述非标准词所属的目标字符类型。3.根据权利要求2所述的方法,其特征在于,所述对所述非标准词进行特征提取,得到所述非标准词对应的目标特征向量,包括:对所述非标准词进行文本特征提取,得到文本向量;对所述非标准词的位置信息进行特征提取,得到位置向量;对所述非标准词的句子信息进行特征提取,得到句子向量;根据所述文本向量、所述位置向量以及所述句子向量,确定所述非标准词对应的目标特征向量。4.根据权利要求2所述的方法,其特征在于,所述神经网络识别模型通过如下方式训练得到:通过神经网络识别模型中的嵌入编码器,对样本文本进行特征提取,得到所述样本文本对应的样本特征向量;通过神经网络识别模型中的正则化单元对所述样本特征向量进行正则化处理,得到所述样本文本对应的预测文本;根据所述预测文本和所述样本文本所标注的标签文本对所述嵌入编码器和所述正则化单元进行训练,得到训练后的神经网络识别模型。5.根据权利要求4所述的方法,其特征在于,所述通过神经网络识别模型中的正则化单元对所述样本特征向量进行正则化处理,得到所述样本文本对应的预测文本,包括:通过正则化单元中的线性映射层和丢弃层,对所述样本特征向量进行维度转换,得到经转换后的样本特征向量;通过正则化单元中的T...
【专利技术属性】
技术研发人员:梁小明,何金鑫,张毅,孙宇嘉,王紫烟,付振,王明月,
申请(专利权)人:一汽南京科技开发有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。