基于编辑对齐算法的非自回归解码越南语文本正则化方法技术

技术编号:38553581 阅读:8 留言:0更新日期:2023-08-22 20:58
本发明专利技术提供基于编辑对齐算法的非自回归解码越南语文本正则化方法,越南语文本正则化面临着语言表达方式多样化及非标准词存在语义歧义问题,本发明专利技术构建越南语文本正则化标注语料,并对标注语料进行字符粒度对齐扩充;在第一阶段使用标注语料对指示器进行预训练,使用编辑对齐算法训练指示器中原始序列到目标序列的编辑对齐向量,同时提升模型编码端上下文语义信息建模能力;在第二阶段使用非自回归架构对预训练模型进行微调,通过修改位置向量提取非标准词的调整序列,缩小解码端搜索空间,避免基于序列生成模型本身局限性所产生的非正则化文本预测错误问题。实验证明本发明专利技术方法达到了97%的准确率,有效解决越南语文本正则化中的语义消歧问题。则化中的语义消歧问题。则化中的语义消歧问题。

【技术实现步骤摘要】
基于编辑对齐算法的非自回归解码越南语文本正则化方法


[0001]本专利技术涉及基于编辑对齐算法的非自回归解码越南语文本正则化方法,属于自然语言处理


技术介绍

[0002]目前,在先前的语音合成(Text

to

Speech,TTS)文本正则化工作中,主要采用的是基于规则的硬编码方式。MITalk中的编码方法是最早的TTS文本正则化模块之一。Bell实验室的多语种TTS系统引入了加权有限状态转换器来进行文本正则化。此外,机器学习模型与手写语法相结合,被提议用于特定的NSW类别。Roark等人报告了使用最大熵来分类字母序列,Sproat等人则提出了一种基于识别出的缩写扩展来进行文本正则化的方法。
[0003]受到神经网络在各种自然语言处理任务中的最新成功启发,许多神经网络模型被提议来解决TTS文本正则化的问题。Sproat等人提出了基于RNN的架构用于文本正则化,以及一个开源的语料库,包括相应的书写和口语句子对。随后的研究专注于卷积神经网络模型。另一种方法是将TTS文本正则化视为机器翻译问题。Tyagi等人提出了一个混合系统,包括一个标记模型和标记化机制,使系统能够自动学习大多数类别,并与预编码的语言知识类别结合起来进行NSW扩展。Lai等人提出了一个统一的框架,用于构建一个单一的双向系统,可以处理TTS文本正则化和反向TTS文本正则化。
[0004]在越南语TTS文本正则化任务中,Trang等人首先开发了一个包括21种类型的越南非标准词分类法,并提出了一个决策树分类器和字母语言模型用于非标准词分类以及一个混合规范器用于非标准词扩展。Trang等人提出了一种方法,使用随机森林分类器来识别非标准词,并结合序列到序列模型和基于规则的缩写和借词扩展进行混合。2012年,一种基于规则的方法在中使用正则表达式和决策列表对非标准词进行分类和扩展。
[0005]Hochreiter等人提出了长短期记忆网络优化了RNN网络在序列标注任务中存在的问题,在序列标注任务中具有较大优势。2019年,Park等人使用Bert预训练语言模型完成中文多音字预测的序列标注任务,并在该任务上取得了较好的效果。
[0006]最近,Dang等人结合Bert,BiLSTM和CNN提出了一种具有19个非标准词分类的神经网络模型,虽然模型在序列分类任务上表现出了很好的效果,但后续仍需要针对越南语单一语料构建基于规则的匹配算法进行转换,规则的构建往往是复杂和庞大的,后续的更新和维护更需要大量的时间,且难以移植和适用于其他语言。近期,Ro等人提出了一种基于Transformer的文本正则化框架,包括预处理、编码器、解码器和后处理步骤。该方法相对于基础方法和其他现有方法具有更好的性能,同时还可以进行端到端的训练,无需额外的特征工程。因此,本专利技术希望建立更加具有通用性和可扩展性的文本正则化方法,结合目前的相关工作,总结了越南语文本正则化的难点主要包括以下几点,一是越南语中非标准词和符号存在歧义的问题,如表1所示,不同符号需要根据上下文关系才能准确转化为可读词;二是端到端的神经网络模型容易将不需要正则化的词转化成错误的词。针对这两个问题,本专利技术提出了基于编辑对齐算法的非自回归解码文本正则化方法。
[0007]表1为越南语文本正则化部分难点
[0008]
技术实现思路

[0009]本专利技术提供了一种基于编辑对齐算法的非自回归解码越南语文本正则化方法,以用于解决越南语中非标准词和符号存在歧义的问题。
[0010]本专利技术的技术方案是:所述方法的具体步骤为:
[0011]Step1、预处理:从越南语的各类新闻和媒体网站爬取了文本语料,对文本语料进行修正处理,利用标注方式来扩展越南语数据集;
[0012]所述Step1的具体步骤如下:
[0013]Step1.1、本专利技术从越南语的各类主要新闻和媒体网站爬取了大量文本语料,在预处理模块中,对于爬取得到的越南语原始文本,删除多余的空格字符、ASCII编码、表情符号,HTML实体以及不可读的单词;
[0014]Step1.2、并对大段落的语料进行了切分操作,具体的使用基于正则表达式的标记器来根据标点符号将大长度的句子分割成字符长度在20

150之间的句子,然后将所得到的所有文本语料进行修正工作,使得文本语料更加的规范和合理;
[0015]Step1.3、最后,将处理过的文本嵌入到向量空间中作为未标注的数据集,结合越南语的文本正则化特点对已得到的数据集进行标注工作。
[0016]Tyagi等人(2020)提出了稀缺资源下的文本正则化任务,主要解决的问题是在有限(小规模)数据情况下的文本正则化任务应如何处理,提出方法Proteno将文本正则化任务当作序列标注任务,将字符序列单独标注分类,并在不到3万的训练数据上获取了较高准确率。
[0017]本专利技术结合了Tyagi等人的在低资源条件完成英语文本正则化的思想,采用在低资源条件下对数据进行标注扩充的方式完成越南语文本正则化任务。
[0018]越南语的语言结构是以词为单位的,每个词又由多个字符组成;同时,越南语中存在“形容词后置”的特殊语言现象,本专利技术结合了越南语的文本正则化特点提出了一种新的标注方式;
[0019]对原始文本即需要正则化的文本序列和目标文本即正则化后的文本序列的非标准词向量进行标注,对越南语文本正则化文本标注规范如下:文本序列中的需要正则化的
字符使用

_

来标记,每次标记单个词向量,即采用单词粒度的越南语文本正则化标签分割的方式标记数据;若一个句子中含有多个需要正则化的词,按非标准词的数量将其扩充为多个序列并分别进行标注。
[0020]Step2、预训练:改进基于编辑对齐的匹配算法,检测获取原始序列中非标准词的编辑距离;同时,使用扩充好的标注数据对文本正则化模型中的指示器进行预训练,计算出原序列和目标序列之间的编辑对齐向量;
[0021]作为本专利技术的进一步方案,所述Step2中,改进了原FastCorret模型中的编辑对齐算法,通过整体匹配原始序列与目标序列中的相同词向量实现序列对齐,基于规则提取出原始序列中替换词和插入词的位置坐标,使用
‘‑1’
表示替换,
‘‑2’
表示插入,计算出新的编辑对齐向量,使得模型能够更加精准的识别到特征向量的精准变化。
[0022]Step3、解码和微调:在解码和微调阶段,本专利技术将原始序列中的词向量分成了两类,不可变词和非标准词(需要正则化的词);在步骤Step2的基础上,使用非自回归架构对预训练模型进行微调,修改指示器中编辑对齐向量的位置向量,实现原始序列到目标序列的长度调整,进而使得文本正则化模型的预测只包括非标准词对应的正则化词;
[0023]作为本专利技术的进一步方案,所述Step3中,在形成的预训练模型基础上,通过修改指示器中的编辑对齐向量的位置向量,将所有未更改的标记本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述方法的具体步骤为:Step1、预处理:从越南语的各类新闻和媒体网站爬取了文本语料,对文本语料进行修正处理,利用标注方式来扩展越南语数据集;Step2、预训练:改进基于编辑对齐的匹配算法,检测获取原始序列中非标准词的编辑距离;同时,使用扩充好的标注数据对文本正则化模型中的指示器进行预训练,计算出原序列和目标序列之间的编辑对齐向量;Step3、解码和微调:在步骤Step2的基础上,使用非自回归架构对预训练模型进行微调,修改指示器中编辑对齐向量的位置向量,实现原始序列到目标序列的长度调整,进而使得文本正则化模型的预测只包括非标准词对应的正则化词;Step4、后处理:在步骤Step3的基础上,将文本正则化模型预测出的非标准词对应的正则化词插入到原始序列的不可变词中,得到完整的目标预测序列。2.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step1的具体步骤如下:Step1.1、对于爬取得到的越南语原始文本,删除多余的空格字符、ASCII编码、表情符号,HTML实体以及不可读的单词;Step1.2、使用基于正则表达式的标记器来根据标点符号将大长度的句子分割成字符长度在20

150之间的句子,然后将所得到的所有文本语料进行修正工作;Step1.3、最后,将处理过的文本嵌入到向量空间中作为未标注的数据集,结合越南语的文本正则化特点对已得到的数据集进行标注工作。3.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step1.3中包括:对原始文本即需要正则化的文本序列和目标文本即正则化后的文本序列的非标准词向量进行标注,对越南语文本正则化文本标注规范如下:文本序列中的需要正则化的字符使用

_

来标记,每次标记单个词向量,即采用单词粒度的越南语文本正则化标签分割的方式标记数据;若一个句子中含有多个需要正则化的词,按非标准词的数量将其扩充为多个序列并分别进行标注。4.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化方法,其特征在于,所述Step2中,改进了原FastCorret模型中的编辑对齐算法,通过整体匹配原始序列与目标序列中的相同词向量实现序列对齐,基于规则提取出原始序列中替换词和插入词的位置坐标,使用
‘‑1’
表示替换,
‘‑2’
表示插入,计算出新的编辑对齐向量,使得模型能够更加精准的识别到特征向量的精准变化。5.根据权利要求1的所述的基于编辑对齐算法的非自回归解码越南语文本正则化...

【专利技术属性】
技术研发人员:赖华蒋铭王琳钦
申请(专利权)人:昆明理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1