System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及自然语言处理,特别是涉及一种融合定长序列到序列网络的中文成语纠错方法和装置。
技术介绍
1、中文作为一种古老的语言在中华文化的传承与交流中起着不可替代的作用。众所周知,在日常的使用中经常会遇到一些错误使用中文的情况。这些错误会直接影响用户的体验,严重时甚至会造成不可估量的损失。研究发现四字成语作为一种特殊的中文高级构词类型,它的使用场景非常广泛。在教学和使用过程中用户会遇到一些关于成语排序(乱序错误)(根据给定的4个无序的汉字,通过自动排序后构成正确的成语)、成语纠错(错字错误)(给定一个含错别字的成语,需要将错别字自动纠正后才能得到正确的成语)和成语补齐(缺字错误)(给定部分字,需要自动补齐缺失的汉字才能构成完整的成语)的难题。
2、中文四字成语智能纠错模型是最近提出来的一项自然语言处理任务。该任务当前面临三大挑战,乱序错误的纠正难点是如何解决成语的正确排序,错字错误的难点是如何纠正成语中出现的错字,缺字错误的难点是如何自动补齐成语中缺失的汉字。对于具有一定知识积累的人类来说,实现上述目标并不难。但是对于计算机来说当前的成语纠错性能还有待进一步提升。若能研制出高效的算法让计算机具备自动识别与更正成语错误的能力,这对成语的教学和应用会有极大帮助。为了应对上述的三个挑战,传统的中文纠错模型是根据不同的错误类型分别建立不同的纠错模型然后再逐个击破。目前没有统一的高性能中文成语智能纠错模型可以一体化直接求解多种错误类型。并且现有纠错模型基本上都是对传统的中文句子纠错任务进行建模,没有单独考虑中文四字成语的结构特殊
技术实现思路
1、基于此,有必要针对上述技术问题,提供一种能够针对中文四字成语的智能纠错需求,同时兼顾多任务一体化求解和高性能纠错两个方面的融合定长序列到序列网络的中文成语纠错方法和装置。
2、一种融合定长序列到序列网络的中文成语纠错方法,所述方法包括:
3、获取正确的四字成语数据集,对四字成语数据集中每个正确四字成语分别依次进行单个字符乱序排列和单个字符与指定特殊符号替换处理,并将每个正确四字成语处理得到的28种不同的四字序列与对应的正确四字成语分别构成28种序列对,通过收集四字成语数据集中每个正确四字成语构造得到的所有28种序列对,得到混合数据集;
4、利用混合数据集对预先构建的融合定长序列到序列网络的中文成语智能纠错模型进行训练,得到训练好的中文成语智能纠错模型;
5、将待纠错的成语序列输入训练好的中文成语智能纠错模型进行纠错,输出得到纠正后的成语序列;其中,中文成语智能纠错模型包括输入序列表示模块、混合向量编码模块、编码器、注意力加权和向量计算模块、解码器和输出序列表示模块;输入序列表示模块用于将待纠错的成语序列统一表示为指定格式的输入序列;混合向量编码模块用于对指定格式的输入序列进行分词处理,并将分词结果转换为数值向量;编码器用于对数值向量执行编码过程,生成隐藏状态;注意力加权和向量计算模块用于采用luong注意力机制对隐藏状态进行注意力加权计算,得到预测向量;解码器用于对预测向量执行解码过程,并在解码过程中搜索生成纠正后的成语序列;输出序列表示模块用于展示输出纠正后的成语序列。
6、在其中一个实施例中,对四字成语数据集中每个正确四字成语分别依次进行单个字符乱序排列和单个字符与指定特殊符号替换处理,并将每个正确四字成语处理得到的28种不同的四字序列与对应的正确四字成语分别构成28种序列对,通过收集四字成语数据集中每个正确四字成语构造得到的所有28种序列对,得到混合数据集,包括:
7、对四字成语数据集中每个正确四字成语依次进行单个字符乱序排列处理,得到24种第一类四字序列,并将每个正确四字成语处理得到的24种第一类四字序列与对应的正确四字成语构成24种第一类序列对;
8、对四字成语数据集中每个正确四字成语依次进行单个字符与指定特殊符号替换处理,得到4种第二类四字序列,并将每个正确四字成语处理得到的4种第二类四字序列与对应的正确四字成语构成4种第二类序列对;
9、收集四字成语数据集中所有正确四字成语构造得到的24种第一类序列对和4种第二类序列对,得到混合数据集。
10、在其中一个实施例中,利用混合数据集对预先构建的融合定长序列到序列网络的中文成语智能纠错模型进行训练,得到训练好的中文成语智能纠错模型,包括:
11、将混合数据集中的第一类四字序列和第二类四字序列作为输入序列,将第一类四字序列和第二类四字序列对应的正确四字成语作为输出序列,训练中文成语智能纠错模型,得到输入端与输出端序列长度固定的训练好的中文成语智能纠错模型;
12、其中,第一类四字序列用于在模型训练过程中针对乱序和正确这两种错误类型进行纠错训练;第二类四字序列用于在模型训练过程中针对缺字和错字这两种错误类型进行纠错训练。
13、在其中一个实施例中,输入序列表示模块通过检测识别待纠错的成语序列的错误类型,将待纠错的成语序列统一表示为长度为4的输入序列;其中,针对缺字类型,采用特殊符号代替待纠错的成语序列中的缺失字符;针对乱序、错字和正确类型,保持待纠错的成语序列中的字符不变。
14、在其中一个实施例中,混合向量编码模块采用字符和词语共存的词袋模型或分布式预训练模型对指定格式的输入序列进行分词处理,并将分词结果转换为数值向量。
15、在其中一个实施例中,编码器通过3层双向门控循环单元对数值向量执行编码过程,生成隐藏状态。
16、在其中一个实施例中,解码器采用3层单向门控循环单元对预测向量执行解码过程,并在解码过程中结合束搜索或贪心搜索算法生成纠正后的成语序列。
17、一种融合定长序列到序列网络的中文成语纠错装置,所述装置包括:
18、混合数据集构造模块,用于获取正确的四字成语数据集,对四字成语数据集中每个正确四字成语分别依次进行单个字符乱序排列和单个字符与指定特殊符号替换处理,并将每个正确四字成语处理得到的28种不同的四字序列与对应的正确四字成语分别构成28种序列对,通过收集四字成语数据集中每个正确四字成语构造得到的所有28种序列对,得到混合数据集;
19、模型训练模块,用于利用混合数据集对预先构建的融合定长序列到序列网络的中文成语智能纠错模型进行训练,得到训练好的中文成语智能纠错模型;
20、成语纠错模块,用于将待纠错的成语序列输入训练好的中文成语智能纠错模型进行纠错,输出得到纠正后的成语序列;其中,中文成语智能纠错模型包括输入序列表示模块、混合向量编码模块、编码器、注意力加权和向量计算模块、解码器和输出序列表示模块;输入序列表示模块用于将待纠错的成语序列统一表示为指定格式的输入序列;混合向量编码模块用于对指定格式的输入序列进行分词处理,并将分词结果转换为数值向量;编码器用于对数值向量执本文档来自技高网...
【技术保护点】
1.一种融合定长序列到序列网络的中文成语纠错方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,对所述四字成语数据集中每个正确四字成语分别依次进行单个字符乱序排列和单个字符与指定特殊符号替换处理,并将每个正确四字成语处理得到的28种不同的四字序列与对应的正确四字成语分别构成28种序列对,通过收集所述四字成语数据集中每个正确四字成语构造得到的所有28种序列对,得到混合数据集,包括:
3.根据权利要求2所述的方法,其特征在于,利用所述混合数据集对预先构建的融合定长序列到序列网络的中文成语智能纠错模型进行训练,得到训练好的中文成语智能纠错模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述输入序列表示模块通过检测识别所述待纠错的成语序列的错误类型,将所述待纠错的成语序列统一表示为长度为4的输入序列;其中,针对缺字类型,采用特殊符号代替所述待纠错的成语序列中的缺失字符;针对乱序、错字和正确类型,保持所述待纠错的成语序列中的字符不变。
5.根据权利要求1所述的方法,其特征在于,所述混合向量编码模块采用字符和词语
6.根据权利要求1所述的方法,其特征在于,所述编码器通过3层双向门控循环单元对所述数值向量执行编码过程,生成隐藏状态。
7.根据权利要求1所述的方法,其特征在于,所述解码器采用3层单向门控循环单元对所述预测向量执行解码过程,并在解码过程中结合束搜索或贪心搜索算法生成纠正后的成语序列。
8.一种融合定长序列到序列网络的中文成语纠错装置,其特征在于,所述装置包括:
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种融合定长序列到序列网络的中文成语纠错方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,对所述四字成语数据集中每个正确四字成语分别依次进行单个字符乱序排列和单个字符与指定特殊符号替换处理,并将每个正确四字成语处理得到的28种不同的四字序列与对应的正确四字成语分别构成28种序列对,通过收集所述四字成语数据集中每个正确四字成语构造得到的所有28种序列对,得到混合数据集,包括:
3.根据权利要求2所述的方法,其特征在于,利用所述混合数据集对预先构建的融合定长序列到序列网络的中文成语智能纠错模型进行训练,得到训练好的中文成语智能纠错模型,包括:
4.根据权利要求1所述的方法,其特征在于,所述输入序列表示模块通过检测识别所述待纠错的成语序列的错误类型,将所述待纠错的成语序列统一表示为长度为4的输入序列;其中,针对缺字类型,采用特殊符号代替所述待纠错的成语序列中的缺失字符;针对乱序、错字和正确类型,保持所述待纠错的成语序列中的字符不变。<...
【专利技术属性】
技术研发人员:何春辉,葛斌,张翀,胡升泽,刘丽华,赵翔,李乐,王懋,肖开明,
申请(专利权)人:中国人民解放军国防科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。