一种文本的纠错方法、装置及存储介质制造方法及图纸

技术编号:37277962 阅读:11 留言:0更新日期:2023-04-20 23:44
本发明专利技术公开一种文本的纠错方法、装置及存储介质,属于自然语言处理技术领域。该文本的纠错方法,包括以下步骤:S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选;S2、通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。本发明专利技术还提出一种文本的纠错装置和存储介质。该方法实现了更为精准的文本纠错,提高了文本纠错的质量。提高了文本纠错的质量。提高了文本纠错的质量。

【技术实现步骤摘要】
一种文本的纠错方法、装置及存储介质


[0001]本专利技术涉及自然语言处理
,具体涉及一种文本的纠错方法、装置及存储介质。

技术介绍

[0002]文本纠错旨在对文本中包含的拼写、语法等错误进行识别与校正。由于深度神经网络的快速发展,深度学习在自然语言处理的各项任务中取得了十分卓越的成绩。现有的文本纠错方法通常以序列到序列的编码器解码器网络为基础,以端到端的方式构建文本纠错流程,超越了传统的管道式的文本纠错方法。然而,这种方式无法对常见错误词表(如混淆集等)先验知识进行充分利用,制约了模型的性能和文本纠错的质量,如何利用混淆集对文本进行纠错进而提高文本的质量是现有技术需要解决的问题。

技术实现思路

[0003]本专利技术的目的在于克服上述技术不足,提供一种文本的纠错方法、装置及存储介质,解决现有技术中如何利用混淆集对文本进行纠错进而提高文本纠错的质量的技术问题。
[0004]为达到上述技术目的,本专利技术的技术方案提供一种文本的纠错方法,包括以下步骤:
[0005]S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选;
[0006]S2、通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;
[0007]S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。
[0008]进一步地,在步骤S1中,所述词汇的校正候选由以下得到:
[0009]S11、将编码器与解码器之间的注意力分布用于度量文本词汇的重要度,得到文本中的词汇的重要度分布;
[0010]S12、从混淆集数据中获取词汇对应的校正词汇的概率;
[0011]S13、将所述重要度分布乘以所述校正词汇的概率得到词汇相应的校正候选的词汇概率,根据所述校正候选的词汇概率得到词汇的校正候选。
[0012]进一步地,在步骤S12中,词汇的校正候选首先被限制为至多M个,使用基于transformer中的注意力计算机制,以词汇隐层状态向量作为查询,校正候选对应的词向量作为键值,词汇隐层状态向量会依次跟校正候选的词向量进行矩阵运算得到单个数值,然后通过softmax进行归一化得到所述校正词汇的概率;其中,M为大于1的整数。
[0013]进一步地,在步骤S2中,所述校正候选的输出概率由以下公式计算得到:校正候选的输出概率=(纠错动作概率*校正候选的词汇概率)+(1

纠错动作概率)*神经概率分布。
[0014]进一步地,在步骤S2中,所述纠错动作概率通过一个sigmoid激活函数得到0

1之间的概率数值,其以解码器隐层状态为输入向量,通过矩阵参数和偏置矩阵进行计算,得到
单一的数值,然后通过sigmoid激活层转化得到所述纠错动作概率。
[0015]进一步地,在步骤S1之前还包括构建混淆集。
[0016]进一步地,所述混淆集通过收集常见的错误词汇、构建同音、音近、形近词典得到。
[0017]进一步地,在步骤S1之前,还包括将所述输入文本通过transformer编辑器对所述输入文本进行语义编码。
[0018]此外,本专利技术还提出一种文本的纠错装置,包括:
[0019]获取单元,用于根据输入文本与混淆集获取输入文本中的词汇的校正候选;
[0020]融合单元,用于通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;
[0021]纠错单元,用于根据所述校正候选的输出概率对文本的词汇进行相应纠错。
[0022]进一步地,本专利技术还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本的纠错方法的步骤。
[0023]与现有技术相比,本专利技术的有益效果包括:本专利技术将混淆集引入至文本纠错中,通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率,根据所述校正候选的输出概率对文本的词汇进行相应纠错,从而实现更为精准的文本纠错,提高了文本纠错的质量。
附图说明
[0024]图1是本专利技术具体实施方式中提出的一种文本的纠错方法的流程图;
[0025]图2是本专利技术本具体实施方式中提出的一种文本的纠错装置的流程图。
具体实施方式
[0026]结合图1,本具体实施方式提供一种文本的纠错方法,包括以下步骤:
[0027]S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选;所述词汇的校正候选由以下得到:
[0028]S11、将编码器与解码器之间的注意力分布用于度量文本词汇的重要度,得到文本中的词汇的重要度分布;
[0029]S12、从混淆集数据中获取词汇对应的校正词汇的概率;进一步地,词汇的校正候选首先被限制为至多M个,使用基于transformer中的注意力计算机制,以词汇隐层状态向量作为查询,校正候选对应的词向量作为键值,词汇隐层状态向量会依次跟校正候选的词向量进行矩阵运算得到单个数值,然后通过softmax进行归一化得到所述校正词汇的概率;其中,M为大于1的整数;
[0030]S13、将所述重要度分布乘以所述校正词汇的概率得到词汇相应的校正候选的词汇概率,根据所述校正候选的词汇概率得到词汇的校正候选;
[0031]S2、通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;所述校正候选的输出概率由以下公式计算得到:校正候选的输出概率=(纠错动作概率*校正候选的词汇概率)+(1

纠错动作概率)*神经概率分布;进一步地,所述纠错动作概率通过一个sigmoid激活函数得到0

1之间的概率数值,其以解码器隐层状态为输入向量,通过矩阵参数和偏置矩阵进行计算,得到单一的数值,然后通过sigmoid激活
层转化得到所述纠错动作概率;
[0032]S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。
[0033]本具体实施方式中,在步骤S1之前还包括构建混淆集,进一步地,所述混淆集通过收集常见的错误词汇,构建同音、音近、形近词典得到。
[0034]在某些实施例中,在步骤S1之前,还包括将所述输入文本通过transformer编辑器对所述输入文本进行语义编码。
[0035]此外,结合图2,本具体实施方式还提出一种文本的纠错装置,包括:
[0036]获取单元,用于根据输入文本与混淆集获取输入文本中的词汇的校正候选;
[0037]融合单元,用于通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;
[0038]纠错单元,用于根据所述校正候选的输出概率对文本的词汇进行相应纠错。
[0039]此外,本具体实施方式还提出一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现上述文本的纠错方法的步骤。
[0040]为了使本专利技术的目的、技术方案及优点更加清楚明白,以本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本的纠错方法,其特征在于,包括以下步骤:S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选;S2、通过注意力机制对校正候选进行概率预测,并与神经概率分布相融合得到校正候选的输出概率;S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。2.根据权利要求1所述的文本的纠错方法,其特征在于,在步骤S1中,所述词汇的校正候选由以下得到:S11、将编码器与解码器之间的注意力分布用于度量文本词汇的重要度,得到文本中的词汇的重要度分布;S12、从混淆集数据中获取词汇对应的校正词汇的概率;S13、将所述重要度分布乘以所述校正词汇的概率得到词汇相应的校正候选的词汇概率,根据所述校正候选的词汇概率得到词汇的校正候选。3.根据权利要求2所述的文本的纠错方法,其特征在于,在步骤S12中,词汇的校正候选首先被限制为至多M个,使用基于transformer中的注意力计算机制,以词汇隐层状态向量作为查询,校正候选对应的词向量作为键值,词汇隐层状态向量会依次跟校正候选的词向量进行矩阵运算得到单个数值,然后通过softmax进行归一化得到所述校正词汇的概率;其中,M为大于1的整数。4.根据权利要求1所述的文本的纠错方法,其特征在于,在步骤S2中,所述校正候选的输出概率由以下公式计算得到:校正候选的输出概率=(纠错动作概率*校正候选的词...

【专利技术属性】
技术研发人员:邓彪翟飞飞朱军楠
申请(专利权)人:北京中科凡语科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1