一种文本的纠错方法、装置及存储介质制造方法及图纸

技术编号：37277962 阅读：21 留言：0更新日期：2023-04-20 23:44

本发明专利技术公开一种文本的纠错方法、装置及存储介质，属于自然语言处理技术领域。该文本的纠错方法，包括以下步骤：S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选；S2、通过注意力机制对校正候选进行概率预测，并与神经概率分布相融合得到校正候选的输出概率；S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。本发明专利技术还提出一种文本的纠错装置和存储介质。该方法实现了更为精准的文本纠错，提高了文本纠错的质量。提高了文本纠错的质量。提高了文本纠错的质量。

全部详细技术资料下载

【技术实现步骤摘要】
一种文本的纠错方法、装置及存储介质

[0001]本专利技术涉及自然语言处理
，具体涉及一种文本的纠错方法、装置及存储介质。

技术介绍

[0002]文本纠错旨在对文本中包含的拼写、语法等错误进行识别与校正。由于深度神经网络的快速发展，深度学习在自然语言处理的各项任务中取得了十分卓越的成绩。现有的文本纠错方法通常以序列到序列的编码器解码器网络为基础，以端到端的方式构建文本纠错流程，超越了传统的管道式的文本纠错方法。然而，这种方式无法对常见错误词表(如混淆集等)先验知识进行充分利用，制约了模型的性能和文本纠错的质量，如何利用混淆集对文本进行纠错进而提高文本的质量是现有技术需要解决的问题。

技术实现思路

[0003]本专利技术的目的在于克服上述技术不足，提供一种文本的纠错方法、装置及存储介质，解决现有技术中如何利用混淆集对文本进行纠错进而提高文本纠错的质量的技术问题。
[0004]为达到上述技术目的，本专利技术的技术方案提供一种文本的纠错方法，包括以下步骤：
[0005]S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选；
[0006]S2、通过注意力机制对校正候选进行概率预测，并与神经概率分布相融合得到校正候选的输出概率；
[0007]S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。
[0008]进一步地，在步骤S1中，所述词汇的校正候选由以下得到：
[0009]S11、将编码器与解码器之间的注意力分布用于度量文本词汇的重要度，得到文本中...

【技术保护点】

【技术特征摘要】
1.一种文本的纠错方法，其特征在于，包括以下步骤：S1、根据输入文本与混淆集获取输入文本中的词汇的校正候选；S2、通过注意力机制对校正候选进行概率预测，并与神经概率分布相融合得到校正候选的输出概率；S3、根据所述校正候选的输出概率对文本的词汇进行相应纠错。2.根据权利要求1所述的文本的纠错方法，其特征在于，在步骤S1中，所述词汇的校正候选由以下得到：S11、将编码器与解码器之间的注意力分布用于度量文本词汇的重要度，得到文本中的词汇的重要度分布；S12、从混淆集数据中获取词汇对应的校正词汇的概率；S13、将所述重要度分布乘以所述校正词汇的概率得到词汇相应的校正候选的词汇概率，根据所述校正候选的词汇概率得到词汇的校正候选。3.根据权利要求2所述的文本的纠错方法，其特征在于，在步骤S12中，词汇的校正候选首先被限制为至多M个，使用基于transformer中的注意力计算机制，以词汇隐层状态向量作为查询，校正候选对应的词向量作为键值，词汇隐层状态向量会依次跟校正候选的词向量进行矩阵运算得到单个数值，然后通过softmax进行归一化得到所述校正词汇的概率；其中，M为大于1的整数。4.根据权利要求1所述的文本的纠错方法，其特征在于，在步骤S2中，所述校正候选的输出概率由以下公式计算得到：校正候选的输出概率＝(纠错动作概率*校正候选的词...

【专利技术属性】
技术研发人员：邓彪，翟飞飞，朱军楠，
申请(专利权)人：北京中科凡语科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人