基于知识库的中文文本自动校错系统及方法技术方案

技术编号：41820794 阅读：1 留言：0更新日期：2024-06-24 20:35

一种基于知识库的中文文本自动校错系统及方法。其首先获取待校对中文语句，接着，对所述待校对中文语句进行分词处理以得到待校对中文词的序列，然后，使用预训练词语义编码器对所述待校对中文词的序列中的各个待校对中文词进行语义编码以得到待校对中文词语义编码特征向量的序列，其中，所述预训练词语义编码器通过知识库来进行训练，接着，对所述待校对中文词的序列中的各个待校对中文词进行词性标注和独热编码处理以得到词粒度词性独热编码特征向量的序列，最后，基于所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列来进行中文文本校错以生成校错后中文文本。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及中文文本校错领域，具体涉及一种基于知识库的中文文本自动校错系统及方法。

技术介绍

1、随着信息技术的快速发展，人们在日常生活和工作中频繁地与文字交流，因此确保中文文本的准确性至关重要。中文文本校错是自然语言处理领域中的一项重要任务，旨在识别和纠正中文文本中的错误，包括错别字、词序错误和语法错误。

2、然而，传统的中文文本校错方法通常基于规则和统计模型，这些方法需要大量的人工设计规则或大规模的标注数据，缺乏灵活性，难以覆盖所有可能的错误类型，且对于复杂错误的处理能力有限。并且，传统校错方法在处理复杂的错误，如词序错误或语法错误时表现不佳，这是由于这些错误可能涉及到文本的语义和词性信息，传统的中文文本校错方法往往无法很好地捕捉这些信息，难以应对复杂的错误类型。

3、因此，期望一种基于知识库的中文文本自动校错方案。

技术实现思路

1、考虑到以上问题而做出了本公开。本公开的一个目的是提供一种基于知识库的中文文本自动校错系统及方法。

2、本公开的实施例提供了一种基于知识库的中文文本自动校错方法，其包括：

3、获取待校对中文语句；

4、对所述待校对中文语句进行分词处理以得到待校对中文词的序列；

5、使用预训练词语义编码器对所述待校对中文词的序列中的各个待校对中文词进行语义编码以得到待校对中文词语义编码特征向量的序列，其中，所述预训练词语义编码器通过知识库来进行训练；

6、对所述待校对中文词的序列中的各

7、基于所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列来进行中文文本校错以生成校错后中文文本。

8、例如，根据本公开的实施例的基于知识库的中文文本自动校错方法，其中，对所述待校对中文词的序列中的各个待校对中文词进行词性标注和独热编码处理以得到词粒度词性独热编码特征向量的序列，包括：

9、对所述待校对中文词的序列中的各个待校对中文词进行词性标注以得到词粒度词性描述的序列；

10、使用基于独热编码器的词性编码器对所述词粒度词性描述的序列进行编码以得到所述词粒度词性独热编码特征向量的序列。

11、例如，根据本公开的实施例的基于知识库的中文文本自动校错方法，其中，基于所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列来进行中文文本校错以生成校错后中文文本，包括：

12、将所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列进行拼接以得到包含词性信息的待校对中文词语义编码特征向量的序列；

13、基于所述包含词性信息的待校对中文词语义编码特征向量的序列，生成所述校错后中文文本。

14、例如，根据本公开的实施例的基于知识库的中文文本自动校错方法，其中，基于所述包含词性信息的待校对中文词语义编码特征向量的序列，生成所述校错后中文文本，包括：

15、对所述包含词性信息的待校对中文词语义编码特征向量的序列中的各个包含词性信息的待校对中文词语义编码特征向量进行特征优化以得到优化后包含词性信息的待校对中文词语义编码特征向量的序列；

16、将所述优化后包含词性信息的待校对中文词语义编码特征向量的序列通过基于解码器的文本自动校错生成器以得到所述校错后中文文本。

17、例如，根据本公开的实施例的基于知识库的中文文本自动校错方法，其中，对所述包含词性信息的待校对中文词语义编码特征向量的序列中的各个包含词性信息的待校对中文词语义编码特征向量进行特征优化以得到优化后包含词性信息的待校对中文词语义编码特征向量的序列，包括：

18、分别计算所述包含词性信息的待校对中文词语义编码特征向量的序列中的每个包含词性信息的待校对中文词语义编码特征向量的加权系数以得到由多个加权系数组成的加权系数向量；

19、以所述加权系数向量中的各个加权系数作为加权因数对所述包含词性信息的待校对中文词语义编码特征向量的序列中的各个包含词性信息的待校对中文词语义编码特征向量进行加权优化以得到所述优化后包含词性信息的待校对中文词语义编码特征向量的序列。

20、本公开的实施例还提供了一种基于知识库的中文文本自动校错系统，其包括：

21、待校对数据获取模块，用于获取待校对中文语句；

22、分词模块，用于对所述待校对中文语句进行分词处理以得到待校对中文词的序列；

23、语义编码模块，用于使用预训练词语义编码器对所述待校对中文词的序列中的各个待校对中文词进行语义编码以得到待校对中文词语义编码特征向量的序列，其中，所述预训练词语义编码器通过知识库来进行训练；

24、独热编码模块，用于对所述待校对中文词的序列中的各个待校对中文词进行词性标注和独热编码处理以得到词粒度词性独热编码特征向量的序列；

25、文本校错模块，用于基于所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列来进行中文文本校错以生成校错后中文文本。

26、例如，根据本公开的实施例的基于知识库的中文文本自动校错系统，其中，所述独热编码模块，包括：

27、标注单元，用于对所述待校对中文词的序列中的各个待校对中文词进行词性标注以得到词粒度词性描述的序列；

28、词性编码单元，用于使用基于独热编码器的词性编码器对所述词粒度词性描述的序列进行编码以得到所述词粒度词性独热编码特征向量的序列。

29、例如，根据本公开的实施例的基于知识库的中文文本自动校错系统，其中，所述文本校错模块，包括：

30、向量拼接单元，用于将所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列进行拼接以得到包含词性信息的待校对中文词语义编码特征向量的序列；

31、文本生成单元，用于基于所述包含词性信息的待校对中文词语义编码特征向量的序列，生成所述校错后中文文本。

32、例如，根据本公开的实施例的基于知识库的中文文本自动校错系统，其中，所述文本生成单元，包括：

33、特征优化子单元，用于对所述包含词性信息的待校对中文词语义编码特征向量的序列中的各个包含词性信息的待校对中文词语义编码特征向量进行特征优化以得到优化后包含词性信息的待校对中文词语义编码特征向量的序列；

34、解码子单元，用于将所述优化后包含词性信息的待校对中文词语义编码特征向量的序列通过基于解码器的文本自动校错生成器以得到所述校错后中文文本。

35、例如，根据本公开的实施例的基于知识库的中文文本自动校错系统，其中，所述特征优化子单元，用于：

36、分别计算所述包含词性信息的待校对中文词语义编码特征向量的序列中的每个包含词性信息的待校对中文词语义编码特征向量的加权系数以得到本文档来自技高网...

【技术保护点】

1.一种基于知识库的中文文本自动校错方法，其特征在于，包括：

2.根据权利要1所述的基于知识库的中文文本自动校错方法，其特征在于，对所述待校对中文词的序列中的各个待校对中文词进行词性标注和独热编码处理以得到词粒度词性独热编码特征向量的序列，包括：

3.根据权利要2所述的基于知识库的中文文本自动校错方法，其特征在于，基于所述待校对中文词语义编码特征向量的序列和所述词粒度词性独热编码特征向量的序列来进行中文文本校错以生成校错后中文文本，包括：

4.根据权利要3所述的基于知识库的中文文本自动校错方法，其特征在于，基于所述包含词性信息的待校对中文词语义编码特征向量的序列，生成所述校错后中文文本，包括：

5.根据权利要4所述的基于知识库的中文文本自动校错方法，其特征在于，对所述包含词性信息的待校对中文词语义编码特征向量的序列中的各个包含词性信息的待校对中文词语义编码特征向量进行特征优化以得到优化后包含词性信息的待校对中文词语义编码特征向量的序列，包括：

6.一种基于知识库的中文文本自动校错系统，其特征在于，包括：

8.根据权利要7所述的基于知识库的中文文本自动校错系统，其特征在于，所述文本校错模块，包括：

9.根据权利要8所述的基于知识库的中文文本自动校错系统，其特征在于，所述文本生成单元，包括：

10.根据权利要9所述的基于知识库的中文文本自动校错系统，其特征在于，所述特征优化子单元，用于：

...

【技术特征摘要】

1.一种基于知识库的中文文本自动校错方法，其特征在于，包括：

5.根据权利要4所述的基于知识库的中文文本自动校错方...

【专利技术属性】
技术研发人员：孙淑鸿，
申请(专利权)人：长春职业技术学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人