一种文本错别字检测方法和设备技术

技术编号:36766684 阅读:23 留言:0更新日期:2023-03-08 21:24
本发明专利技术公开了一种文本错别字检测方法,包括:读取目标文本,将目标文本输入至预先训练完成的分词模型,并输出分词结果,分词结果包括多个词项;将每一词项分别在文本库中进行组词查找匹配,以检测当前词项是否为错别词项;若是,基于最小编辑距离算法模型分别构建错别词项与多个目标词项之间的多个距离矩阵,根据每一距离矩阵计算每一目标词项与错别词项之间的操作成本,并根据操作成本对所述错别词项进行纠错。本发明专利技术可以对目标文本中的错别字,例如拼写错误或语法错误进行自动检测,并在检测到错别词项后自动对该错别词项进行纠错,提高了文本编辑效率。高了文本编辑效率。高了文本编辑效率。

【技术实现步骤摘要】
一种文本错别字检测方法和设备


[0001]本专利技术属于数据处理
,具体涉及一种文本错别字检测方法和设备。

技术介绍

[0002]在文本生成的过程中,可能存在着由于输入错误所导致的错别字。错别字是在特定语境中或者是特定词汇中使用错误的字符,错别字具有对应的正确的字符。在对文本进行处理的过程中,为了从文本中获取较为准确的信息,需要确保文本的正确性。错别字会影响到文本的结构以及文本所表示的信息,在文本处理之前需要对文本中的错别字进行检测,以便对文本中的错别字进行修正。
[0003]现有技术中,对于文本错别字检测方法主要为:在接收到用户输入的文字后,对用户输入的文字进行一定的处理,然后计算得到处理之后的文字的概率并与预设的概率阈值进行比较,最后根据比较结果确定用户输入的文字是否为错别字,当计算得到文字的概率小于预设的概率阈值时,判定用户输入的文字为错别字,当计算得到文字的概率不小于预设的概率阈值时,判定用户输入的文字为正确字。然而,上述方法得到的错别字的检测结果可能与实际情况不符,检测准确率低。

技术实现思路

[0004]本专利技术的目的是提供一种文本错别字检测方法和设备,用于解决现有技术中的至少一个技术问题。
[0005]为了实现上述目的,本专利技术采用以下技术方案:
[0006]第一方面,本专利技术提供一种文本错别字检测方法,包括:
[0007]读取目标文本,将所述目标文本输入至预先训练完成的分词模型,并输出分词结果,所述分词结果包括多个词项;
[0008]将每一词项分别在文本库中进行组词查找匹配,以检测当前词项是否为错别词项;
[0009]若是,基于最小编辑距离算法模型分别构建所述错别词项与多个目标词项之间的多个距离矩阵,根据每一距离矩阵计算每一目标词项与所述错别词项之间的操作成本,并根据操作成本对所述错别词项进行纠错。
[0010]在一种可能的设计中,所述分词模型的训练过程包括:
[0011]利用足够数量的样本数据构建文本库,并建立所述文本库的词项向量表,所述词项向量表包括所述文本库内的词项索引和词项向量,且所述词项索引和所述词项向量一一对应;
[0012]设置基于LSTM模型和CRF模型的超参数以构建分词模型,输入训练数据对所述分词模型进行训练,其中,所述训练数据设有词项索引和第一词项标签索引;
[0013]根据所述训练数据的词项索引从所述词项向量表中获取对应的词项向量,并根据获取的词项向量生成第二词项标签索引;
[0014]将所述第二词项标签索引和所述第一词项标签索引进行比对,并根据比对结果对所述分词模型进行参数优化,直至所述分词模型训练完成。
[0015]在一种可能的设计中,在输出分词结果之后,所述方法还包括:
[0016]查找所述分词结果中的特定词项,对该特定词项进行重新组词或进一步拆分,得到新的分词结果。
[0017]在一种可能的设计中,在输出分词结果之后,所述方法还包括:
[0018]根据所述目标文本中的标点符号,对所述分词结果进行语句拆分。
[0019]在一种可能的设计中,将每一词项分别在文本库中进行组词查找匹配,以检测当前词项是否为错别词项,包括:
[0020]将每一词项分别与其前向词项和后向词项进行组词,对应生成第一前向词组和第一后向词组;
[0021]在文本库中查找是否存在与所述第一前向词组和所述第一后向词组匹配的词组,若所述文本库中所述第一前向词组和所述第一后向词组同时存在,则当前词项为非错别词项,若所述文本库中所述第一前向词组或所述第一后向词组存在,则当前词项为疑似错别词项,若所述文本库中所述第一前向词组或所述第一后向词组均不存在,则当前词项为错别词项。
[0022]在一种可能的设计中,若当前词项为疑似错别词项,所述方法还包括:
[0023]向用户前端返回当前词项为疑似错别词项的提示信息,以提示用户对当前词项的输入进行确认。
[0024]在一种可能的设计中,基于最小编辑距离算法模型分别构建所述错别词项与多个目标词项之间的多个距离矩阵,根据每一距离矩阵计算每一目标词项与所述错别词项之间的操作成本,并根据操作成本对所述错别词项进行纠错,包括:
[0025]基于最小编辑距离算法分别构建错别词项与多个目标词项之间的距离矩阵,所述距离矩阵的计算公式如下:
[0026][0027]其中,Mat[i,j]表示第i行第j列的距离矩阵,Mat[i

1,j]表示第i

1行第j列的距离矩阵,D_cost表示删除操作成本,Mat[i,j

1]表示第i行第j

1列的距离矩阵,I_cost表示插入操作成本,Mat[i

1,j

1]表示第i

1行第j

1列的距离矩阵,r_cost表示替换操作成本,T[i]表示错别词项在第i行的字符数据,t[j]表示某一目标词项在第j列的字符数据;
[0028]按照操作成本由低到高的顺序,将每一目标词项分别与所述错别词项的前向词项和后向词项进行组词,得到第二前向词组和第二后向词组,直到某一第二前向词组和对应的第二后向词组在文本库中同时存在时,得到所述错别词项的正确词项。
[0029]第二方面,本专利技术提供一种文本错别字检测装置,包括:
[0030]分词模块,用于读取目标文本,将所述目标文本输入至预先训练完成的分词模型,并输出分词结果,所述分词结果包括多个词项;
[0031]错别字检测模块,用于将每一词项分别在文本库中进行组词查找匹配,以检测当
前词项是否为错别词项;
[0032]错词纠错模块,若是,基于最小编辑距离算法模型分别构建所述错别词项与多个目标词项之间的多个距离矩阵,根据每一距离矩阵计算每一目标词项与所述错别词项之间的操作成本,并根据操作成本对所述错别词项进行纠错。
[0033]在一种可能的设计中,所述分词模型包括:
[0034]文本库构建单元,用于利用足够数量的样本数据构建文本库,并建立所述文本库的词项向量表,所述词项向量表包括所述文本库内的词项索引和词项向量,且所述词项索引和所述词项向量一一对应;
[0035]模型训练单元,用于设置基于LSTM模型和CRF模型的超参数以构建分词模型,输入训练数据对所述分词模型进行训练,其中,所述训练数据设有词项索引和第一词项标签索引;
[0036]标签索引生成单元,用于根据所述训练数据的词项索引从所述词项向量表中获取对应的词项向量,并根据获取的词项向量生成第二词项标签索引;
[0037]模型参数优化单元,用于将所述第二词项标签索引和所述第一词项标签索引进行比对,并根据比对结果对所述分词模型进行参数优化,直至所述分词模型训练完成。
[0038]在一种可能的设计中,所述装置还包括:
[0039]分词结果更新模块,用于查找所述分词结果中的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本错别字检测方法,其特征在于,包括:读取目标文本,将所述目标文本输入至预先训练完成的分词模型,并输出分词结果,所述分词结果包括多个词项;将每一词项分别在文本库中进行组词查找匹配,以检测当前词项是否为错别词项;若是,基于最小编辑距离算法模型分别构建所述错别词项与多个目标词项之间的多个距离矩阵,根据每一距离矩阵计算每一目标词项与所述错别词项之间的操作成本,并根据操作成本对所述错别词项进行纠错。2.根据权利要求1所述的文本错别字检测方法,其特征在于,所述分词模型的训练过程包括:利用足够数量的样本数据构建文本库,并建立所述文本库的词项向量表,所述词项向量表包括所述文本库内的词项索引和词项向量,且所述词项索引和所述词项向量一一对应;设置基于LSTM模型和CRF模型的超参数以构建分词模型,输入训练数据对所述分词模型进行训练,其中,所述训练数据设有词项索引和第一词项标签索引;根据所述训练数据的词项索引从所述词项向量表中获取对应的词项向量,并根据获取的词项向量生成第二词项标签索引;将所述第二词项标签索引和所述第一词项标签索引进行比对,并根据比对结果对所述分词模型进行参数优化,直至所述分词模型训练完成。3.根据权利要求1所述的文本错别字检测方法,其特征在于,在输出分词结果之后,所述方法还包括:查找所述分词结果中的特定词项,对该特定词项进行重新组词或进一步拆分,得到新的分词结果。4.根据权利要求1所述的文本错别字检测方法,其特征在于,在输出分词结果之后,所述方法还包括:根据所述目标文本中的标点符号,对所述分词结果进行语句拆分。5.根据权利要求1所述的文本错别字检测方法,其特征在于,将每一词项分别在文本库中进行组词查找匹配,以检测当前词项是否为错别词项,包括:将每一词项分别与其前向词项和后向词项进行组词,对应生成第一前向词组和第一后向词组;在文本库中查找是否存在与所述第一前向词组和所述第一后向词组匹配的词组,若所述文本库中所述第一前向词组和所述第一后向词组同时存在,则当前词项为非错别词项,若所述文本库中所述第一前向词组或所述...

【专利技术属性】
技术研发人员:请求不公布姓名
申请(专利权)人:北京蓝太平洋科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1