文本错误的检测方法及装置制造方法及图纸

技术编号:28116445 阅读:15 留言:0更新日期:2021-04-19 11:14
本申请公开了一种文本错误的检测方法及装置。其中,该方法包括:获取待检测文本;对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。本申请解决了相关技术中无法检测词语搭配错误的技术问题。错误的技术问题。错误的技术问题。

【技术实现步骤摘要】
文本错误的检测方法及装置


[0001]本申请涉及文本错误检测领域,具体而言,涉及一种文本错误的检测方法及装置。

技术介绍

[0002]拼写检查是指在选定文本、一篇完整文章,一个出版物的全部文章,或所有打开的出版物的全部文章中检查和帮助修正拼写和基本的语法错误。其普遍应用在字处理软件,文本编辑器软件,网页中的富文本编辑器等技术中。
[0003]其中,目前的文本错误检测方式一般仅能检测到错别字,但是,还有一种“词语搭配错误”,比如“精力集中”,写成了“经理集中”。
[0004]现在使用拼音输入法是远远多于五笔等其他输入法的,而拼音输入法中输入词语是一种更常用的输入方式,所以输入错误的词语也更常见。但是,上述技术方案是不能够检测出来这种错误的。
[0005]针对上述的问题,目前尚未提出有效的解决方案。

技术实现思路

[0006]本申请实施例提供了一种文本错误的检测方法及装置,以至少解决相关技术中无法检测词语搭配错误的技术问题。
[0007]根据本申请实施例的一个方面,提供了一种文本错误的检测方法,包括:获取待检测文本;对待检测文本进行分词处理,得到多个分词;将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定待检测文本中是否存在词语搭配错误。
[0008]可选地,依据匹配结果确定待检测文本中是否存在词语搭配错误,包括:在预设词库中存在与多个组合均匹配的组合词时,确定待检测文本不存在词语搭配错误;在多个组合中的至少一个组合在预设词库中不存在匹配的组合词时,确定至少一个组合与预设词库中的组合词的音标是否相同,在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定待检测文本中存在词语搭配错误。
[0009]可选地,上述方法还包括:对于多个组合中的每个组合,在预设词库中不存在与每个组合音标相同的组合词时,且不存在与每个组合中的文字相同的组合词时,将每个组合作为疑似错误搭配词语。
[0010]可选地,上述方法还包括:在音标相同,且音标相同的每个组合和对应的组合词的文字不同时,确定与每个组合相邻的分词,并将与每个组合相邻的分词与每个组合进行重新组合,得到目标组合;判断目标组合是否存在词语搭配错误。
[0011]可选地,确定与每个组合相邻的分词之前,方法还包括:确定每个组合中分词的数量;在数量大于预设阈值时,拒绝确定与每个组合相邻的分词;在数量小于预设阈值时,允许确定与每个组合相邻的分词。
[0012]可选地,预设词库中的词条通过以下方式确定:从预设文本库中选择目标语句;对
语句进行分词处理,并将得到的分词进行组合,得到样本组合分词;去掉样本组合分词中的助词或副词,得到初始词条,并建立初始词条和初始词条中文字的音标信息的关联;将初始词条和音标信息作为词库中的一个词条。
[0013]可选地,将多个分词按照顺序进行组合,得到多个组合,包括:将多个分词按照每个分词在待检测文本中的位置进行两两组合,其中,每个组合是位置相邻的两个分词。
[0014]可选地,上述方法还包括:在多个组合中相邻的连续两个组合均出现词语搭配错误时,确定连续两个组合中共有的分词,将共有的分词作为疑似错误分词。
[0015]可选地,依据匹配结果确定待检测文本中是否存在词语搭配错误之后,方法还包括:在待检测文本中存在词语搭配错误时,依据多个组合中存在词语搭配错误的组合生成检测报告,并输出检测报告;或者,在待检测文本中突出显示多个组合中存在词语搭配错误的组合。
[0016]根据本申请实施例的另一个方面,提供了一种文本错误的检测装置,包括:获取模块,用于获取待检测文本;分词模块,用于对待检测文本进行分词处理,得到多个分词;组合模块,用于将多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;匹配模块,用于对多个组合中的每个组合与预设词库中的组合词进行匹配;确定模块,用于依据匹配结果确定待检测文本中是否存在词语搭配错误。
[0017]根据本申请实施例的一个方面,提供了一种电子设备,设备包括至少一个处理器、以及与处理器连接的至少一个存储器、总线;其中,处理器、存储器通过总线完成相互间的通信;处理器用于调用存储器中的程序指令,以执行如上所述的接口变化的检测方法。
[0018]根据本申请实施例的再一个方面,提供了一种处理器,该处理器用于运行存储在存储介质中的程序,其中,程序运行时执行以上所述的文本错误的检测方法。
[0019]根据本申请实施例的又一个方面,提供了一种非易失性存储介质,该非易失性存储介质用于程序,其中,程序运行时控制存储介质所在设备执行以上所述的文本错误的检测方法。
[0020]在本申请实施例中,对待检测文本进行分词,并将分词进行组合后,得到多个组合,对每个组合与预设词库中的组合词进行匹配,依据匹配结果确定是否存在词语搭配错误,由于对文本进行分词后,对其进行了组合处理,并对组合进行了匹配验证,因此,可以实现对词语搭配错误的检测,进而解决了相关技术中无法检测词语搭配错误的技术问题。
附图说明
[0021]此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:
[0022]图1是根据本申请实施例的一种文本错误的检测方法的流程示意图;
[0023]图2是根据本申请实施例的一种文本错误的检测装置的结构示意图。
[0024]图3是根据本申请实施例的一种电子设备的结构示意图。
具体实施方式
[0025]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是
本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0026]需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0027]为便于理解本申请实施例,以下将本申请实施例中涉及的术语简述如下:
[0028]分词:对连续的字序列按照一定的规范重新组合成词序列的过程。其是自然语言识别领域中常用的一种手段。
[0029]根据本申请实施例,提供了一种文本错误的检本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本错误的检测方法,其特征在于,包括:获取待检测文本;对所述待检测文本进行分词处理,得到多个分词;将所述多个分词按照顺序进行组合,得到多个组合,其中,每个组合中至少包括两个分词;对所述多个组合中的每个组合与预设词库中的组合词进行匹配;依据匹配结果确定所述待检测文本中是否存在词语搭配错误。2.根据权利要求1所述的方法,其特征在于,依据匹配结果确定所述待检测文本中是否存在词语搭配错误,包括:在所述预设词库中存在与所述多个组合均匹配的组合词时,确定所述待检测文本不存在词语搭配错误;在所述多个组合中的至少一个组合在所述预设词库中不存在匹配的组合词时,确定所述至少一个组合与所述预设词库中的组合词的音标是否相同,在音标相同,且音标相同的所述每个组合和对应的组合词的文字不同时,确定所述待检测文本中存在所述词语搭配错误。3.根据权利要求2所述的方法,其特征在于,所述方法还包括:对于所述多个组合中的每个组合,在所述预设词库中不存在与所述每个组合音标相同的组合词时,且不存在与所述每个组合中的文字相同的组合词时,将所述每个组合作为疑似错误搭配词语。4.根据权利要求2所述的方法,其特征在于,所述方法还包括:在音标相同,且音标相同的所述每个组合和对应的组合词的文字不同时,确定与所述每个组合相邻的分词,并将与所述每个组合相邻的分词与所述每个组合进行重新组合,得到目标组合;判断所述目标组合是否存在词语搭配错误。5.根据权利要求4所述的方法,其特征在于,确定与所述每个组合相邻的分词之前,所述方法还包括:确定所述每个组合中分词的数量;在所述数量大于预设阈值时,拒绝确定与所述每个组合相邻的分词;在所述数量小于所述预设阈值时,允许确定与所述每个组合相邻的分词。6.根据权利要求1所述的方法...

【专利技术属性】
技术研发人员:曹志明
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1