本发明专利技术涉及人工智能技术领域,公开了一种生僻字检测方法、装置、设备及存储介质,用于提高生僻字检测的效率和准确率。生僻字检测方法包括:获取目标文本,调用预置的分词工具将目标文本进行拆分,得到单字列表和词列表;将词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;将单字列表根据第二检测标准和目标词列表单字集合进行检测,得到第二生僻字库;根据第一生僻字库和第二生僻字库计算生僻字总数。字库计算生僻字总数。字库计算生僻字总数。
【技术实现步骤摘要】
生僻字检测方法、装置、设备及存储介质
[0001]本专利技术涉及人工智能
,尤其涉及一种生僻字检测方法、装置、设备及存储介质。
技术介绍
[0002]随着计算机技术的发展,电子设备逐渐能够为用户提供智能化的服务,协助用户快速和准确地完成事项,给用户的工作和生活带来极大便利。
[0003]在我们使用电子设备输入文本时,由于输入法模型的引导或者用户的疏忽导致文本出现少见的生僻字,在实际应用场景中,出现生僻字大概率是文本存在错误,错误的文本会给用户带来负面体验。
[0004]在现有的技术中,通常采用逐一将文本字符与字库对比的方式进行生僻字的检测,检测效率低,而且对比字库更新不灵活,检测精准度低。
技术实现思路
[0005]本专利技术提供一种生僻字检测方法,预先将目标文本拆分为单字和词语,根据生僻字难以组成词语的特性,将单字和词语分别采用不同的测试标准进行检测,提高检测效率,同时单字的检测标准采用固定标准与动态标准相结合的方式,提高生僻字识别的准确率。
[0006]本专利技术第一方面提供了一种生僻字检测方法,包括:获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
[0007]可选的,在本专利技术第一方面的第一种实现方式中,所述将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库包括:将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准;将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。
[0008]可选的,在本专利技术第一方面的第二种实现方式中,所述根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准包括:根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字
基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。
[0009]可选的,在本专利技术第一方面的第三种实现方式中,所述将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库包括:根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值;生成第二生僻字库,所述第二生僻字库用于指示已确定为生僻字的单字字符。
[0010]可选的,在本专利技术第一方面的第四种实现方式中,所述根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值包括:根据所述第一编码标准确定所述单字列表中每个单字字符的第一编码,所述第一编码标准用于表示全部中文字符;将每个单字字符的第一编码与预设范围进行比对,当目标单字字符的第一编码在所述预设范围内时,判断所述目标单字字符是否在豁免列表中;当所述目标单字字符不在所述豁免列表中时,判断所述目标单字字符是否在所述目标词列表单字集合中;当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率;当所述目标单字字符的逆频率大于所述逆频率阈值时,确定所述目标单字字符为所述单字列表中的生僻字。
[0011]可选的,在本专利技术第一方面的第五种实现方式中,所述当所述目标单字字符不在所述目标词列表单字集合中时,获取所述目标单字字符的逆频率包括:当所述目标单字字符不在所述目标词列表单字集合中时,基于预先选择的文本数据库计算所述文本数据库中单个字符的总数M,所述文本数据库保持动态更新,M为正整数;计算所述目标单字字符在所述文本数据库中出现的次数N,N为非负整数;根据所述总数M和所述次数N确定所述目标单字字符的逆频率F,其中,F=log(M/N)。
[0012]可选的,在本专利技术第一方面的第六种实现方式中,在所述根据所述第一生僻字库和所述第二生僻字库计算生僻字总数之后,还包括:当所述生僻字总数大于0时,将所述目标文本中的每个生僻字进行标记。
[0013]本专利技术第二方面提供了一种生僻字检测装置,包括:拆分模块,用于获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;第一检测模块,用于将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;第二检测模块,用于将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;计算模块,用于根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。
[0014]可选的,在本专利技术第二方面的第一种实现方式中,所述第一检测模块包括:拆分子模块,用于将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;第一检测子模块,用于根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标
准;移除生成子模块,用于将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。
[0015]可选的,在本专利技术第二方面的第二种实现方式中,所述第一检测子模块具体用于:根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。
[0016]可选的,在本专利技术第二本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种生僻字检测方法,其特征在于,包括:获取目标文本,调用预置的分词工具将所述目标文本进行拆分,得到单字列表和词列表;将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库;将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库;根据所述第一生僻字库和所述第二生僻字库计算生僻字总数。2.根据权利要求1所述的生僻字检测方法,其特征在于,所述将所述词列表根据第一检测标准进行检测,得到目标词列表单字集合和第一生僻字库,包括:将所述词列表中的单词拆分为至少两个词列表单字,将所述至少两个词列表单字合并为初始词列表单字集合;根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准;将已确定为生僻字的目标词列表单字从所述初始词列表单字集合中移除,得到目标词列表单字集合,并生成第一生僻字库,所述第一生僻字库用于指示已确定为生僻字的目标词列表单字。3.根据权利要求2所述的生僻字检测方法,其特征在于,所述根据第一检测标准检测所述初始词列表单字集合中的每个词列表单字,将满足所述第一检测标准的目标词列表单字确定为所述初始词列表单字集合中的生僻字,所述第一检测标准包括第一编码标准和第二编码标准,包括:根据第一编码标准确定所述初始词列表单字集合中每个词列表单字的第一编码,所述第一编码标准用于表示全部中文字符;将每个词列表单字的第一编码与预设范围进行比对,当目标词列表单字的第一编码在所述预设范围内时,将所述目标词列表单字基于第二编码标准进行转码,所述第二编码标准用于表示常用中文字符;若所述目标词列表单字基于所述第二编码标准转码失败,则确定所述目标词列表单字为所述词列表单字集合中的生僻字。4.根据权利要求1所述的生僻字检测方法,其特征在于,所述将所述单字列表根据第二检测标准和所述目标词列表单字集合进行检测,得到第二生僻字库,包括:根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不在所述目标词列表单字集合中的目标单字字符确定为所述单字列表中的生僻字,所述第二检测标准包括第一编码标准、豁免列表和逆频率阈值;生成第二生僻字库,所述第二生僻字库用于指示已确定为生僻字的单字字符。5.根据权利要求4所述的生僻字检测方法,其特征在于,所述根据第二检测标准和所述目标词列表单字集合检测所述单字列表中的每个单字字符,将满足所述第二检测标准并且不...
【专利技术属性】
技术研发人员:陈凡,
申请(专利权)人:平安国际智慧城市科技股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。