一种中文文字显示方法及系统技术方案

技术编号:23891732 阅读:35 留言:0更新日期:2020-04-22 06:45
本申请实施例提供了一种中文文字显示方法及系统,该方法包括:接收用户输入的文本段;根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。采用本申请,可以高效、准确的识别出多种类型的文字错误。

A Chinese text display method and system

【技术实现步骤摘要】
一种中文文字显示方法及系统
本专利技术涉及计算机
,特别是涉及一种中文文字显示方法及系统。
技术介绍
用户可以通过多种方式在电子设备中输入文字,比如通过各类输入法输入文字、通过电子设备配置的屏幕或触摸板手写输入文字、以及通过复制电子设备中已有文字,在文字编辑软件中粘贴得到文字等。由于用户输入的文字会存在多种文字错误,比如用户通过拼音输入法输入文字时,输入与正确字拼音相同的其他字而产生的错别字;用户在通过电子设备配置的屏幕或触摸板手写输入文字时,电子设备中预设的文字处理软件将用户输入的文字识别为与正确字的字形接近的其他字,而产生的形近字错误;用户在当前文档中粘贴从其他文档中复制的文本段时,由于电子设备发生读取错误,使得粘贴的文本段与复制或者剪切的文本段相比,多了字时产生的多余字错误,或者少了字时产生的缺少字错误。目前,用户只能通过逐字检查输入的文本段,以发现文字错误。然而,用户逐字检查文本段以发现文字错误的方式,既浪费时间,准确率也低,因此,亟需能够高效、准确的识别出多种类型的文字错误的方法。
技术实现思路
本专利技术实施例的目的在于提供一种中文文字显示方法及系统,以高效、准确的识别出多种类型的文字错误。具体技术方案如下:第一方面,提供了一种中文文字显示方法,所述方法包括:接收用户输入的文本段;根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。可选的,所述在预先存储的数据库中,判断是否存在所述第一子词组合,包括:在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;在所述多个子词组合中,判断是否存在所述第一子词组合。可选的,所述在所述第一句子的多个分词中获取第一字组合,包括:根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。可选的,所述在所述第一句子的多个分词中获取第一子词组合,包括:在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。可选的,所述在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,包括:通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;在所述子词组合中,确定满足预设组合形式的子词组合。可选的,所述预设组合形式包括以一种或多种:由两个单字、以及一个包含至少两个单字的子词顺序组成;由两个包含至少包括两个单字的子词顺序组成;由一个包含至少两个单字的子词、以及两个单字顺序组成;由一个包含至少两个单字的子词、以及一个单字顺序组成;由一个单字、以及一个包含至少两个单字的子词顺序组成。可选的,所述方法还包括:获取样本文档,所述样本文档为不存在文字错误的文档;根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;在预设的数据库中存储所述第二字组合和所述第二子词组合。第二方面,提供了一种中文文字显示系统,所述系统包括:接收模块,用于接收用户输入的文本段;第一切词模块,用于根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;第一获取模块,用于针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;判断模块,用于在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;显示模块,用于当所述第一字组合和/或所述第一子词组合不存在时,显示存在文字错误的消息。可选的,所述判断模块包括:第一确定子模块,用于在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;判断子模块,用于在所述多个子词组合中,判断是否存在所述第一子词组合。可选的,所述第一获取模块包括:获取子模块,用于根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。可选的,所述第一获取模块还包括:查找子模块,用于在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;第二确定子模块,用于在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。可选的,所述第二确定子模块包括:第三确定子模块,用于通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;第四确定子模块,用于确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;第五确定子模块,用于在所述子词组合中,确定满足预设组合形式的子词组合。可选的,所述预设组合形式包括以一种或多种:由两个单字、以及一个包含至少两个单字的子词顺序组成;由两个包含至少包括两个单字的子词顺序组成;由一个包含至少两个单字的子词、以及两个单字顺序组成;由一个包含至少两个单字的子词、以及一个单字顺序组成;由一个单字、以及一个包含至少两个单字的子词顺序组成。可选的,所述系统还包括:第二获取模块,用于获取样本文档,所述样本文档为不存在文字错误的文档;第二切词模块,用于根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;第三获取模块,用于针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;存储模块,用于在预设的数据库中存储所述第二字组合和所述第二子词组合。第三方面,提供了一种电子设备,包括处理器、通信接口、存储器和通信总线,其中,处理器,通信接口,存储器通过通信总线完成相互间的通信;存储器,用于存放计算机程序;处理器,用于执行存储器上所存放的程序时,实现第一方面所述的本文档来自技高网...

【技术保护点】
1.一种中文文字显示方法,其特征在于,所述方法包括:/n接收用户输入的文本段;/n根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;/n针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;/n在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;/n如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。/n

【技术特征摘要】
1.一种中文文字显示方法,其特征在于,所述方法包括:
接收用户输入的文本段;
根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
针对所述每个第一句子,在所述第一句子的多个分词中获取第一字组合和第一子词组合,其中,所述第一字组合由所述第一句子中无法组成词的连续多个单字组成,所述第一子词组合为所述第一句子中满足预设的筛选规则的子词组合;
在预先存储的数据库中,判断是否存在所述第一字组合或所述第一子词组合;
如果所述第一字组合和/或所述第一子词组合不存在,则显示存在文字错误的消息。


2.根据权利要求1所述的方法,其特征在于,所述在预先存储的数据库中,判断是否存在所述第一子词组合,包括:
在预先存储的数据库中,确定与所述第一子词组合的拼音相同的多个子词组合;
在所述多个子词组合中,判断是否存在所述第一子词组合。


3.根据权利要求1所述的方法,其特征在于,所述在所述第一句子的多个分词中获取第一字组合,包括:
根据预设的中文拼写语法检查算法,在所述第一句子的多个分词中,获取第一字组合。


4.根据权利要求1所述的方法,其特征在于,所述在所述第一句子的多个分词中获取第一子词组合,包括:
在预先存储的子词表中,查找所述第一句子的多个分词对应的子词;
在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,得到所述第一子词组合。


5.根据权利要求4所述的方法,其特征在于,所述在所述多个分词对应的子词中,通过预设的同音字算法确定满足预设组合形式的子词组合,包括:
通过预设的同音字算法,在所述多个分词对应的子词中,确定无子词的分词和开头子词,其中,所述开头子词为有子词的分词中的第一个子词;
确定由相邻的所述无子词的分词和所述开头子词构成子词组合、以及相邻的两个所述无子词的分词构成子词组合;
在所述子词组合中,确定满足预设组合形式的子词组合。


6.根据权利要求4所述的方法,其特征在于,所述预设组合形式包括以下一种或多种:
由两个单字、以及一个包含至少两个单字的子词顺序组成;
由两个包含至少包括两个单字的子词顺序组成;
由一个包含至少两个单字的子词、以及两个单字顺序组成;
由一个包含至少两个单字的子词、以及一个单字顺序组成;
由一个单字、以及一个包含至少两个单字的子词顺序组成。


7.根据权利要求1所述的方法,其特征在于,所述方法还包括:
获取样本文档;
根据预设的切词算法,对所述样本文档进行切词,得到多个第二句子,以及每个第二句子包含的多个分词;
针对所述每个第二句子,在所述第二句子的多个分词中获取第二字组合和第二子词组合;
在预设的数据库中存储所述第二字组合和所述第二子词组合。


8.一种中文文字显示系统,其特征在于,所述系统包括:
接收模块,用于接收用户输入的文本段;
第一切词模块,用于根据预设的切词算法,对所述文本段进行切词,得到多个第一句子,以及每个第一句子包含的多个分词;
第一获取模块,用于针对所述每个第一句子,在所述第一句子的多个分词中获取第一字...

【专利技术属性】
技术研发人员:辛洋姚冬
申请(专利权)人:北京金山办公软件股份有限公司珠海金山办公软件有限公司广州金山移动科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1