一种中文分词方法、装置以及搜索词库读取方法制造方法及图纸

技术编号:29255316 阅读:23 留言:0更新日期:2021-07-13 17:26
为了克服现有技术的不足,本发明专利技术提供了一种中文分词方法、装置以及搜索词库读取方法,包括:根据输入的最大词长,对待分词语句进行分词,得到第一次分词结果;将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果;将第一次分词结果直至第N次分词结果分别与词库比较,得到输出列表。本发明专利技术能够准确的对待分词语句进行分词,尤其能够提升位于待分词语句中间的固定词语的识别率。本发明专利技术所述的方法具有分词效率高,分词结果准确的优点。

【技术实现步骤摘要】
一种中文分词方法、装置以及搜索词库读取方法
本专利技术涉及计算机
,特别是一种中文分词方法及装置、系统、电子装置、可存储介质及搜索词库读取方法。
技术介绍
分词技术属于自然语言理解技术的范畴,是语义理解的首要环节,它是能将语句中的词语正确切分开的一种技术。它是文本分类,信息检索,机器翻译,自动标引,文本的语音输入输出等领域的基础。而由于中文本身的复杂性及其书写习惯,使中文分词技术成为了分词技术中的难点。中文分词基本算法近年来人们对中文分词技术有了一定的研究,提出了多种多样的中文分词算法。目前的基于词典的方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的机器词典”中的词条进行匹配,若在词典中找到某个字符串,则匹配成功。按照扫描方向的不同,该分词方法可以分为正向匹配和逆向匹配;按照长度的不同,可以分为最大匹配和最小匹配。其中,正向最大匹配算法思想:(1)从左往右取待切分汉语句的m个字符作为匹配字段,其中m为机器可读词典中最长词条的汉字个数。(2)查找机器可读词典并进行匹配。若匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最后一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。逆向最大匹配算法思想:该算法是对正向最大匹配算法的逆向思维,主要是从右往左对字符串进行最大匹配。匹配成功,则将这个匹配字段作为一个词切分出来;若匹配不成功,则将这个匹配字段的最前一个字去掉,剩下的字符串作为新的匹配字段,进行再次匹配。重复以上过程,直到切分出所有词为止。实验表明逆向最大匹配算法效果要优于正向最大匹配算法。可见,对于正向最大匹配算法思想和逆向最大匹配算法思想而言,需要对待分词语句进行增加或者减少一个单字直至剩下一个单字再终止的过程,在这个过程中,如果遇到固定词汇在中间时,可能会出现误分词,影响分词结果的准确性。
技术实现思路
为了克服现有技术的不足,本专利技术提供了中文分词方法、装置以及搜索词库读取方法,用于解决前述技术问题中的至少一个。具体地,其技术方案如下:一种中文分词方法,包括:根据输入的最大词长,对待分词语句进行分词,得到第一次分词结果;将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果;将第一次分词结果直至第N次分词结果分别与词库比较,得到输出列表。所述“根据输入的最大词长,对待分词语句进行分词”,包括:人为输入最大词长的长度,并进行标记,得到标记词长;对所述待分词语句按照标记词长的长度进行分词,得到第一次分词结果;将所述第一次分词结果与所述词库进行对比,得到所述待分词语句中的最长词。所述“对所述待分词语句按照标记词长的长度进行分词,得到第一次分词结果”,包括:根据语意顺序,以所述标记词长的长度正向分解所述待分词语句,得到正向分解后的分词结果;根据语意顺序,以所述标记词长的长度逆向分解所述待分词语句,得到逆向分解后的分词结果;将所述正向分解后的分词结果和逆向分解后的分词结果同时与所述词库进行比较,得到第一次分词结果。所述“将所述第一次分词结果与所述词库进行对比,得到所述待分词语句中的最长词”,包括:将所述第一次分词结果与所述词库中的数据进行对比:当所述第一次分词结果中的某一个词在所述词库中存在,则将该词输出至输出列表,作为所述待分词语句中的最长词。所述“将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果”,包括:在所述最大词长的长度逐渐减少时,判断所述最大词长改变后的长度;通过改变后的所述最大词长确定本次分词的长度;根据语意顺序,以本次分词的长度为准,正向分解所述待分词语句,得到本次正向分解后的分词结果;根据语意顺序,以本次分词的长度为准,逆向分解所述待分词语句,得到本次逆向分解后的分词结果;将所述本次正向分解后的分词结果和本次逆向分解后的分词结果同时与所述词库进行比较,得到本次分词结果。所述“在所述最大词长的长度逐渐减少时,判断所述最大词长改变后的长度”,包括:将所述最大词长的长度依次减少,得到改变后的标记词长;对所述改变后的标记词长进行长度判断:若,所述改变后的标记词长等于零,则,将退出;若,所述改变后的标记词长大于等于1,则,继续将所述最大词长的长度减少,以进行下一轮的分词。一种搜索词库读取方法,包括:以上述的中文分词方法作为分词原则;将所述分词原则存储到数据库中;利用搜索引擎实施实时调用所述数据库,完成词库搜索。一种中文分词系统,包括:输入模块,用于采集待分词语句以及分词时的最大词长;第一分词模块,与所述输入模块数据交换,用于根据输入的最大词长对待分词语句进行分词,得到第一次分词结果;逐步分词模块,与所述第一次分词模块数据交换,用于将所述最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果;处理模块,与所述第一分词模块和所述逐步分词模块进行数据交换,用于将第一次分词结果直至第N次分词结果分别与词库比较,得到输出列表;词库模块,与所述处理模块数据交换,用于根据所述输出列表更新词库内容。一种中文分词电子装置,包括:存储介质,用于存储计算机程序,处理单元,与所述存储介质进行数据交换,用于在进行分词时,通过所述处理单元执行所述计算机程序,进行如上所述的中文分词方法的步骤。一种计算机可读存储介质,所述计算机可读存储介质内存储有计算机程序;所述计算机程序在运行时,执行如上所述的中文分词方法的步骤。本专利技术至少具有以下有益效果:本专利技术所述的中文分词方法,根据输入的最大词长,对待分词语句进行第一次分词,得到第一次分词结果;然后,将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行一次分词过程,以此方式得到第N次分词结果;将第一次分词结果直至第N次分词结果分别与词库比较,得到输出列表;所述词库与所述输出列表进行匹配,以更新词库;通过本专利技术所述的方法,能够准确的对待分词语句进行分词,尤其能够提升位于待分词语句中间的固定词语的识别率。本专利技术所述的方法具有分词效率高,分词结果准确的优点。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术的流程图。图2为第一次分词的流程图。图3为获得第一次分词结果的流程图。图4为最本文档来自技高网
...

【技术保护点】
1.一种中文分词方法,其特征在于,包括:/n根据输入的最大词长,对待分词语句进行分词,得到第一次分词结果;/n将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果,N=2,3……;/n将第一次分词结果直至第N次分词结果分别与词库比较,得到输出列表。/n

【技术特征摘要】
1.一种中文分词方法,其特征在于,包括:
根据输入的最大词长,对待分词语句进行分词,得到第一次分词结果;
将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果,N=2,3……;
将第一次分词结果直至第N次分词结果分别与词库比较,得到输出列表。


2.根据权利要求1所述的一种中文分词方法,其特征在于,所述“根据输入的最大词长,对待分词语句进行分词”,包括:
人为输入最大词长的长度,并进行标记,得到标记词长;
对所述待分词语句按照标记词长的长度进行分词,得到第一次分词结果;
将所述第一次分词结果与所述词库进行对比,得到所述待分词语句中的最长词。


3.根据权利要求2所述的一种中文分词方法,其特征在于,所述“对所述待分词语句按照标记词长的长度进行分词,得到第一次分词结果”,包括:
根据语意顺序,以所述标记词长的长度正向分解所述待分词语句,得到正向分解后的分词结果;
根据语意顺序,以所述标记词长的长度逆向分解所述待分词语句,得到逆向分解后的分词结果;
将所述正向分解后的分词结果和逆向分解后的分词结果同时与所述词库进行比较,得到第一次分词结果。


4.根据权利要求2所述的一种中文分词方法,其特征在于,所述“将所述第一次分词结果与所述词库进行对比,得到所述待分词语句中的最长词”,包括:
将所述第一次分词结果与所述词库中的数据进行对比:
当所述第一次分词结果中的某一个词在所述词库中存在,则将该词输出至输出列表,作为所述待分词语句中的最长词。


5.根据权利要求1所述的一种中文分词方法,其特征在于,所述“将最大词长的长度逐渐减少,并且在每一次最大词长发生变化时,都对所述待分词语句进行分词,得到第N次分词结果”,包括:
在所述最大词长的长度逐渐减少时,判断所述最大词长改变后的长度;
通过改变后的所述最大词长确定本次分词的长度;
根据语意顺序,以本次分词的长度为准,正向分解所述待分词语句,得到本次正向分解后的分词结果;
根据语意顺序,以本次分词的长度为准...

【专利技术属性】
技术研发人员:叶群莉魏文华李彩秀刘宁农翠华
申请(专利权)人:深圳华南城网科技有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1