一种基于词的关联特征的中文分词方法技术

技术编号:19511316 阅读:75 留言:0更新日期:2018-11-21 07:47
本发明专利技术涉及一种基于词的关联特征的中文分词方法,属于信息处理技术领域。本发明专利技术从文本库中选出需要处理的文本,并对文本库进行预处理,包括去符号并使其形成语句,利用去符号后的语句构建语料库。采用前后拼接词的分词方法,对步骤a1中的语料库进行分词,形成分词碎片。采用二元切分前后词拼接,三元切分前后词拼接,四元切分前后词拼接方法,形成一个二元候选词库,三元候选词库和四元候选词库。对统计好了的词频的候选词设定一个词频门限,并对其进行判决,满足此判决的保留,形成新的语料库。

【技术实现步骤摘要】
一种基于词的关联特征的中文分词方法
本专利技术涉及一种基于词的关联特征的中文分词方法,属于信息处理

技术介绍
中文分词技术属于自然语言处理技术范畴,对于一句话,人可以通过自己的知识来明白哪些是词,哪些不是词,但如何让计算机也能理解?其处理过程就是分词算法。现有的分词算法可分为三大类:基于理解的分词方法、基于字符串匹配的分词方法和传统的基于统计的分词方法。基于理解的分词方法,是通过让计算机模拟人对句子的理解,达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析,利用句法信息和语义信息来处理歧义现象。它通常包括三个部分:分词子系统、句法语义子系统、总控部分。在总控部分的协调下,分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断,即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性,难以将各种语言信息组织成机器可直接读取的形式,因此目前基于理解的分词系统还处在试验阶段。基于字符串匹配的分词方法,又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功(识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有:(1)正向最大匹配法(由左到右的方向);(2)逆向最大匹配法(由右到左的方向);(3)最少切分(使每一句中切出的词数最小)。还可以将这三种机械分词方法相互组合,例如,可以将正向最大匹配方法和逆向最大匹配方法结合起来构成双向匹配法。由于汉语单字成词的特点,正向最小匹配和逆向最小匹配一般很少使用。一般说来,逆向匹配的切分精度略高于正向匹配,遇到的歧义现象也较少。实际使用的分词系统,都是把机械分词作为一种初分手段,还需通过利用各种其它的语言信息来进一步提高切分的准确率。一种提高方法是改进扫描方式,称为特征扫描或标志切分,优先在待分析字符串中识别和切分出一些带有明显特征的词,以这些词作为断点,可将原字符串分为较小的串再来进机械分词,从而减少匹配的错误率。另一种提高方法是将分词和词类标注结合起来,利用丰富的词类信息对分词决策提供帮助,并且在标注过程中又反过来对分词结果进行检验、调整,从而极大地提高切分的准确率。上述基于字符串匹配的分词方法,也就是机械分词方法中,不管是正向最大匹配法、逆向最大匹配法还是最少切分,这些最大匹配法的目的是试图在每分一个词时都尽量使其与词典中的词匹配长度最长。最大匹配法的优点是原理简单,易于实现,缺点是最大匹配长度不易确定,若太大则时间复杂度上升,太小则有些超过该长度的词无法匹配,降低了分词的准确率。最大匹配法的评价原则是“长词优先”。然而现有的最大匹配法不论顺向还是逆向,增字或减字,都是在局部范围进行最大匹配,即每次最大匹配的范围都是最先i个或最后i个字符,这样并没有充分体现“长词优先”的原则。基于传统统计的分词方法的原理是,从形式上看,词是稳定的字的组合,因此在上下文中,相邻的字同时出现的次数越多,就越有可能构成一个词。因此字与字相邻共现的频率或概率能够较好的反映成词的可信度。可以对语料中相邻共现的各个字的组合的频度进行统计,计算它们的互现信息。定义两个字的互现信息,计算两个汉字X、Y的相邻共现概率。互现信息体现了汉字之间结合关系的紧密程度。当紧密程度高于某一个阈值时,便可认为此字组可能构成了一个词。这种方法只需对语料中的字组频度进行统计,不需要切分词典,因而又叫做无词典分词法或统计取词方法。但这种方法也有一定的局限性,会经常抽出一些共现频度高、但并不是词的常用字组,例如“这一”、“之一”、“有的”、“我的”、“许多的”等,并且对常用词的识别精度差,时空开销大。
技术实现思路
本专利技术要解决的技术问题是提供一种基于词的关联特征的中文分词方法,用以解决现有技术中无法从大规模语料中有效识别并提取词的缺陷,实现计算机系统在大规模语料中有效识别并提取词。本专利技术的技术方案是:一种基于词的关联特征的中文分词方法:a、从文本库中选出需要处理的文本,并对文本库进行预处理,包括去符号并使其形成语句,利用去符号后的语句构建语料库;b、采用前后拼接词的分词方法,对步骤1中的语料库进行分词,形成分词碎片;c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法,形成二元候选词库、三元候选词库和四元候选词库;d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词,三元候选词,四元候选词进行词频统计;e、对统计好词频的候选词设定一个词频门限,并对其进行判决,满足此门限的候选词保留,形成新的语料库,若不满足此门限的候选词则删除;f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度,并给定所有候选词一个统一的自由度和凝合度的门限,并进行判决,满足判决的候选词保留,若不满足此判决的候选词则删除;g、采用分词过滤方法,在对筛选出来的三元候选词和四元候选词进行进一步的过滤,形成新的词库。所述前后拼接词方法是指对一句中文从第一个字开始进行连续的切割分词,将其所有成词词语切割出来,具体为:对于一个中文文本所包含的文本内容假设为:{ai,ai+1,ai+2,ai+3,ai+4,ai+5.......ai-1+n,ai+n},其中,ai表示为文本中的一个字符,n∈N;采用二元切分前后词拼接方法对文本集合进行二元切分拼接处理,得到处理结果二元文本片段集合,为:{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)};采用三元切分前后词拼接方法对文本集合进行三元切分拼接处理,得到处理结果三元文本片段集合,为:{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)};采用四元切分前后词拼接方法对文本集合进行四元切分拼接处理,得到处理结果四元文本片段集合,为:{(aiai+1ai+2ai+3),(ai+1ai+2ai+3ai+4),(ai+2ai+3ai+4ai+5).......(ai-3+nai-2+nai-1+nai+n)}。所述自由度是指:当一个文本片段出现在各种不同的文本集中,且具有左邻字集合和右邻字集合,左邻字集合是指出现在文本片段左边相邻的字符的集合,右邻字集合是指出现在文本片段右边相邻的字符的集合,通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵,取左邻字集合和右邻字集合中较小信息熵作为自由度。所述自由度为得到的文本片段集合中,当一个文本片段能够出现在各种不同的文本集中,且具有左邻字集合和右邻字集合,通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵H,即,H=min{s′,s″}H表示候选词的自由度,S′表示候选词的右熵,s″为候选词的左熵,取左邻字集合和右邻字集合中较小信息熵作为自由度。所述凝合度是指在一个文本中,一个新词单独出现的概率高于其组本文档来自技高网
...

【技术保护点】
1.一种基于词的关联特征的中文分词方法,其特征在于:a、从文本库中选出需要处理的文本,并对文本库进行预处理,包括去符号并使其形成语句,利用去符号后的语句构建语料库;b、采用前后拼接词的分词方法,对步骤1中的语料库进行分词,形成分词碎片;c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法,形成二元候选词库、三元候选词库和四元候选词库;d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词,三元候选词,四元候选词进行词频统计;e、对统计好词频的候选词设定一个词频门限,并对其进行判决,满足此门限的候选词保留,形成新的语料库,若不满足此门限的候选词则删除;f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度,并给定所有候选词一个统一的自由度和凝合度的门限,并进行判决,满足判决的候选词保留,若不满足此判决的候选词则删除;g、采用分词过滤方法,在对筛选出来的三元候选词和四元候选词进行进一步的过滤,形成新的词库。

【技术特征摘要】
1.一种基于词的关联特征的中文分词方法,其特征在于:a、从文本库中选出需要处理的文本,并对文本库进行预处理,包括去符号并使其形成语句,利用去符号后的语句构建语料库;b、采用前后拼接词的分词方法,对步骤1中的语料库进行分词,形成分词碎片;c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法,形成二元候选词库、三元候选词库和四元候选词库;d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词,三元候选词,四元候选词进行词频统计;e、对统计好词频的候选词设定一个词频门限,并对其进行判决,满足此门限的候选词保留,形成新的语料库,若不满足此门限的候选词则删除;f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度,并给定所有候选词一个统一的自由度和凝合度的门限,并进行判决,满足判决的候选词保留,若不满足此判决的候选词则删除;g、采用分词过滤方法,在对筛选出来的三元候选词和四元候选词进行进一步的过滤,形成新的词库。2.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述前后拼接词方法是指对一句中文从第一个字开始进行连续的切割分词,将其所有成词词语切割出来,具体为:对于一个中文文本所包含的文本内容假设为:{ai,ai+1,ai+2,ai+3,ai+4,ai+5.......ai-1+n,ai+n},其中,ai表示为文本中的一个字符,n∈N;采用二元切分前后词拼接方法对文本集合进行二元切分拼接处理,得到处理结果二元文本片段集合,为:{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)};采用三元切分前后词拼接方法对文本集合进行三元切分拼接处理,得到处理结果三元文本片段集合,为:{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)};采用四元切分前后词拼接方法对文本集合进行四元切分拼接处理,得到处理结果四元文本片段集合,为:{(aiai+1ai+2ai+3),(ai+1ai+2ai+3ai+4),(ai+2ai+3ai+4ai+5).......(ai-3+nai-2+nai-1+nai+n)}。3.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述自由度是指:当一个文本片段出现在各种不同的文本集中,且具有左邻字集合和右邻字集合,左邻字集合是指出现在文本片段左边相邻的字符的集合,右邻字集合是指出现在文本片段右边相邻的字符的集合,通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵,取左邻字集合和右邻字集合中较小信息熵作为自由度。4.根据权利要求3所述的基于词的关联特征的中文分词方法,其特征在于:所述自由度为得到的文本片段集合中,当一个文本片段能够出现在各种不同的文本集中,且具有左邻字集合和右邻字集合,通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵H,即,H=min{s',s”},H表示候选词的自由度,S'表示候选词的右熵,s”为候选词的左熵,取左邻字集合和右邻字集合中较小信息熵作为自由度。5.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述凝合度是指在一个文本中,一个新词单独出现的概率高于其组合词的概率的乘积,即P(AB)>P(A)P(B),令取最小的M为凝合度,其中AB表示一个新词,P(AB)表示新词在文本中出现的概率,A和B分别指代一个组合词,P(A)和P(B)分别代表组合词在文本中出现的概率。6.根据权利要求1所述的基于词的关联特征的中文分词方法,其特征在于:所述统计候选词的凝合度是通过计算语料中候选词的独立概率和联合概率的比值得到,具体步骤为:(...

【专利技术属性】
技术研发人员:龙华李康康邵玉斌
申请(专利权)人:昆明理工大学
类型:发明
国别省市:云南,53

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1