一种基于词的关联特征的中文分词方法技术

技术编号：19511316 阅读：75 留言：0更新日期：2018-11-21 07:47

本发明专利技术涉及一种基于词的关联特征的中文分词方法，属于信息处理技术领域。本发明专利技术从文本库中选出需要处理的文本，并对文本库进行预处理，包括去符号并使其形成语句，利用去符号后的语句构建语料库。采用前后拼接词的分词方法，对步骤a1中的语料库进行分词，形成分词碎片。采用二元切分前后词拼接，三元切分前后词拼接，四元切分前后词拼接方法，形成一个二元候选词库，三元候选词库和四元候选词库。对统计好了的词频的候选词设定一个词频门限，并对其进行判决，满足此判决的保留，形成新的语料库。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于词的关联特征的中文分词方法
本专利技术涉及一种基于词的关联特征的中文分词方法，属于信息处理

技术介绍
中文分词技术属于自然语言处理技术范畴，对于一句话，人可以通过自己的知识来明白哪些是词，哪些不是词，但如何让计算机也能理解？其处理过程就是分词算法。现有的分词算法可分为三大类：基于理解的分词方法、基于字符串匹配的分词方法和传统的基于统计的分词方法。基于理解的分词方法，是通过让计算机模拟人对句子的理解，达到识别词的效果。其基本思想就是在分词的同时进行句法、语义分析，利用句法信息和语义信息来处理歧义现象。它通常包括三个部分：分词子系统、句法语义子系统、总控部分。在总控部分的协调下，分词子系统可以获得有关词、句子等的句法和语义信息来对分词歧义进行判断，即它模拟了人对句子的理解过程。这种分词方法需要使用大量的语言知识和信息。由于汉语语言知识的笼统、复杂性，难以将各种语言信息组织成机器可直接读取的形式，因此目前基于理解的分词系统还处在试验阶段。基于字符串匹配的分词方法，又叫做机械分词方法，它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配，若在词典中找到某个字符串，则匹配成功(识别出一个词)。按照扫描方向的不同，串匹配分词方法可以分为正向匹配和逆向匹配；按照不同长度优先匹配的情况，可以分为最大(最长)匹配和最小(最短)匹配；按照是否与词性标注过程相结合，又可以分为单纯分词方法和分词与标注相结合的一体化方法。常用的几种机械分词方法有：(1)正向最大匹配法(由左到右的方向)；(2)逆向最大匹配法(由右到左的方向)；(3)最少切分(...

【技术保护点】
1.一种基于词的关联特征的中文分词方法，其特征在于：a、从文本库中选出需要处理的文本，并对文本库进行预处理，包括去符号并使其形成语句，利用去符号后的语句构建语料库；b、采用前后拼接词的分词方法，对步骤1中的语料库进行分词，形成分词碎片；c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法，形成二元候选词库、三元候选词库和四元候选词库；d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词，三元候选词，四元候选词进行词频统计；e、对统计好词频的候选词设定一个词频门限，并对其进行判决，满足此门限的候选词保留，形成新的语料库，若不满足此门限的候选词则删除；f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度，并给定所有候选词一个统一的自由度和凝合度的门限，并进行判决，满足判决的候选词保留,若不满足此判决的候选词则删除；g、采用分词过滤方法，在对筛选出来的三元候选词和四元候选词进行进一步的过滤，形成新的词库。

【技术特征摘要】
1.一种基于词的关联特征的中文分词方法，其特征在于：a、从文本库中选出需要处理的文本，并对文本库进行预处理，包括去符号并使其形成语句，利用去符号后的语句构建语料库；b、采用前后拼接词的分词方法，对步骤1中的语料库进行分词，形成分词碎片；c、采用二元切分前后词拼接方法、三元切分前后词拼接方法、四元切分前后词拼接方法，形成二元候选词库、三元候选词库和四元候选词库；d、对二元候选词库、三元候选词库和四元候选词库中的二元候选词，三元候选词，四元候选词进行词频统计；e、对统计好词频的候选词设定一个词频门限，并对其进行判决，满足此门限的候选词保留，形成新的语料库，若不满足此门限的候选词则删除；f、计算出步骤5处理后的语料库中的候选词的自由度和凝合度，并给定所有候选词一个统一的自由度和凝合度的门限，并进行判决，满足判决的候选词保留,若不满足此判决的候选词则删除；g、采用分词过滤方法，在对筛选出来的三元候选词和四元候选词进行进一步的过滤，形成新的词库。2.根据权利要求1所述的基于词的关联特征的中文分词方法，其特征在于：所述前后拼接词方法是指对一句中文从第一个字开始进行连续的切割分词，将其所有成词词语切割出来，具体为：对于一个中文文本所包含的文本内容假设为：{ai,ai+1,ai+2,ai+3,ai+4,ai+5.......ai-1+n,ai+n},其中，ai表示为文本中的一个字符，n∈N；采用二元切分前后词拼接方法对文本集合进行二元切分拼接处理，得到处理结果二元文本片段集合，为：{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)}；采用三元切分前后词拼接方法对文本集合进行三元切分拼接处理，得到处理结果三元文本片段集合，为：{(aiai+1),(ai+1ai+2),(ai+2ai+3),(ai+3ai+4),ai+5.......(ai-1+nai+n)}；采用四元切分前后词拼接方法对文本集合进行四元切分拼接处理，得到处理结果四元文本片段集合，为：{(aiai+1ai+2ai+3),(ai+1ai+2ai+3ai+4),(ai+2ai+3ai+4ai+5).......(ai-3+nai-2+nai-1+nai+n)}。3.根据权利要求1所述的基于词的关联特征的中文分词方法，其特征在于：所述自由度是指：当一个文本片段出现在各种不同的文本集中，且具有左邻字集合和右邻字集合，左邻字集合是指出现在文本片段左边相邻的字符的集合，右邻字集合是指出现在文本片段右边相邻的字符的集合，通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵，取左邻字集合和右邻字集合中较小信息熵作为自由度。4.根据权利要求3所述的基于词的关联特征的中文分词方法，其特征在于：所述自由度为得到的文本片段集合中，当一个文本片段能够出现在各种不同的文本集中，且具有左邻字集合和右邻字集合，通过计算左邻字集合和右邻字集合的信息熵获取一个文本片段的信息熵H，即，H＝min{s',s”}，H表示候选词的自由度，S'表示候选词的右熵，s”为候选词的左熵，取左邻字集合和右邻字集合中较小信息熵作为自由度。5.根据权利要求1所述的基于词的关联特征的中文分词方法，其特征在于：所述凝合度是指在一个文本中，一个新词单独出现的概率高于其组合词的概率的乘积，即P(AB)>P(A)P(B)，令取最小的M为凝合度，其中AB表示一个新词，P(AB)表示新词在文本中出现的概率，A和B分别指代一个组合词，P(A)和P(B)分别代表组合词在文本中出现的概率。6.根据权利要求1所述的基于词的关联特征的中文分词方法，其特征在于：所述统计候选词的凝合度是通过计算语料中候选词的独立概率和联合概率的比值得到，具体步骤为：(...

【专利技术属性】
技术研发人员：龙华，李康康，邵玉斌，
申请(专利权)人：昆明理工大学，
类型：发明
国别省市：云南,53

全部详细技术资料下载我是这个专利的主人