一种基于信息论的中文自动分词算法制造技术

技术编号:15267591 阅读:216 留言:0更新日期:2017-05-04 02:18
一种基于信息论的中文自动分词算法,将待分词句子和已经初始化成功的语料库中的词进行对比匹配,根据概率统计学,将待分词句子拆分为网状结构,利用信息论方法求解网状结构中每条边的权值,权重最大的一条路径,即为待分词句子的分词结果,利用准确率可召回率判定分词效果。本发明专利技术中中文预处理的速度较基于分词词典的方法快;较基于分词词典的方法精度更高;较基于统计学方法有更好的准确度;实用性更大,更符合经验值;为后续自然语言处理技术提供了极大的应用价值。

A Chinese word segmentation algorithm based on information theory

A Chinese automatic segmentation algorithm based on information theory, comparison, the word sentence and has successfully initialized the corpus of words, according to the statistics, the word sentence is split into network structure, the use of information on each method in the network structure of the edge weights, a path of the greatest weight, is to be word sentence segmentation results, the accuracy rate of the recall rate to determine the segmentation effect. The invention of the Chinese pretreatment method based on dictionary speed is fast; a precision method based on dictionary is higher; based on statistical method has better accuracy; more practical, more in line with the experience value; provide great value for subsequent Natural Language Processing technology.

【技术实现步骤摘要】

本专利技术涉及中文语义网络
,具体涉及一种基于信息论的中文自动分词算法
技术介绍
现阶段基于理解的中文分词算法目前还处于试验阶段,基于分词词典和基于概率统计的方法成为当前中文自动分词技术的主流。基于分词词典的方法移植简单、无需考虑不同领域间移植的自适应性问题;但是这类方法对自动分词过程中所产生的歧义分析以及命名实体识别等问题的处理还相对欠缺。基于统计的方法依托于强大的数学统计模型,在分词性能方面有了很大的提高,但是在跨领域方面效果不好,对训练语料的依赖性比较大,需要针对不同的领域,准备不同的训练语料来训练不同的领域统计分词模型。这样导致在领域变换后,必须为它们提供相应领域的分词训练语料。然而,进行分词训练所需要的标注语料的建立和维护需要大量的人力和物力,相比之下,基于分词词典的方法在领域自适应方面存在着一定优势。当目标分词领域改变时,基于词典的方法只需要加入相应领域的词典即可,领域词典的获取相比训练语料而言也要容易很多,因此将分词词典和概率统计的方法结合使用成为当前分词的主流。为了实现中文自动分词功能以及提高分词结果的准确度,本专利技术提出了一种基于信息论的中文自动分词算法。
技术实现思路
为实现中文自动分词功能以及针对分词结果的准确性不高问题,本专利技术提供了一种基于信息论的中文自动分词算法。为了解决上述问题,本专利技术是通过以下技术方案实现的:步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词。步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E。步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值。步骤5:找到权值最大的一条路径,即为待分词句子的分词结果。步骤6:验证此分词结果的准确率和召回率。本专利技术有益效果是:1、中文预处理的速度较基于分词词典的方法快。2、此方法较基于分词词典的方法有更好的精度。3、此方法较基于统计学方法有更好的准确度。4、此方法实用性更大,更符合经验值。5、此方法为后续自然语言处理技术提供了极大地应用价值。附图说明图1一种基于信息论的中文自动分词算法结构流程图图2n元语法分词算法图解具体实施方式为了提高中文自动分词的准确性,结合图1-图2对本专利技术进行了详细说明,其具体实施步骤如下:步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型。步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词,其具体描述如下:把待分词的汉字串完整的扫描一遍,在系统的词典里进行查找匹配,遇到字典里有的词就标识出来;如果词典中不存在相关匹配,就简单地分割出单字作为词;直到汉字串为空。步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为SM1M2M3M4M5E,其结构图如图2所示。步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:根据《分词词典》匹配出的字典词与未匹配的单个词,第i条路径包含词的个数为ni。即n条路径词的个数集合为(n1,n2,…,nn)。得min()=min(n1,n2,…,nn)在上述留下的剩下的(n-m)路径中,求解每条相邻路径的权重大小。在统计语料库中,计算每个词的信息量X(Ci),再求解路径相邻词的共现信息量X(Ci,Ci+1)。既有下式:X(Ci)=|x(Ci)1-x(Ci)2|上式x(Ci)1为文本语料库中词Ci的信息量,x(Ci)2为含词Ci的文本信息量。x(Ci)1=-p(Ci)1lnp(Ci)1上式p(Ci)1为Ci在文本语料库中的概率,n为含词Ci的文本语料库的个数。x(Ci)2=-p(Ci)2lnp(Ci)2上式p(Ci)2为含词Ci的文本数概率值,N为统计语料库中文本总数。同理X(Ci,Ci+1)=|x(Ci,Ci+1)1-x(Ci,Ci+1)2|x(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现信息量,x(Ci,Ci+1)2为相邻词(Ci,Ci+1)共现的文本信息量。同理x(Ci,Ci+1)1=-p(Ci,Ci+1)1lnp(Ci,Ci+1)1上式p(Ci,Ci+1)1为在文本语料库中词(Ci,Ci+1)的共现概率,m为在文本库中词(Ci,Ci+1)共现的文本数量。x(Ci,Ci+1)2=-p(Ci,Ci+1)2lnp(Ci,Ci+1)2p(Ci,Ci+1)2为文本库中相邻词(Ci,Ci+1)共现的文本数概率。综上可得每条相邻路径的权值为w(Ci,Ci+1)=X(Ci)+X(Ci+1)-2X(Ci,Ci+1)步骤5:找到权值最大的一条路径,即为待分词句子的分词结果,其具体计算过程如下:有n条路径,每条路径长度不一样,假设路径长度集合为(L1,L2,…,Ln)。假设经过取路径中词的数量最少操作,排除了m条路径,m<n。即剩下(n-m)路径,设其路径长度集合为则每条路径权重为:上式分别为第1,2到路径边的权重值,根据步骤4可以一一计算得出,为剩下(n-m)路径中第Sj条路径的长度。权值最大的一条路径:步骤6:验证此分词结果的准确率和召回率。准确率:上式n识为《分词词典》识别待分词句子中字典词的个数,nz为此方法正确分词词的个数。召回率:上式n总为待分词句子中词的总个数。最后综合考虑这两个因子,判定此系统分词结果的正确性。即d=|zhaorate-rate|≤εε为一个很小的阈值,这个由专家给定。当d满足上述条件,则分词效果比较理想。本文档来自技高网...
一种基于信息论的中文自动分词算法

【技术保护点】
一种基于信息论的中文自动分词算法,本专利技术涉及中文语义网络技术领域,具体涉及一种基于信息论的中文自动分词算法,其特征是,包括如下步骤:步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值步骤5:找到权值最大的一条路径,即为待分词句子的分词结果步骤6:验证此分词结果的准确率和召回率准确率:上式为《分词词典》识别待分词句子中字典词的个数,为此方法正确分词词的个数召回率:上式为待分词句子中词的总个数最后综合考虑这两个因子,判定此系统分词结果的正确性即为一个很小的阈值,这个由专家给定,当d满足上述条件,则分词效果比较理想。

【技术特征摘要】
1.一种基于信息论的中文自动分词算法,本发明涉及中文语义网络技术领域,具体涉及一种基于信息论的中文自动分词算法,其特征是,包括如下步骤:步骤1:初始化训练模型,可以是《分词词典》或相关领域的语料库,或是两者结合模型步骤2:根据《分词词典》找到待分词句子中与词典中匹配的词步骤3:依据概率统计学,将待分词句子拆分为网状结构,即得n个可能组合的句子结构,把此结构每条顺序节点依次规定为步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值步骤5:找到权值最大的一条路径,即为待分词句子的分词结果步骤6:验证此分词结果的准确率和召回率准确率:上式为《分词词典》识别待分词句子中字典词的个数,为此方法正确分词词的个数召回率:上式为待分词句子中词的总个数最后综合考虑这两个因子,判定此系统分词结果的正确性即为一个很小的阈值,这个由专家给定,当d满足上述条件,则分词效果比较理想。2.根据权利要求1中所述的一种基于信息论的中文自动分词算法,其特征是,以上所述步骤4中具体计算过程如下:步骤4:基于信息论方法,给上述网状结构每条边赋予一定的权值,其具体计算过程如下:根据《分词...

【专利技术属性】
技术研发人员:金平艳胡成华
申请(专利权)人:四川用联信息技术有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1