一种基于信息论的中文自动分词算法制造技术

技术编号：15267591 阅读：218 留言：0更新日期：2017-05-04 02:18

一种基于信息论的中文自动分词算法，将待分词句子和已经初始化成功的语料库中的词进行对比匹配，根据概率统计学，将待分词句子拆分为网状结构，利用信息论方法求解网状结构中每条边的权值，权重最大的一条路径，即为待分词句子的分词结果，利用准确率可召回率判定分词效果。本发明专利技术中中文预处理的速度较基于分词词典的方法快；较基于分词词典的方法精度更高；较基于统计学方法有更好的准确度；实用性更大，更符合经验值；为后续自然语言处理技术提供了极大的应用价值。

A Chinese word segmentation algorithm based on information theory

A Chinese automatic segmentation algorithm based on information theory, comparison, the word sentence and has successfully initialized the corpus of words, according to the statistics, the word sentence is split into network structure, the use of information on each method in the network structure of the edge weights, a path of the greatest weight, is to be word sentence segmentation results, the accuracy rate of the recall rate to determine the segmentation effect. The invention of the Chinese pretreatment method based on dictionary speed is fast; a precision method based on dictionary is higher; based on statistical method has better accuracy; more practical, more in line with the experience value; provide great value for subsequent Natural Language Processing technology.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及中文语义网络
，具体涉及一种基于信息论的中文自动分词算法。
技术介绍
现阶段基于理解的中文分词算法目前还处于试验阶段，基于分词词典和基于概率统计的方法成为当前中文自动分词技术的主流。基于分词词典的方法移植简单、无需考虑不同领域间移植的自适应性问题；但是这类方法对自动分词过程中所产生的歧义分析以及命名实体识别等问题的处理还相对欠缺。基于统计的方法依托于强大的数学统计模型，在分词性能方面有了很大的提高，但是在跨领域方面效果不好，对训练语料的依赖性比较大，需要针对不同的领域，准备不同的训练语料来训练不同的领域统计分词模型。这样导致在领域变换后，必须为它们提供相应领域的分词训练语料。然而，进行分词训练所需要的标注语料的建立和维护需要大量的人力和物力，相比之下，基于分词词典的方法在领域自适应方面存在着一定优势。当目标分词领域改变时，基于词典的方法只需要加入相应领域的词典即可，领域词典的获取相比训练语料而言也要容易很多，因此将分词词典和概率统计的方法结合使用成为当前分词的主流。为了实现中文自动分词功能以及提高分词结果的准确度，本专利技术提出了一种基于信息论的中文自动分词算法。
技术实现思路
为实现中文自动分词功能以及针对分词结果的准确性不高问题，本专利技术提供了一种基于信息论的中文自动分词算法。为了解决上述问题，本专利技术是通过以下技术方案实现的：步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型。步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词。步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合...
一种基于信息论的中文自动分词算法

【技术保护点】
一种基于信息论的中文自动分词算法，本专利技术涉及中文语义网络技术领域，具体涉及一种基于信息论的中文自动分词算法，其特征是，包括如下步骤：步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值步骤5：找到权值最大的一条路径，即为待分词句子的分词结果步骤6：验证此分词结果的准确率和召回率准确率：上式为《分词词典》识别待分词句子中字典词的个数，为此方法正确分词词的个数召回率：上式为待分词句子中词的总个数最后综合考虑这两个因子，判定此系统分词结果的正确性即为一个很小的阈值，这个由专家给定，当d满足上述条件，则分词效果比较理想。

【技术特征摘要】
1.一种基于信息论的中文自动分词算法，本发明涉及中文语义网络技术领域，具体涉及一种基于信息论的中文自动分词算法，其特征是，包括如下步骤：步骤1：初始化训练模型，可以是《分词词典》或相关领域的语料库，或是两者结合模型步骤2：根据《分词词典》找到待分词句子中与词典中匹配的词步骤3：依据概率统计学，将待分词句子拆分为网状结构，即得n个可能组合的句子结构，把此结构每条顺序节点依次规定为步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值步骤5：找到权值最大的一条路径，即为待分词句子的分词结果步骤6：验证此分词结果的准确率和召回率准确率：上式为《分词词典》识别待分词句子中字典词的个数，为此方法正确分词词的个数召回率：上式为待分词句子中词的总个数最后综合考虑这两个因子，判定此系统分词结果的正确性即为一个很小的阈值，这个由专家给定，当d满足上述条件，则分词效果比较理想。2.根据权利要求1中所述的一种基于信息论的中文自动分词算法，其特征是，以上所述步骤4中具体计算过程如下：步骤4：基于信息论方法，给上述网状结构每条边赋予一定的权值，其具体计算过程如下：根据《分词...

【专利技术属性】
技术研发人员：金平艳，胡成华，
申请(专利权)人：四川用联信息技术有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人