WKR分词方法技术

技术编号：6990782 阅读：229 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种分词方法WKR分词(简称WKR)。它基于中文语法和语义，包涵的知识库是通过对大量文献分析和计算后创建。分词是由易至难将能正确切分的词(词总数98％)先切分，不能正确判断的下一步再处理，直到最后处理2％可能的错误。它包括三个步骤：①根据独立词切分方法，将长句子切分为若干个子句，使得分词速度快。②对独立词切分后的子句，根据分词可能的组合一一切分，形成多种切分的情况，通过接续关系判别各种情况是否符合语法。一种情况符合语法，认为分词正确；多于一种情况符合语法，通过语法二义判别；全部不符合语法，通过未登陆词判别。WKR第二步将句子切分为最小构词单位。③合理合并最小构词，处理可能的错误。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于IT自然语言理解领域，提供了一种汉语分词(也称词切分)的方法。中文分词是进行中文文本自动分析的第一步，可应用于中文信息检索、搜索引擎、机器翻译、元数据自动提取、文本自动校对、语音合成等领域。
技术介绍
中文分词的方法可以分为两类，一类是基于词表、词库匹配和词频统计的方法，另一类是基于语法、语义的分词方法。本专利技术属于基于语法、语义的分词方法。传统的基于语法、语义的分词方法是在分词过程中动态的分析文本，比较复杂，并且受到目前自然语言理解理论发展水平限制，提高分词正确率非常困难。本专利技术是在汉语分词之前对词的使用进行分析，对词在句子中的搭配进行了较完备的统计，分词时不再分析语义，只验证分析和统计的结果。
技术实现思路
1.概述本专利技术提供一种分词方法_WKR分词(简称WKR)。WKR是英文“word kinds relationship”首字母缩写。WKR基于中文语法和语义分词，包涵的知识库是通过对大量文献分析和计算后创建。WKR分词是由易至难将能正确切分的词(占词总数的98% )先切分，不能正确判断的下一步再处理，直到最后处理2%可能的错误。分词三个步骤第一步根据独立词切分方法，正确切分出句子中的独立词。同时这也将长句子切分为若干个子句，使得分词速度快。第二步对独立词切分后的子句，根据分词可能的组合一一切分，形成多种切分的情况，通过接续关系判别各种情况是否符合语法。若没有接续关系，则认为该种分词情况不符合语法。判别结果若一种情况符合语法，则认为分词正确；多于一种情况符合语法，通过语法二义判别方法分词；全部不符合语法，...

【技术保护点】
一种汉语分词方法，其特征在于包括独立词切分方法、词的种类与使用级别、词类划分方法、词类接续关系、伪二义判别方法、语法二义判别方法、名称未登陆词判别方法、分词算法和知识库。

【技术特征摘要】

【专利技术属性】
技术研发人员：蒋贤春，
申请(专利权)人：蒋贤春，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人