当前位置: 首页 > 专利查询>蒋贤春专利>正文

WKR分词方法技术

技术编号:6990782 阅读:216 留言:0更新日期:2012-04-11 18:40
本发明专利技术提供一种分词方法WKR分词(简称WKR)。它基于中文语法和语义,包涵的知识库是通过对大量文献分析和计算后创建。分词是由易至难将能正确切分的词(词总数98%)先切分,不能正确判断的下一步再处理,直到最后处理2%可能的错误。它包括三个步骤:①根据独立词切分方法,将长句子切分为若干个子句,使得分词速度快。②对独立词切分后的子句,根据分词可能的组合一一切分,形成多种切分的情况,通过接续关系判别各种情况是否符合语法。一种情况符合语法,认为分词正确;多于一种情况符合语法,通过语法二义判别;全部不符合语法,通过未登陆词判别。WKR第二步将句子切分为最小构词单位。③合理合并最小构词,处理可能的错误。

【技术实现步骤摘要】

本专利技术属于IT自然语言理解领域,提供了一种汉语分词(也称词切分)的方法。中文分词是进行中文文本自动分析的第一步,可应用于中文信息检索、搜索引擎、 机器翻译、元数据自动提取、文本自动校对、语音合成等领域。
技术介绍
中文分词的方法可以分为两类,一类是基于词表、词库匹配和词频统计的方法,另 一类是基于语法、语义的分词方法。本专利技术属于基于语法、语义的分词方法。传统的基于语 法、语义的分词方法是在分词过程中动态的分析文本,比较复杂,并且受到目前自然语言理 解理论发展水平限制,提高分词正确率非常困难。本专利技术是在汉语分词之前对词的使用进 行分析,对词在句子中的搭配进行了较完备的统计,分词时不再分析语义,只验证分析和统 计的结果。
技术实现思路
1.概述本专利技术提供一种分词方法_WKR分词(简称WKR)。WKR是英文“word kinds relationship”首字母缩写。WKR基于中文语法和语义分词,包涵的知识库是通过对大量文 献分析和计算后创建。WKR分词是由易至难将能正确切分的词(占词总数的98% )先切分,不能正确判 断的下一步再处理,直到最后处理2%可能的错误。分词三个步骤第一步根据独立词切分方法,正确切分出句子中的独立词。同时这也将长句子切 分为若干个子句,使得分词速度快。第二步对独立词切分后的子句,根据分词可能的组合一一切分,形成多种切分的 情况,通过接续关系判别各种情况是否符合语法。若没有接续关系,则认为该种分词情况不 符合语法。判别结果若一种情况符合语法,则认为分词正确;多于一种情况符合语法,通过 语法二义判别方法分词;全部不符合语法,通过名称未登陆词判别方法分词。WKR考虑了所 有切分的可能性,分词第二步将句子切分为最小构词单位。第三步合理合并最小构词,最后处理可能的错误。2.独立词切分方法2.1独立词句子中,相邻两字不是其它词的一部分,则这两字之间可切分。前独立词在句子中,一个词本身前面的任意一部分(含全体)不能与该词前面的 一个或多个字构成词,该词称为前独立词。后独立词在句子中,一个词本身后面的任意一部分(含全体)不能与该词后面的 一个或多个字构成词,该词称为后独立词。独立词一个词既是前独立词又是后独立词,并且本身不能切分成符合语法的两 部分,则称之为独立词。独立词在句中经常出现。例1 句子“他的书”,其中“他”、“的”、“书”皆是独立词,在该句中它们与前面或后 面的字均不能构成词。系统独立词WKR对常用单字词和双字词在分词前找出它们在句中成为独立词的 规则,这些词称为系统独立词。在分词时,第一步先找出句子中的系统独立词并且切分,将长句子切分为若干个 短句子。例2 句子“中国建设银行”独立词切分结果“中国/建设/银行”其中“建设”和“建设”在该句中是独立词。“中国”是子句。例3 句子“中国人民银行”独立词切分结果“中国人民/银行”其中“银行”在该句中是独立词。“中国人民”是子句。“人民”在该句中不是独立 词,因为“国人”是系统词。2. 2单字系统独立词单字系统独立词单字词W是系统独立词需满足下面两个条件①W是常用词;②W包含在其它词中的情况不很多(三千以内)。单字系统独立词判别在句中判别词W是否是单字系统独立词,只需排出W包含在 其它词中的所有情况。例4 句子中“也”是独立词,只需满足①“也”前面的字不是“之乎者(也)”、“其言(也善)”、“再(也)”........②“也”后面的字不是“(也)可”、“(也)好”、“(也)罢”、“(也)许”........例5 部分单字独立词权利要求1.一种汉语分词方法,其特征在于包括独立词切分方法、词的种类与使用级别、词类划 分方法、词类接续关系、伪二义判别方法、语法二义判别方法、名称未登陆词判别方法、分词 算法和知识库。2.根据权利要求1独立词切分方法,其特征在于包括前独立词在句子中,一个词本身前面的任意一部分(含全体)不能与该词前面的一个 或多个字构成词,该词在这个句子中是前独立词。后独立词在句子中,一个词本身后面的任意一部分(含全体)不能与该词后面的一个 或多个字构成词,该词在这个句子中是后独立词。独立词在句子中,一个词既是前独立词又是后独立词,并且本身不能切分成符合语法 的两部分,则称之为独立词。独立词判别规则对常用单字和双字词,创建每个词在句子中是独立词的判别规则。这 些常用单字词和双字词被称之为系统独立词。独立词切分根据独立词判别规则,在分词时,第一步将长句子切分为若干个短句子。 系统独立词前可切分的,在句子中切分该处;系统独立词后可切分的,在句子中切分该处。3.根据权利要求1词的种类与使用级别,其特征在于包括 词的种类根据使用领域,词被划分成16个种类。使用级别各种类中的词按其使用频率由高至低划分为1-10个使用级别。4.根据权利要求1词类划分方法,其特征在于包括五级分类按词义相近、用法相近,将汉语的词分类,类又分为大类、中类、小类、细类和 近义词类共五级。常用词类常用词单独归类。 极常用词类极常用词单独归类。5.根据权利要求1词类接续关系,其特征在于包括词类与词类的接续关系描述每个词类(中的词)与其它词类(中的词)在句子中是 否可以前后两个词相邻。常用词类与词的接续关系描述每个常用词类(中的词)与每个词在句子中是否可以 前后两个词相邻。词与常用词类的接续关系描述每个词与每个常用词类(中的词)在句子中是否可以 前后两个词相邻。三级接续关系描述每个极常用词类(中的词)与其它词类(中的词)在句子中是否 可以前中后三个词相邻,极常用词类中的词居中。6.根据权利要求1伪二义判别方法,其特征在于包括伪二义分词对独立词切分后的子句,根据分词可能的组合一一切分,形成多个切分后 的子句。接续关系判别对伪二义分词的所有子句,通过接续关系判别若没有接续关系,则认 为该句子分词不符合语法。若全部不符合语法,则认为是未登陆词;一种情况符合语法,则 认为分词正确;多于一种情况符合语法,则认为是语法二义。7.根据权利要求1语法二义判别方法,其特征在于包括独立拆分词在句子中,词W独立成词时,句子语法正确,W分为两个词,句子语法也正确,则称W在该句中是独立拆分词。独立拆分词判别方法创建独立拆分词拆分规则,根据该规则,在句子中判别是否切分 独立拆分词。半独立拆分词句子中,词W独立成词时,句子语法正确,W分为两部分,一部分是系统 词,另一部分与其它词搭配,句子语法也正确,则称W在该句中是半独立拆分词。半独立拆分词判别方法创建半独立拆分词拆分规则,根据该规则,在句子中判别是否 切分半独立拆分词。非独立拆分词句子中,词W独立成词时,句子语法正确,W分为两部分,两部分分别与 其它词搭配,结果语法也正确,则称W在该句中是非独立拆分词。非独立拆分词判别方法创建非独立拆分词拆分规则,根据该规则,在句子中判别是否 切分非独立拆分词。8.根据权利要求1名称未登陆词判别方法,其特征在于包括 中国姓名未登陆词判别方法创建中国姓名构词规则,根据该规则,在句子中判别未登 陆词是否是中国姓名。中国人名未登陆词判别方法创建中国人名构词规则,根据该规则,在句子中判别未登 陆词是否是中国人名。外国人名未登陆词判别方法创建外国人名构词规则,根据该规则,在句子中判别未登 陆词是否是外国人名。头衔称谓本文档来自技高网...

【技术保护点】
一种汉语分词方法,其特征在于包括独立词切分方法、词的种类与使用级别、词类划分方法、词类接续关系、伪二义判别方法、语法二义判别方法、名称未登陆词判别方法、分词算法和知识库。

【技术特征摘要】

【专利技术属性】
技术研发人员:蒋贤春
申请(专利权)人:蒋贤春
类型:发明
国别省市:11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1