一种自动拆分英文复合词组的系统和方法技术方案

技术编号：3842282 阅读：911 留言：0更新日期：2012-04-11 18:40

一种自动拆分英文复合词组的系统和方法，其中该系统包括：词组输入模块，用于输入从一个领域的文本中分离出来的大量词组；词组分类模块，用于对所输入的每个词组进行分类，并且将简单词组放入简单词组表中；基于语言学规则的概率模型模块，用于对所分类的每个复合词组进行逐一拆分；基于文本分类的机器学习模型模块，用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理、本体学习、以及文本挖掘领域，尤其是涉及用。
技术介绍
自然语言处理的最终目的就是为了能让电脑能和人类一样正确有效地使用自然语言。然而，由于存在以下两大挑战目前仍然还有很长的路要走其一是自然语言的多义性；其二是需要很多的背景知识。人类的语言在各个层面上都是相当模糊的，这些层面包括词法层面，句法层面，语义层面和各种语言特殊的构造和语法；为了让计算机能够正确处理自然语言，我们可能需要提供数以百万计的词库，句法知识和更为复杂的其他关于语言的语义，构造和习惯用语方面的资料。即使是这样，计算机仍然还是很难表现得很好。所谓的复合词组是相对于简单词组而言的(主要指的是名词词组)，简单词组的内容只能精确描述一个事物；而复合词组是由简单词组按照某种特点结构组合而成。现如今，计算机可以通过简单的统计技术较为轻易地识别出英文文章中的简单词组，因为简单词组总以连续的单词序列出现(比如"Data Mining")，只要能够通过概率统计发现某几个词的序列总在文章中出现就能断定它们是一个词组。然而，英文文章中的复合词组相对来说则比较复杂，比如"Data Mining and Warehousing"，可以看出这个复合词组是由"Data Mining，，和"Data Warehousing，，组合而成，而"Data, Text and Web Mining，，则是由"Data Mining", "Text Mining"和"Web Mining"组合而成。作为领域专家，拆分这样的复合词组并不难，然而要让计算机能够自动地正确拆分这些词...

【技术保护点】
一种自动拆分英文复合词组的系统包括：　词组输入模块，用于输入从一个领域的文本中分离出来的大量词组；　词组分类模块，用于对所输入的每个词组进行分类，并且将简单词组放入简单词组表中；　基于语言学规则的概率模型模块，用于对所分类的每个复合词组进行逐一拆分；　基于文本分类的机器学习模型模块，用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。

【技术特征摘要】

【专利技术属性】
技术研发人员：杜小勇，刘红岩，何军，李直旭，
申请(专利权)人：杜小勇，
类型：发明
国别省市：11[中国|北京]

全部详细技术资料下载我是这个专利的主人