一种自动拆分英文复合词组的系统和方法,其中该系统包括:词组输入模块,用于输入从一个领域的文本中分离出来的大量词组;词组分类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词组表中;基于语言学规则的概率模型模块,用于对所分类的每个复合词组进行逐一拆分;基于文本分类的机器学习模型模块,用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。
【技术实现步骤摘要】
本专利技术涉及自然语言处理、本体学习、以及文本挖掘领域,尤其是涉 及用 。
技术介绍
自然语言处理的最终目的就是为了能让电脑能和人类一样正确有效地使用自然语言。然而,由于存在以下两大挑战目前仍然还有很长的路要走 其一是自然语言的多义性;其二是需要很多的背景知识。人类的语言在各 个层面上都是相当模糊的,这些层面包括词法层面,句法层面,语义层 面和各种语言特殊的构造和语法;为了让计算机能够正确处理自然语言, 我们可能需要提供数以百万计的词库,句法知识和更为复杂的其他关于语 言的语义,构造和习惯用语方面的资料。即使是这样,计算机仍然还是很 难表现得很好。所谓的复合词组是相对于简单词组而言的(主要指的是名词词组),简 单词组的内容只能精确描述一个事物;而复合词组是由简单词组按照某种 特点结构组合而成。现如今,计算机可以通过简单的统计技术较为轻易地识别出英文文章 中的简单词组,因为简单词组总以连续的单词序列出现(比如"Data Mining"),只要能够通过概率统计发现某几个词的序列总在文章中出现就能 断定它们是一个词组。然而,英文文章中的复合词组相对来说则比较复杂, 比如"Data Mining and Warehousing",可以看出这个复合词组是由"Data Mining,,和"Data Warehousing,,组合而成,而"Data, Text and Web Mining,,则是 由"Data Mining", "Text Mining"和"Web Mining"组合而成。作为领域专家,拆分这样的复合词组并不难,然而要让计算机能够自动地正确拆分这些词 组却并不好办。对于某一领域来说,其领域术语都应该是简单词组,那么如何从复合 词组中拆分出正确的简单词组则相当于一个领域术语的抽取问题。从这个 角度来说,复合词组的拆分问题跟本体学习里的领域术语抽取问题是非常 相关的。在本体学习领域,为了能够在从文本中正确抽耳又术语,大致有三类方法, 一类是基于语言学的方法; 一类是基于统计的方法;还有一类是 将两者结合的混合方法。基于语言学的方法试图通过语言学上的语法给出 一些特别的构词模式,然后用此模式在文本中匹配找到术语;基于统计的 方法主要是根据词汇共现分析来找到常用的词组,然后用TF/IDF方法过滤 掉常用的非领域术语词组。另 一个跟复合^44a拆分比较相关的领域是自,^^言处理领域的named entity recognition (NER),中文名称应该是"专名辨识",即在文本中找到代 表人,地址,时间或者数量等的词组。现如今这方面的工作也有不少的成 就,主要采用的方法有基于隐式马尔可夫链的方法、最大熵值法和支持 向量机模型等。马尔可夫链因安德烈*马尔可夫得名,是数学中具有马尔可夫性质的离 散时间随机过程。该过程中,在给定当前知识或信息的情况下,只有当前 的状态用来预测将来,过去(即当前以前的历史状态)对于预测将来(即 当前以后的未来状态)是无关的。隐马尔可夫模型是马尔可夫链的一种, 它的状态不能直接观察到,但能通过观测向量序列观察到每个观测向量都 是通过某些概率密度分布表现为各种状态,每一个观测向量是由一个具有 响应概率密度分布的状态序列产生。所以,隐马尔可夫模型是一个双重随 机过程--具有一定状态数的隐马尔可夫链和显示随才几函数集。自20世纪 80年代以来,HMM被应用于语音识别,取得重大成功。到了 90年代,HMM 还被引入计算机文字识别和移动通信核心技术"多用户的检测"。近年来,HMM在生物信息科学、故障诊断等领域也开始得到应用。最大熵原理指出,当我们需要对一个随机事件的概率分布进行预测时, 我们的预测应当满足全部已知的条件,而对未知的情况不要做任何主观假 设。(不做主观假设这点很重要。)在这种情况下,概率分布最均匀,预测 的风险最小。因为这时概率分布的信息熵最大,所以人们称这种模型叫"最 大熵模型"。支持向量机(SVM)是数据挖掘中的一种重要方法,能非常成功地处理回 归问题(时间序列分析)和模式识别(分类问题、判别分析)等诸多问题,并可 推广于预测和综合评价等领域。支持向量机属于一般化线性分类器.他们也 可以认为是提克洛夫规则化(Tikhonov Regularization)方法的一个特例.这 族分类器的特点是他们能够同时最小化经验误差与最大化几何边缘区.因此 支持向量机也被称为最大边缘区分类器。我们通常希望分类的过程是一个 机器学习的过程。这些数据点是n维实空间中的点。我们希望能够把这些 点通过一个n-l维的超平面分开。通常这个被称为线性分类器。有很多分类 器都符合这个要求。但是我们还希望找到分类最佳的平面,即使得属于两 个不同类的数据点间隔最大的那个面,该面亦称为最大间隔超平面。如果 我们能够找到这个面,那么这个分类器就称为最大间隔分类器。所谓支持 向量是指那些在间隔区边缘的训练样本点。这里的"机(machine,机器)" 实际上是一个算法。在机器学习领域,常把一些算法看做是一个机器。然而,不同于术语抽取和专名辨识技术的是,复合词组的拆分要考虑的不是从文本中抽取以连续单词序列出现的简单词组,而是如何从文本中 得到非连续单词序列。目前对于此类问题尚未有比较好的解决方案。
技术实现思路
本专利技术是鉴于上述技术问题而产生的。本专利技术的一个目的是提出一种 自动拆分英文复合词组的系统和方法。在一个方面中,根据本专利技术的自动拆分英文复合词组的系统包括词 组输入模块,用于输入从一个领域的文本中分离出来的大量词组;词组分 类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词 组表中;基于语言学规则的概率模型模块,用于对所分类的每个复合词组 进行逐一拆分;基于文本分类的机器学习模型模块,用于对在基于语言学 规则的概率模型模块中无法正确拆分的复合词组进一步拆分。在这个方面中,其中基于语言学规则的概率模型模块进一步包括构 造分析模块,用于分析各个复合词组可能正确的构造有哪几种;概率计算 模块,用于对照简单词组集中是否包含有各个拆分出来的词组来给出这个 复合词组关于每种构造方法的正确概率;比较模块,用于对每一个复合词 组的每一种可能构造方法的正确概率进行比较,得出最为正确的概率拆分 方法;判断模块,用于将在比较模块中得到的最为正确的概率拆分方法的 正确概率值与预定阀值进行比较,如果大于等于阀值则认为此方法即为正 确拆分方法;训练集模块,用于将正确拆分的复合词组及其正确拆分类型 作为训练集,而将尚未被正确拆分的复合词组作为进一步待处理对象。在这个方面中,其中基于文本分类的机器学习模型模块进一步包括 预测模型建模模块,用于利用训练集寻求拆分类型并且利用词组中词语的 关系建立预测模型;预测模块,用于利用建立起来的预测模型对基于语言 学规则的概率模型模块中无法正确拆分的复合词组进行正确拆分类型预 测。在这个方面中,其中该系统进一步包括自适应进化模块,用于对上 述基于语言学规则的概率模型模块和基于文本分类的机器学习模型模块进 行自适应进化。在另 一个方面中,根据本专利技术的一种自动拆分英文复合词组的方法包 括A、输入从一个领域的文本中分离出来的大量词组;B、对所输入的每 个词组进行分类,并且将简单词组放入简单词组本文档来自技高网...
【技术保护点】
一种自动拆分英文复合词组的系统包括: 词组输入模块,用于输入从一个领域的文本中分离出来的大量词组; 词组分类模块,用于对所输入的每个词组进行分类,并且将简单词组放入简单词组表中; 基于语言学规则的概率模型模块,用于对所分类的每个复合词组进行逐一拆分; 基于文本分类的机器学习模型模块,用于对在基于语言学规则的概率模型模块中无法正确拆分的复合词组进一步拆分。
【技术特征摘要】
【专利技术属性】
技术研发人员:杜小勇,刘红岩,何军,李直旭,
申请(专利权)人:杜小勇,
类型:发明
国别省市:11[中国|北京]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。