本发明专利技术涉及一种广义归约的装置与方法,其装置包括:归约规则表的存储部件、候选者队列的存储部件和归约部件,其方法包括:由输入手段得到一个语言单元,所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;将此语言单元与各归约规则的各子前件逐一进行匹配,当匹配特定子前件时将之加入到此子前件对应的候选者队列中;若此语言单元匹配的是某个规则的最末子前件,则运用增量式的遍历算法搜索各种语言单元组合,根据规则后件产生新的语言单元并通过输出手段输出。采用了该装置与方法,使得当前搜索的语言单元组合与上一次的必然不同,不会遗漏组合,是增量式的,从而提高了搜索语言单元组合的效率,具有较好的实用性。
【技术实现步骤摘要】
本专利技术涉及自然语言处理领域中的文本分析的装置与方法,属于国际专利分类(IPC)的子类G06F 17/27,特别涉及一种对不同语言层次的实体进行归约的装置与方法。
技术介绍
大部分的文本分析工作,都包括两个步骤,即词法分析与句法分析。词法分析,其目的是判断哪些字符可构成单字,以及哪些单字可以构成词组;句法分析(或称语法分析),其目的则是判断哪些单字或词组可构成语法成分,哪些语法成分可以继续归约,直到构成一个句子。在句法分析的基础上,还可以进一步的进行语义分析,即分析不同语法成分所代表的概念,进而分析哪些概念可以组合成更复杂的概念。无论词法分析,语法分析,还是语义分析,从自底向上分析的角度来看,其实质都是根据一定的规则对语言实体进行归约,构成新的语言实体的过程。在此基础上进一步抽象,不难发现,所谓文本分析,其目的在于识别出文本中的各种语言实体及其相互之间的关系。所谓的语言单元关系是指,哪些语言单元根据特定的归约规则,归约出特定的语言单元。语言实体在不同语言层次上的具体所指是不同,比如在词法层面,可以指单字,或词组;在句法层面可以指语法成分;或者在语义层面,可以指不同的语义概念。当然,随着文本处理领域研究的不断深入,所述的语言层次可能会有所增加或变动。语言实体在实施时,一般被构造成由标记表达的数据结构(语言单元)。在词法层面,语言单元用来代表字母,单字或词组;在语法层面,则代表单字,词组或语法成分;在语义层面,则代表语法成分,或者语义概念。传统分析方法,其着眼点在于了解每个语言单元与相邻语言单元的必然的关系,所以其采用的归约方式是紧邻的。但是,在某些场合,人们需要(或者不得不)获知各个语言单元相互之间可能的,而非必然的关系。比如,在短时间内,对大量文本进行非严格的分析,以期得到某些具有统计意义的结论;在干扰文字或者与分析无关字符存在的情况下进行文本分析,如果要使用传统的确然的文本分析技术,就要采取文本去噪,这需要专门的领域知识以及较高的知识建模的技术,以至于在一些应用场合效果不够理想;此时,就要采用近似文本分析。在这些场合,传统分析方法采用的紧邻归约就无法很好的工作。因此,为了施行近似文本分析,就需要采用广义归约。所谓的广义归约,是指在已存在的语言单元(即语言实体的外在表示)集合中寻找到语言单元组合,使之匹配某个特定的规则,以得到一个新的语言单元。参与匹配的语言单元组合,并不一定在逻辑上确然性地具有此规则所代表的特定语言层次的关系,而只是反应此语言单元组合可能具有此规则所代表的特定语言层次的关系。由于广义归约是在已存在的语言单元中寻找各种可能的语言单元组合以匹配规则,所以在实现的时候,如何在搜索语言单元组合时提高效率,将是实现一个高效实用的广义归约装置的关键。
技术实现思路
本专利技术的目的在于解决以上问题,提供一种进行广义归约的装置和方法,该装置使用该广义归约的方法能够保存从外界得到的语言单元,并判断哪些语言单元可以按照特定的规则归约出新的语言单元。特别地,为了达到提高搜索语言单元组合效率的目的,这种方法是增量式的,即已经被遍历过的语言单元组合将不再被遍历到。为了实现上述的目的,本专利技术的如下该广义归约的装置,其主要特点是,所述装置包括(1)归约规则表的存储部件,用于存储归约规则;所述的归约规则包含一个或一个以上子前件,存储了语言单元匹配时应满足的条件;所述的归约规则还包含一个后件,所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容;所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;(2)候选者队列的存储部件,用于存储匹配特定规则的特定子前件的语言单元;(3)归约部件,用于将由输入手段得到的语言单元,与各规则的各子前件逐一进行匹配,当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中;在每个匹配子前件过程中,若此语言单元匹配的是某个具有n个子前件的规则的最末子前件,运用遍历算法搜索各种语言单元组合,每个组合满足(a)第i个成员来自此规则的第i个子前件的候选者队列(1≤i≤n-1);(b)第n个成员为此语言单元;(4)输入部件,得到从外界输入的语言单元;(5)输出部件,将产生的新的语言单元输出;所述的输入部件的输出与所述的归约部件的输入相连,该归约部件的输出与所述的输出部件的输入相连,且该归约部件还分别与归约规则表的存储部件和候选者队列的存储部件相连;对于每个语言单元组合,都根据规则后件产生新的语言单元并通过输出部件输出。该广义归约的装置的语言单元还包括指明该语言单元所代表的语言实体在文本中占据区域的文本区域;所述的归约装置为(a)在搜索语言单元组合时,每种语言单元组合的第i个语言单元的文本区域不重合于第i+1个语言单元且在其左侧(1≤i≤n-1);(b)得到的新的语言单元的文本区域,为对应语言单元组合中各语言单元的文本区域的叠加。使用上述装置进行广义归约的方法,其主要特点是,该方法包括以下步骤(1)由输入手段得到一个语言单元,所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;(2)将此语言单元与各归约规则的各子前件逐一进行匹配;所述的归约规则含一个或一个以上子前件,存储了语言单元匹配时应满足的条件;对于所述的每个子前件,都对应一个候选者队列,用于存储匹配此子前件的语言单元;所述的归约规则还包含一个后件,所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容;当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中;在每个匹配子前件过程中,若此语言单元匹配的是某个具有n个子前件的规则的最末子前件,则运用遍历算法搜索各种语言单元组合,使得每个组合满足(a)第i个成员来自此规则的第i个子前件的候选者队列(1≤i≤n-1);(b)第n个成员为此语言单元;对于每个语言单元组合,都根据规则后件产生新的语言单元并通过输出手段输出。该广义归约的方法的语言单元还包括指明该语言单元所代表的语言实体在文本中占据区域的文本区域,所述的归约规则为(a)在搜索语言单元组合时,每种语言单元组合的第i个语言单元的文本区域不重合于第i+1个语言单元且在其左侧(1≤i≤n-1);(b)得到的新的语言单元的文本区域,为对应语言单元组合中各语言单元的文本区域的叠加。存储有实现上述广义归约方法的程序的计算机可读的存储介质,其主要特点是,所述的程序执行以下步骤 (1)由输入手段得到一个语言单元,所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;(2)将此语言单元与各归约规则的各子前件逐一进行匹配;所述的归约规则含一个或一个以上子前件,存储了语言单元匹配时应满足的条件;对于所述的每个子前件,都对应一个候选者队列,用于存储匹配此子前件的语言单元;所述的归约规则还包含一个后件,所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容;当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中;在每个匹配子前件过程中,若此语言单元匹配的是某个具有n个子前件的规则的最末子前件,则运用遍历算法搜索各种语言单元组合,使得每个组合满足(a)第i个成员来自此规则的第i个子前件的候选者队列(1≤i≤n本文档来自技高网...
【技术保护点】
一种广义归约的装置,其特征在于,所述装置包括:(1)归约规则表的存储部件,用于存储归约规则;所述的归约规则包含一个或一个以上子前件,存储了语言单元匹配时应满足的条件;所述的归约规则还包含一个后件,所存储的信息描述了规则被匹配后将产生 的语言单元的全部或部分内容;所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;(2)候选者队列的存储部件,用于存储匹配特定规则的特定子前件的语言单元;(3)归约部件,用于将由输入手段得到的语言单元,与各规 则的各子前件逐一进行匹配,当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中;在每个匹配子前件过程中,若此语言单元匹配的是某个具有n个子前件的规则的最末子前件,运用遍历算法搜索各种语言单元组合,每个组合满足: (a)第i个成员来自此规则的第i个子前件的候选者队列(1≤i≤n-1);(b)第n个成员为此语言单元;(4)输入部件,得到从外界输入的语言单元;(5)输出部件,将产生的新的语言单元输出;所述的输入部件的 输出与所述的归约部件的输入相连,该归约部件的输出与所述的输出部件的输入相连,且该归约部件还分别与归约规则表的存储部件和候选者队列的存储部件相连;对于每个语言单元组合,都根据规则后件产生新的语言单元并通过输出部件输出。...
【技术特征摘要】
1.一种广义归约的装置,其特征在于,所述装置包括(1)归约规则表的存储部件,用于存储归约规则;所述的归约规则包含一个或一个以上子前件,存储了语言单元匹配时应满足的条件;所述的归约规则还包含一个后件,所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容;所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;(2)候选者队列的存储部件,用于存储匹配特定规则的特定子前件的语言单元;(3)归约部件,用于将由输入手段得到的语言单元,与各规则的各子前件逐一进行匹配,当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中;在每个匹配子前件过程中,若此语言单元匹配的是某个具有n个子前件的规则的最末子前件,运用遍历算法搜索各种语言单元组合,每个组合满足(a)第i个成员来自此规则的第i个子前件的候选者队列(1≤i≤n-1);(b)第n个成员为此语言单元;(4)输入部件,得到从外界输入的语言单元;(5)输出部件,将产生的新的语言单元输出;所述的输入部件的输出与所述的归约部件的输入相连,该归约部件的输出与所述的输出部件的输入相连,且该归约部件还分别与归约规则表的存储部件和候选者队列的存储部件相连;对于每个语言单元组合,都根据规则后件产生新的语言单元并通过输出部件输出。2.根据权利要求1所述的广义归约的装置,其特征在于,所述的语言单元还包括指明该语言单元所代表的语言实体在文本中占据区域的文本区域;所述的归约装置为(a)在搜索语言单元组合时,每种语言单元组合的第i个语言单元的文本区域不重合于第i+1个语言单元且在其左侧(1≤i≤n-1);(b)得到的新的语言单元的文本区域,为对应语言单元组合中各语言单元的文本区域的叠加。3.一种使用权利要求1所述的装置进行广义归约的方法,其特征在于,该方法包括以下步骤(1)由输入手段得到一个语言单元,所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体;(2)将此语言单元与各归约规则的各子前件逐一进行匹配;所述的归约规则含一个或一个以上子前件,存储了语言单元匹配时应满足的条件;对于所述的每个子前件,都对应一个候选者队列,用于存储匹配此子前件的语言单元;所述的归约规则还包含一个后件,所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容;当所述的语言单元与特定...
【专利技术属性】
技术研发人员:刘健,吴耿锋,
申请(专利权)人:上海大学,
类型:发明
国别省市:31[中国|上海]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。