广义归约的装置与方法制造方法及图纸

技术编号：2861222 阅读：230 留言：0更新日期：2012-04-11 18:40

本发明专利技术涉及一种广义归约的装置与方法，其装置包括：归约规则表的存储部件、候选者队列的存储部件和归约部件，其方法包括：由输入手段得到一个语言单元，所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体；将此语言单元与各归约规则的各子前件逐一进行匹配，当匹配特定子前件时将之加入到此子前件对应的候选者队列中；若此语言单元匹配的是某个规则的最末子前件，则运用增量式的遍历算法搜索各种语言单元组合，根据规则后件产生新的语言单元并通过输出手段输出。采用了该装置与方法，使得当前搜索的语言单元组合与上一次的必然不同，不会遗漏组合，是增量式的，从而提高了搜索语言单元组合的效率，具有较好的实用性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域中的文本分析的装置与方法，属于国际专利分类(IPC)的子类G06F 17/27，特别涉及一种对不同语言层次的实体进行归约的装置与方法。
技术介绍
大部分的文本分析工作，都包括两个步骤，即词法分析与句法分析。词法分析，其目的是判断哪些字符可构成单字，以及哪些单字可以构成词组；句法分析(或称语法分析)，其目的则是判断哪些单字或词组可构成语法成分，哪些语法成分可以继续归约，直到构成一个句子。在句法分析的基础上，还可以进一步的进行语义分析，即分析不同语法成分所代表的概念，进而分析哪些概念可以组合成更复杂的概念。无论词法分析，语法分析，还是语义分析，从自底向上分析的角度来看，其实质都是根据一定的规则对语言实体进行归约，构成新的语言实体的过程。在此基础上进一步抽象，不难发现，所谓文本分析，其目的在于识别出文本中的各种语言实体及其相互之间的关系。所谓的语言单元关系是指，哪些语言单元根据特定的归约规则，归约出特定的语言单元。语言实体在不同语言层次上的具体所指是不同，比如在词法层面，可以指单字，或词组；在句法层面可以指语法成分；或者在语义层面，可以指不同的语义概念。当然，随着文本处理领域研究的不断深入，所述的语言层次可能会有所增加或变动。语言实体在实施时，一般被构造成由标记表达的数据结构(语言单元)。在词法层面，语言单元用来代表字母，单字或词组；在语法层面，则代表单字，词组或语法成分；在语义层面，则代表语法成分，或者语义概念。传统分析方法，其着眼点在于了解每个语言单元与相邻语言单元的必然的关系，所以其采用的归约方式是紧邻的。但是，在某些场合...

【技术保护点】
一种广义归约的装置，其特征在于，所述装置包括：（１）归约规则表的存储部件，用于存储归约规则；所述的归约规则包含一个或一个以上子前件，存储了语言单元匹配时应满足的条件；所述的归约规则还包含一个后件，所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容；所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体；（２）候选者队列的存储部件，用于存储匹配特定规则的特定子前件的语言单元；（３）归约部件，用于将由输入手段得到的语言单元，与各规则的各子前件逐一进行匹配，当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中；在每个匹配子前件过程中，若此语言单元匹配的是某个具有ｎ个子前件的规则的最末子前件，运用遍历算法搜索各种语言单元组合，每个组合满足：　　（ａ）第ｉ个成员来自此规则的第ｉ个子前件的候选者队列（１≤ｉ≤ｎ－１）；（ｂ）第ｎ个成员为此语言单元；（４）输入部件，得到从外界输入的语言单元；（５）输出部件，将产生的新的语言单元输出；所述的输入部件的 ...

【技术特征摘要】
1.一种广义归约的装置，其特征在于，所述装置包括(1)归约规则表的存储部件，用于存储归约规则；所述的归约规则包含一个或一个以上子前件，存储了语言单元匹配时应满足的条件；所述的归约规则还包含一个后件，所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容；所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体；(2)候选者队列的存储部件，用于存储匹配特定规则的特定子前件的语言单元；(3)归约部件，用于将由输入手段得到的语言单元，与各规则的各子前件逐一进行匹配，当所述的语言单元与特定规则的特定子前件匹配时将之加入到此子前件对应的候选者队列中；在每个匹配子前件过程中，若此语言单元匹配的是某个具有n个子前件的规则的最末子前件，运用遍历算法搜索各种语言单元组合，每个组合满足(a)第i个成员来自此规则的第i个子前件的候选者队列(1≤i≤n-1)；(b)第n个成员为此语言单元；(4)输入部件，得到从外界输入的语言单元；(5)输出部件，将产生的新的语言单元输出；所述的输入部件的输出与所述的归约部件的输入相连，该归约部件的输出与所述的输出部件的输入相连，且该归约部件还分别与归约规则表的存储部件和候选者队列的存储部件相连；对于每个语言单元组合，都根据规则后件产生新的语言单元并通过输出部件输出。2.根据权利要求1所述的广义归约的装置，其特征在于，所述的语言单元还包括指明该语言单元所代表的语言实体在文本中占据区域的文本区域；所述的归约装置为(a)在搜索语言单元组合时，每种语言单元组合的第i个语言单元的文本区域不重合于第i+1个语言单元且在其左侧(1≤i≤n-1)；(b)得到的新的语言单元的文本区域，为对应语言单元组合中各语言单元的文本区域的叠加。3.一种使用权利要求1所述的装置进行广义归约的方法，其特征在于，该方法包括以下步骤(1)由输入手段得到一个语言单元，所述的语言单元存储的信息描述了一段文字所对应的特定语言层次的语言实体；(2)将此语言单元与各归约规则的各子前件逐一进行匹配；所述的归约规则含一个或一个以上子前件，存储了语言单元匹配时应满足的条件；对于所述的每个子前件，都对应一个候选者队列，用于存储匹配此子前件的语言单元；所述的归约规则还包含一个后件，所存储的信息描述了规则被匹配后将产生的语言单元的全部或部分内容；当所述的语言单元与特定...

【专利技术属性】
技术研发人员：刘健，吴耿锋，
申请(专利权)人：上海大学，
类型：发明
国别省市：31[中国|上海]

全部详细技术资料下载我是这个专利的主人