依赖于话语树以构建本体制造技术

技术编号:39303650 阅读:13 留言:0更新日期:2023-11-12 15:53
本发明专利技术的系统、设备和方法涉及话语树。在示例中,一种方法涉及生成话语树。该方法包括从话语树中识别与类型详述的修辞关系相关联并且与识别文本的中心实体的主题节点对应的中心实体。该方法包括确定与中心实体相关联的话语树的基本话语单元的子集。该方法包括从基本话语单元的子集形成泛化短语。该方法包括从泛化短语形成元组,其中元组是正常形式的词语的有序集合。该方法涉及响应于成功地将与识别出的元组相关联的基本话语单元转换成逻辑表示,用来自识别出的元组的实体来更新本体。用来自识别出的元组的实体来更新本体。用来自识别出的元组的实体来更新本体。

【技术实现步骤摘要】
【国外来华专利技术】依赖于话语树以构建本体
[0001]相关申请的交叉引用
[0002]本申请要求于2021年9月3日提交的美国专利申请No.17/466,409的优先权,该申请要求于2021年1月7日提交的美国临时申请No.63/134,757的权益,这些申请的内容在此通过引用将其整体并入本文以用于所有目的。


[0003]本公开一般涉及语言学。更具体地,本公开涉及使用话语技术来形成本体(ontology)。

技术介绍

[0004]语言学是语言的科学研究。语言学的一方面是将计算机科学应用于人类自然语言,诸如英语。由于极大提高的处理器的速度和存储器的容量,语言学的计算机应用正在增加。例如,启用计算机的对语言话语的分析促进了可以回答来自用户的问题的许多应用,诸如自动化代理。但此类应用无法利用丰富的话语相关信息来形成本体,从而导致回答问题、执行对话管理或提供推荐系统方面较差。

技术实现思路

[0005]一般而言,本专利技术的系统、设备和方法涉及使用话语技术来生成或扩展本体。在示例中,计算机实现的方法确定话语树中与中心实体相关联的文本。该方法对文本进行泛化(generalize)。
[0006]在一方面,一种扩展本体的方法包括从包括片段的文本生成表示片段之间的修辞相互关系(relationship)的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与片段中的一个相关联。该方法还包括从话语树中识别与不是类型详述(elaboration)或类型联合(joint)的修辞关系相关联并且与识别文本的中心实体的主题(topic)节点对应的中心实体。该方法还包括从话语树中确定与中心实体相关联的基本话语单元的子集。确定基本话语单元的子集包括识别与类型详述的关系相关联的核心(nucleus)基本话语单元。该方法还包括通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语(generalized phrase)。该方法还包括通过将一个或多个句法或语义模板应用于一个或多个共同元素来从泛化短语形成元组。每个元组是正常形式的词语的有序集合。该方法还包括将元组中的每个元组识别为具有包括以下的类型:名词短语、动词短语、形容词短语或介词短语。该方法还包括响应于成功地将与识别出的元组相关联的基本话语单元转换成包括谓词(predicate)和论元(argument)的逻辑表示,用来自识别出的元组的实体来更新本体。转换基于识别出的元组的类型。
[0007]在一方面,该方法还包括响应于从用户设备接收到查询,在本体中定位实体并向用户设备提供该实体。
[0008]在一方面,该方法还包括识别实体类。识别实体类涉及将元组编码为向量表示、向机器学习模型提供向量表示以及从机器学习模型接收实体类。
[0009]在一方面,向用户设备提供实体包括向用户设备提供实体类。
[0010]在一方面,识别中心实体包括定位话语树中的根节点。识别中心实体包括从话语树中确定与表示类型详述的修辞相互关系的非终端节点相关联并且表示核心基本话语单元的终端节点的子集。识别中心实体包括对于终端节点的子集中的每个节点计算距根节点的相应的路径长度。识别中心实体包括从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。
[0011]在一方面,将与一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括识别出元组的类型是名词短语或介词短语,提取中心名词(head noun)或最后的名词中的一个或多个作为逻辑谓词,以及提取一个或多个其他词语作为该逻辑谓词的论元。
[0012]在一方面,将与一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括识别出元组的类型是动词短语以及提取元组的动词作为谓词并提取一个或多个其他词语作为论元。
[0013]在一方面,每个元组包括谓词、主语(subject)和宾语(object)。
[0014]在一方面,该方法还包括识别与泛化短语对应的一个或多个元组的实体类。实体类表示实体的类别。更新还包括用实体类更新本体。
[0015]在一方面,一种系统包括存储计算机可执行程序指令的非暂态计算机可读介质以及通信地耦合到非暂态计算机可读介质以用于执行计算机可执行程序指令的处理设备。执行计算机可执行程序指令将处理设备配置为执行操作。这些操作包括从包括片段的文本生成表示片段之间的修辞相互关系的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与片段中的一个相关联。这些操作包括从话语树中识别中心实体,该中心实体(i)与类型详述或类型联合的修辞关系相关联,并且(ii)与识别文本的中心实体的主题节点对应。这些操作包括通过将话语树中具有动词的每个片段与预定动词签名匹配,从话语树构造交流(communicative)话语树。这些操作包括从交流话语树中识别与类型详述的修辞关系相关联并且与识别文本的中心实体的主题节点对应的中心实体。这些操作包括从交流话语树中确定与中心实体相关联的基本话语单元的子集。确定基本话语单元的子集包括识别与类型详述的关系相关联的核心基本话语单元。这些操作还包括通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语。这些操作还包括通过将一个或多个句法或语义模板应用于相应的短语来从一个或多个共同元素形成元组。每个元组是正常形式的词语的有序集合。这些操作还包括将元组中的每个元组识别为具有包括以下的类型:名词短语、动词短语、形容词短语或介词短语。这些操作还包括响应于成功地将与识别出的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,用来自识别出的元组的实体来更新本体。转换基于识别出的元组的类型。
[0016]上述方法可以被实现为有形的计算机可读介质和/或在计算机处理器和附接的存储器内操作。
附图说明
[0017]图1描绘了根据一方面的示例性本体环境。
[0018]图2描绘了根据一方面的话语树的示例。
[0019]图3描绘了根据一方面的话语树的进一步的示例。
[0020]图4描绘了根据一方面的说明性模式(schema)。
[0021]图5描绘了根据一方面的分层二叉树的节点链接表示。
[0022]图6描绘了根据一方面的图5中的表示的示例性缩进文本编码。
[0023]图7描绘了根据一方面的关于财产税的示例请求的示例性话语树。
[0024]图8描绘了对图7中表示的问题的示例性响应。
[0025]图9图示了根据一方面的用于第一回答的话语树。
[0026]图10图示了根据一方面的用于第二回答的话语树。
[0027]图11图示了根据一方面的用于第一代理的声明(claim)的交流话语树。
[0028]图12图示了根据一方面的用于第二代理的声明的交流话语树。
...

【技术保护点】

【技术特征摘要】
【国外来华专利技术】1.一种使用本体对来自用户设备的查询进行响应的计算机实现的方法,所述方法包括:为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;以及响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及响应于从用户设备接收到查询:从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;以及形成包括第一实体的第一响应和包括第二实体的第二响应;通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;通过将所述机器学习模型应用于所述查询和第二响应,为第二响应确定第二分数,所述第二分数表示所述查询与第二响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;以及响应于识别出第一分数大于第二分数,向用户设备提供第一响应。2.根据权利要求1所述的方法,还包括将元组中的每个元组识别为具有包括以下的类型:(i)名词短语,(ii)动词短语,(iii)形容词短语,或(iv)介词短语,并且其中所述转换基于所形成的元组的所述类型。3.根据权利要求2所述的方法,还包括通过以下方式识别实体类:将元组编码为向量表示;向机器学习模型提供所述向量表示;以及从所述机器学习模型接收所述实体类,其中向用户设备提供实体包括向用户设备提供所述实体类。4.根据前述权利要求中的任一项所述的方法,其中识别中心实体包括:定位所述话语树中的根节点;从所述话语树中确定终端节点的子集,所述终端节点(i)与表示类型详述的修辞相互关系的非终端节点相关联,并且(ii)表示核心基本话语单元;对于终端节点的子集中的每个节点,计算距根节点的相应的路径长度;以及
从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。5.根据前述权利要求中的任一项所述的方法,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:识别出元组的类型是名词短语或介词短语;提取中心名词或最后的名词中的一个或多个作为逻辑谓词;以及提取一个或多个其他词语作为逻辑谓词的论元。6.根据前述权利要求中的任一项所述的方法,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:识别出元组的类型是动词短语;以及提取元组的动词作为逻辑谓词并提取一个或多个其他词语作为逻辑谓词的论元。7.根据前述权利要求中的任一项所述的方法,每个元组包括以下中的一个或多个:谓词、主语和宾语。8.根据前述权利要求中的任一项所述的方法,还包括:识别与泛化短语对应的元组中的一个或多个元组的实体类,其中实体类表示实体的类别,其中所述添加包括用实体类更新本体。9.一种系统,包括:存储计算机可执行程序指令的非暂态计算机可读介质;以及处理设备,所述处理设备通信地耦合到所述非暂态计算机可读介质以用于执行所述计算机可执行程序指令,其中执行所述计算机可执行程序指令将所述处理设备配置为执行包括以下的操作:为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及响应于从用户设备接收到查询:从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;形成包括第一实体的第一响应和包括第二实体的第二响应;
通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;通过将所述机器学习模型应用于所述查询和第二响应,为第二响应确定第二分数,所述第二分数表示所...

【专利技术属性】
技术研发人员:B
申请(专利权)人:甲骨文国际公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1