【技术实现步骤摘要】
【国外来华专利技术】依赖于话语树以构建本体
[0001]相关申请的交叉引用
[0002]本申请要求于2021年9月3日提交的美国专利申请No.17/466,409的优先权,该申请要求于2021年1月7日提交的美国临时申请No.63/134,757的权益,这些申请的内容在此通过引用将其整体并入本文以用于所有目的。
[0003]本公开一般涉及语言学。更具体地,本公开涉及使用话语技术来形成本体(ontology)。
技术介绍
[0004]语言学是语言的科学研究。语言学的一方面是将计算机科学应用于人类自然语言,诸如英语。由于极大提高的处理器的速度和存储器的容量,语言学的计算机应用正在增加。例如,启用计算机的对语言话语的分析促进了可以回答来自用户的问题的许多应用,诸如自动化代理。但此类应用无法利用丰富的话语相关信息来形成本体,从而导致回答问题、执行对话管理或提供推荐系统方面较差。
技术实现思路
[0005]一般而言,本专利技术的系统、设备和方法涉及使用话语技术来生成或扩展本体。在示例中,计算机实现的方法确定话语树中与中心实体相关联的文本。该方法对文本进行泛化(generalize)。
[0006]在一方面,一种扩展本体的方法包括从包括片段的文本生成表示片段之间的修辞相互关系(relationship)的话语树。话语树包括节点,每个非终端节点表示两个片段之间的修辞相互关系,并且话语树的节点中的每个终端节点与片段中的一个相关联。该方法还包括从话语树中识别与不是类型详述(elaboration)或类型联合(joi
【技术保护点】
【技术特征摘要】
【国外来华专利技术】1.一种使用本体对来自用户设备的查询进行响应的计算机实现的方法,所述方法包括:为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;以及响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及响应于从用户设备接收到查询:从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;以及形成包括第一实体的第一响应和包括第二实体的第二响应;通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;通过将所述机器学习模型应用于所述查询和第二响应,为第二响应确定第二分数,所述第二分数表示所述查询与第二响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;以及响应于识别出第一分数大于第二分数,向用户设备提供第一响应。2.根据权利要求1所述的方法,还包括将元组中的每个元组识别为具有包括以下的类型:(i)名词短语,(ii)动词短语,(iii)形容词短语,或(iv)介词短语,并且其中所述转换基于所形成的元组的所述类型。3.根据权利要求2所述的方法,还包括通过以下方式识别实体类:将元组编码为向量表示;向机器学习模型提供所述向量表示;以及从所述机器学习模型接收所述实体类,其中向用户设备提供实体包括向用户设备提供所述实体类。4.根据前述权利要求中的任一项所述的方法,其中识别中心实体包括:定位所述话语树中的根节点;从所述话语树中确定终端节点的子集,所述终端节点(i)与表示类型详述的修辞相互关系的非终端节点相关联,并且(ii)表示核心基本话语单元;对于终端节点的子集中的每个节点,计算距根节点的相应的路径长度;以及
从终端节点的子集中识别具有作为所述路径长度中的最小路径长度的路径长度的主题节点。5.根据前述权利要求中的任一项所述的方法,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:识别出元组的类型是名词短语或介词短语;提取中心名词或最后的名词中的一个或多个作为逻辑谓词;以及提取一个或多个其他词语作为逻辑谓词的论元。6.根据前述权利要求中的任一项所述的方法,其中将与元组中的一个或多个元组相关联的每个基本话语单元转换成相应的逻辑表示包括:识别出元组的类型是动词短语;以及提取元组的动词作为逻辑谓词并提取一个或多个其他词语作为逻辑谓词的论元。7.根据前述权利要求中的任一项所述的方法,每个元组包括以下中的一个或多个:谓词、主语和宾语。8.根据前述权利要求中的任一项所述的方法,还包括:识别与泛化短语对应的元组中的一个或多个元组的实体类,其中实体类表示实体的类别,其中所述添加包括用实体类更新本体。9.一种系统,包括:存储计算机可执行程序指令的非暂态计算机可读介质;以及处理设备,所述处理设备通信地耦合到所述非暂态计算机可读介质以用于执行所述计算机可执行程序指令,其中执行所述计算机可执行程序指令将所述处理设备配置为执行包括以下的操作:为多个文本语料库中的每个文本语料库生成本体的本体条目,所述生成包括:对于包括基本话语单元的文本语料库,形成表示基本话语单元之间的修辞相互关系的话语树,其中所述话语树包括多个节点,每个非终端节点表示所述基本话语单元中的两个基本话语单元之间的修辞相互关系,并且所述话语树的节点中的每个终端节点与所述基本话语单元中的一个基本话语单元相关联;从所述话语树中识别中心实体,所述中心实体(i)与类型详述的修辞关系相关联,并且(ii)对应于识别文本语料库的中心实体的主题节点;通过识别与不是类型详述或类型联合的修辞关系相关联的核心基本话语单元,从所述话语树中确定与所述中心实体相关联的基本话语单元的子集;通过在与基本话语单元的子集相关联的文本中识别对基本话语单元的子集中的两个或更多个基本话语单元共同的一个或多个元素来形成泛化短语;通过将一个或多个句法或语义模板应用于相应的短语来从泛化短语形成元组,其中每个元组是正常形式的词语的有序集合;响应于将与所形成的元组相关联的基本话语单元转换成包括谓词和论元的逻辑表示,将来自识别出的元组的实体添加到本体;以及响应于从用户设备接收到查询:从本体中并基于所述查询获得来自多个条目的第一实体和第二实体;形成包括第一实体的第一响应和包括第二实体的第二响应;
通过将机器学习模型应用于所述查询和第一响应,为第一响应确定第一分数,所述第一分数表示所述查询与第一响应之间的(i)相关性或(ii)修辞一致性中的一个或两者;通过将所述机器学习模型应用于所述查询和第二响应,为第二响应确定第二分数,所述第二分数表示所...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。