一种基于全局至局部聚合裂变网络的事实验证方法及系统技术方案

技术编号:34321234 阅读:43 留言:0更新日期:2022-07-31 00:14
本申请公开了一种基于全局至局部聚合裂变网络的事实验证方法及系统,该方法包括:将获取的证据语句解析为语义级关系三元组并作为证据节点构建全连接图;执行多跳实体级推理,更新证据节点的初始隐层表征获得第一裂变表征;分别将每个证据节点的第一聚合表征进行邻域信息聚合操作,得到第二聚合表征;根据所述第二聚合表征选取预设数量个价值度最高的证据节点;根据选取的证据节点以及声明的表征信息计算预测概率,输出预测概率最大的预测标签作为所述声明的验证结果;本发明专利技术通过全局至局部聚合裂变网络,获得细粒度的线索表征,并采用与迭代操作实现多跳推理以及更高阶的信息聚合,获取足够的逻辑关系,提高了事实语义验证的效率和准确性。验证的效率和准确性。验证的效率和准确性。

【技术实现步骤摘要】
一种基于全局至局部聚合裂变网络的事实验证方法及系统


[0001]本申请涉及自然语言推理与事实验证
,更具体地,涉及一种基于全局至局部聚合裂变网络的事实验证系统。

技术介绍

[0002]随着互联网的快速发展,数据信息也迎来一个爆炸式增长的时代。但在互联网上除了正确的信息以外,还存在着大量的虚假信息,譬如假新闻、谣言、政治欺骗等。因此,如何对互联网上存在的信息进行真伪判断,成为一个亟待解决的问题。事实验证任务便是指给出一个声明,要求系统从大规模文本语料库中抽取相关句子作为证据,并利用这些证据验证并判断声明的真实性。系统需要给出基于证据对声明所做出的三类判断:支持(SUPPORTED)、反对(REFUTED)或信息不足(NOT ENOUGH INFO)。
[0003]近年来,许多传统的事实验证系统使用自然语言推理技术进行证据和声明之间的关系挖掘以输出判断。而这些已有的事实验证系统通常使用三级流水线结构完成事实验证任务:首先进行文档抽取,之后进入证据抽取环节,最后进行声明验证。对于文档抽取步骤,主要存在三种思路。一是实体链接,即将文本中的某些字符串映射至知识库中对应的实体之上;二是成分分析加关键词匹配;三是成分分析加在线检索。而证据抽取可以通过关键词匹配或有监督分类这两种方式实现,例如使用ESIM增强序列推理模型计算语句间的相似度得分。声明验证步骤,也是现有大多数模型主要关注的环节。例如,Yoneda等人提出的模型推断每个声明

证据对的准确性,并通过聚合多个预测标签输出最终预测;Hanselowski等人提出的模型分别对每个声明

证据对进行编码,最终使用池化函数聚合特征用于预测。但大多数现有的传统事实验证方法都仅使用简单的模型从证据中提取相关信息,没有考虑到各个证据之间的联系,这也在一定程度上限制了其性能表现。
[0004]进一步地,通过将多证据推理集成至基于构造证据图的事实验证中,学术界提出了许多图增强自然语言推理模型,并实现了更为优异的性能表现。其中的GEAR模型首次使用BERT对证据进行编码,并设计了一个图神经网络,通过将每个证据视为一个节点对构造证据图进行信息聚合操作。DREAM模型则采用XLNet,并使用GCN和GAT对建立的语义级图进行证据推理。KGAT则创新性地采用核图注意力网络,通过在证据图上统一边缘核机制与节点核机制实现信息聚合。
[0005]虽然现有的事实验证模型已经取得了显著的进展,但依然存在以下几处不足。第一处不足是缺乏细粒度的证据线索表征,现有的模型要么将证据语句连接为单个字符串,要么只是将每个证据

声明对看作单个句子级节点。由于这些模型仅仅是在语句层面进行信息聚合,因此在实现细粒度推理方面存在很大困难。例如对于声明“长城由罗布泊延伸至沈阳”,而现有证据表明长城延伸至“丹东”而非“沈阳”,这便要求模型能区分真伪陈述之间的细微区别,但现有模型大多难以对这些关键实体做出如此细致的区分。第二处不足是难以获取足够的逻辑关系和基于跳点的声明验证。由于互联网上存在的虚假声明往往是人为捏造的,所以它们在语义层面上可能是合理的,但在逻辑层面上得不到事实支持,故而需要
模型通过已有线索获取足够的逻辑关系,进行多跳推理以做出准确判断。以声明“罗德尼金骚乱发生在美国人口最多的县”为例,证据线索表明“罗德尼金骚乱发生在洛杉矶县”、“洛杉矶县是美国人口最多的县”,事实验证模型必须以“洛杉矶县”为核心进行挖掘,并获取“罗德尼金骚乱”和“美国人口最多的县”这二者之间的潜在关系,通过多跳推理才能做出准确判断。第三处不足是缺乏对于噪声证据的滤波机制。由于在进行事实验证过程中的证据语句是从复杂的背景语料库中检索出来的,将不可避免地引入噪声。更为糟糕的是,这些噪声可能会在后续的转换处理中被进一步放大,影响事实验证系统的性能表现。

技术实现思路

[0006]针对现有技术的至少一个缺陷或改进需求,本专利技术提供了一种基于全局至局部聚合裂变网络的事实验证方法及系统,通过提取细粒度的证据线索表征信息,实现复杂逻辑关系下的事实验证,其目的在于提高声明验证的准确性。
[0007]为实现上述目的,按照本专利技术的一个方面,提供了一种基于全局至局部聚合裂变网络的事实验证方法,所述方法包括以下步骤;
[0008]获取声明与多个证据语句,将每个所述证据语句解析为至少一个语义级关系三元组;以各所述语义级关系三元组作为证据节点构建全连接图并分别生成每个证据节点的初始隐层表征;
[0009]在每个证据节点及其相邻证据节点之间进行多跳实体级对象推理,根据所述相邻证据节点的初始隐层表征对证据节点的初始隐层表征进行更新,获得每个证据节点的第一裂变表征并将其转换为第一聚合表征;
[0010]分别将每个证据节点的第一聚合表征进行邻域信息聚合操作,得到第二聚合表征;
[0011]根据所述第二聚合表征从全连接图中选取预设数量个价值度最高的证据节点;
[0012]根据选取的证据节点的第二聚合表征以及声明的初始隐层表征计算预测概率,输出所述预测概率最大的预测标签作为所述声明的验证结果。
[0013]进一步的,上述基于全局至局部聚合裂变网络的事实验证方法,还包括:
[0014]将每个证据节点的第二聚合表征转换为第二裂变表征,基于所述第二裂变表征对每个证据节点迭代执行邻域信息聚合操作。
[0015]进一步的,上述基于全局至局部聚合裂变网络的事实验证方法,所述第一裂变表征的获取方式具体为:
[0016]对于每个证据节点,分别计算其初始隐层表征中的对象表征与每个相邻证据节点的初始隐层表征中的主体表征之间的第一向量相似度;
[0017]根据所述第一向量相似度分别计算每个相邻证据节点对应的第一注意力权重;
[0018]根据所述第一注意力权重及相邻证据节点的初始隐层表征计算表征相邻证据节点的注意力向量;
[0019]根据所述注意力向量及证据节点的对象表征更新证据节点的初始隐层表征,得到第一裂变表征。
[0020]进一步的,上述基于全局至局部聚合裂变网络的事实验证方法,所述分别将每个证据节点的第一聚合表征进行邻域信息操作,得到第二聚合表征具体为:
[0021]根据每个证据节点及其相邻证据节点的第一聚合表征计算节点之间的第二向量相似度;
[0022]根据所述第二向量相似度分别计算每个相邻证据节点对应的第二注意力权重;
[0023]根据所述第二注意力权重将各相邻证据节点的第一聚合表征进行整合,得到每个证据节点的第二聚合表征。
[0024]进一步的,上述基于全局至局部聚合裂变网络的事实验证方法,所述根据第二聚合表征从全连接图中选取预设数量个价值度最高的证据节点,具体为:
[0025]计算声明的初始隐层表征与每个证据节点之间的第二聚合表征之间的语义相似度;
[0026]通过池化操作选取预设数量个语义相似度最高的证据节点。
[0027]进一步的,上述基于全局至局部聚合本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于全局至局部聚合裂变网络的事实验证方法,其特征在于,所述方法包括以下步骤;获取声明与多个证据语句,将每个所述证据语句解析为至少一个语义级关系三元组;以各所述语义级关系三元组作为证据节点构建全连接图并分别生成每个证据节点的初始隐层表征;在每个证据节点及其相邻证据节点之间进行多跳实体级对象推理,根据所述相邻证据节点的初始隐层表征对证据节点的初始隐层表征进行更新,获得每个证据节点的第一裂变表征并将其转换为第一聚合表征;分别将每个证据节点的第一聚合表征进行邻域信息聚合操作,得到第二聚合表征;根据所述第二聚合表征从全连接图中选取预设数量个价值度最高的证据节点;根据选取的证据节点的第二聚合表征以及声明的初始隐层表征计算预测概率,输出所述预测概率最大的预测标签作为所述声明的验证结果。2.如权利要求1所述的基于全局至局部聚合裂变网络的事实验证方法,其特征在于,还包括:将每个证据节点的第二聚合表征转换为第二裂变表征,基于所述第二裂变表征对每个证据节点迭代执行邻域信息聚合操作。3.如权利要求1所述的基于全局至局部聚合裂变网络的事实验证方法,其特征在于,所述第一裂变表征的获取方式具体为:对于每个证据节点,分别计算其初始隐层表征中的对象表征与每个相邻证据节点的初始隐层表征中的主体表征之间的第一向量相似度;根据所述第一向量相似度分别计算每个相邻证据节点对应的第一注意力权重;根据所述第一注意力权重及相邻证据节点的初始隐层表征计算表征相邻证据节点的注意力向量;根据所述注意力向量及证据节点的对象表征更新证据节点的初始隐层表征,得到第一裂变表征。4.如权利要求1所述的基于全局至局部聚合裂变网络的事实验证方法,其特征在于,所述分别将每个证据节点的第一聚合表征进行邻域信息操作,得到第二聚合表征具体为:根据每个证据节点及其相邻证据节点的第一聚合表征计算节点之间的第二向量相似度;根据所述第二向量相似度分别计算每个相邻证据节点对应的第二注意力权重;根据所述第二注意力权重将各相邻证据节点的第一聚合表征进行整合,得到每个证据节点的第二聚合表征。5.如权利要求1所述的基于全局至局部聚合裂变网络的事实验证方法,其特征在于,...

【专利技术属性】
技术研发人员:谢伟黄健程永靖王玮盺贾国辉徐小涛张晨
申请(专利权)人:中国人民解放军国防科技大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1