System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于事件演化知识的多干预主体预测方法技术_技高网

一种基于事件演化知识的多干预主体预测方法技术

技术编号:44157377 阅读:0 留言:0更新日期:2025-01-29 10:28
本发明专利技术涉及一种基于事件演化知识的多干预主体预测方法,属于人工智能与自然语言处理技术领域。本方法利用大语言模型在识别历史链中关键节点结构信息方面的能力,通过追溯演化趋势相似的事件案例来获取事件演化信息转移矩阵,包括事件谓词转移矩阵、事件主体‑谓词关联矩阵、事件客体‑谓词关联矩阵,得到规则化事件案例演化信息,作为模型生成预测实体的事件链层级支撑。通过获取数据集中实体与谓词的依赖关系,识别与待补全事件谓词高度相关的历史实体,发挥谓词在事件三元组中的核心作用,从而更加准确地预测事件链条中的缺失实体。

【技术实现步骤摘要】

本专利技术涉及一种融合事件演化趋势和历史共现知识的案例知识图谱多元干预主体预测方法,属于人工智能与自然语言处理。背景知识知识图谱作为人类知识的集合,在自然语言处理领域具有很好的研究前景。传统的知识图谱通常是一个静态知识库,使用图结构的数据拓扑,以三元组(s,p,o)的形式集成事实(也称为事件),其中s、o分别表示主体和客体实体,p作为关系类型表示谓词。在现实世界中,知识是不断进化的,因此产生了时序知识图谱(tkg)的构建和应用,也就是在事件三元组的基础上增加了时间戳t。时序知识图谱补全(tkgc),旨在通过从现有事实中学习,自动推断知识图谱的缺失链接。即,在给定查询q的情况下来推断关系p,或在给定查询q的情况下来推断实体o或s。tkg为许多下游的应用场景提供了新的视角和见解,如政策制定、股票预测和对话系统等,从而引发了人们对tkg推理的研究兴趣。许多研究人员对tkg的结构和时间特征进行了建模,以用于未来事件预测。例如,ma引入了第一个基于嵌入表示的学习方法,通过对学习到的表示进行编码将四元组嵌入隐藏的潜在空间,捕获事件演化模式;boxte引入了关系依赖的动态实体表示,使个体关系能够学习不同的时间行为,从而有效地捕获时间推理模式。然而,基于嵌入的方法需要单独设计模型对不同的数据集进行训练,并且失去了tkg中事件语义方面的信息,因此,即使是轻微的数据集修改操作和时间的适应性修改,对模型来说也是难以处理的。基于规则的方法采用可理解的时间逻辑规则来预测缺失的环节。如anyburl从静态规则扩展到时序逻辑规则,获取包含时间戳的查询实体到预测实体的路径;xerte和tlogic提供了可以解释预测的可理解证据,通过学习知识图中的置信度得分来获得可靠的规则,置信度得分根据规则头和规则体之间的相似性来确定,获得的规则可用于知识图谱的构建和质量保证。但是,基于规则的方法可扩展性有限,只有相似的数据集共享相似的规则,无法捕获长期依赖关系。由于带有时间戳的知识图谱可以看作系列知识图快照/子图,也有研究将tkg视为具有不同关系连接的时间演化子图。如rtfe对关系和实体使用不同的马尔可夫模型获取知识图的演化模式,re-net以自回归的方式对事实的动态演化进行建模,tango采用神经常微分方程进行建模,re-gcn在每个图快照上使用多个图卷积层来捕获并发事实的依赖关系,采用门递归分量有效地从历史事实中学习长期时间模式。通常,在查询之前发生并与查询相关的事实被视为其历史上下文。如xerte、tgap等方法选择性地集中于重要方面的注意机制,通过计算边缘注意分数,采样相邻的历史事实,迭代地生成可解释的推理子图,实现对相关事实的自动捕捉。使用历史上下文的另一种方法在历史事实的相关性度量期间采用外部/领域知识,作为启发式或指导方针,cygnet采用了复制生成机制来识别高频重复事件,根据趋势分数汇总历史事实,以便使用更多相关线索进行预测。tkgc方法常用的基准数据集为icews和gdelt数据集,包含从综合危机预警系统存储库和全球事件、语言和语气数据库中提取的带有时间戳的事件,数据集为离散的事件四元组,现有的tkgc方法也都针对此类数据集进行设计、学习和实现。然而,真实且广泛存在于现实世界的事件往往具有较为完整的情节和一系列的事件发展路径,在实际问题的应用中,需要补全的信息是存在于完整的事件链条中某个事件元组的关键实体结点,而现有的方法主要适用于针对离散四元组信息情形,在实际应用中由于缺乏针对事件链条知识的学习和事件背景信息的获取,受到噪音干扰和知识缺失从而表现不佳。


技术介绍


技术实现思路

1、本专利技术的目的是针对现有技术存在的问题和不足,为了有效解决知识图谱多元干预主体预测的技术问题,创造性地提出一种基于事件演化知识的多干预主体预测方法。

2、本方法利用大语言模型(llm)在识别历史链中关键节点的结构信息方面的能力,通过融合事件链条演化知识和事件三元组历史依赖关系不同维度的知识,挖掘时序逻辑规则并形成规则库,提高模型高效获取和利用数据集中有效信息的能力,从而更加准确地预测事件链条中的缺失实体。

3、本专利技术的创新点包括:通过追溯演化趋势相似的事件案例获取事件演化信息转移矩阵,包括事件谓词转移矩阵、事件主体-谓词关联矩阵、事件客体-谓词关联矩阵,得到规则化事件案例演化信息,作为模型生成预测实体的事件链层级支撑。通过获取数据集中实体与谓词的依赖关系,识别与待补全事件谓词高度相关的历史实体,发挥谓词在事件三元组中的核心作用。利用大语言模型识别历史链中关键节点的结构信息方面的能力,结合基于时序逻辑规则的检索策略和少量参数高效指令调优,挖掘大语言模型在时序知识图谱补全领域的潜力,得到完整的基于事件演化知识的实体预测补全模型。

4、本专利技术采用以下技术方案实现。

5、一种基于事件演化知识的多干预主体预测方法,包括以下步骤:

6、步骤1:处理原始事件数据集,生成事件链数据集。

7、例如,首先可以基于事件数据集eeok和thucnews中安全事件文本新闻数据,使用大语言模型chatgpt3.5自动生成部分相关部门应对政策文本,融合原始文本信息和生成策略,进行人工筛选和处理后,得到可靠的带有事件过程描述及应对策略的安全事件案例库。

8、然后,对事件案例库中的每一个事件案例(事件链)进行事件三元组抽取(可以使用omnievent开源事件抽取工具包实现)。以事件链内事件发生的相对顺序作为时间戳,构造时序事件链数据集。

9、步骤2:对事件链数据集进行语义融合预处理。

10、为了提高数据集中事件表示的准确度,减少实体和事件谓词表征集合中的冗余表示形式,需要对数据集中同一实体的不同表示方式进行一致化处理。具体地,可以通过使用相似融合和共指消解的方法,对事件链中元素进行语义融合。

11、对数据集中的实体集合和谓词集合,可以使用bert模型进行嵌入表征,使用余弦相似度作为相似评判指标,统一相似度达到阈值的全局实体表征。另一方面,可以使用inception开源工具进行实体链接标注,对事件链内部存在的共指实体进行统一化,完成事件链语义融合预处理。

12、步骤3:设计事件链演化信息转移矩阵生成模块,结合相似事件链信息生成演化信息表征。

13、在转移矩阵生成模块中,为了高效获取和使用数据集中的演化信息,选择top k个相似事件链作为待补全事件链的知识来源。

14、在此过程中,以事件链中待补全实体所在三元组的谓词作为核心信息,融合事件链结构信息,可以使用bert模型对事件链条进行整体表征,使用余弦相似度作为语义相似指标。通过融合关键谓词、结构相似信息、语义相似信息作为相似指标,生成对应的相似事件链条集合。

15、之后,遍历对应的相似事件链,按照出现频率分别构造事件谓词转移矩阵、事件主体-谓词关联矩阵、事件客体-谓词关联矩阵,其分别表示事件发展转移信息、事件实体作为事件主体时与谓词的关联信息、事件实体作为事件客体时与谓词的关联信息,并由此规则化事本文档来自技高网...

【技术保护点】

1.一种基于事件演化知识的多干预主体预测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤1中,基于事件数据集,使用大语言模型自动生成部分相关部门应对政策文本,融合原始文本信息和生成策略,进行人工筛选和处理后,得到可靠的带有事件过程描述及应对策略的安全事件案例库;

3.如权利要求2所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤1中,将事件数据集中的社会安全部分数据,以文本集合形式读入;

4.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤2中,通过相似融合和共指消解的方法,对事件链数据集进行语义融合预处理;

5.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤3中,构造相似事件链集合,采用以下方法:

6.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤3中,生成事件链演化信息转移矩阵,采用以下方法:

7.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤4中,在捕获事件三元组的历史和非历史信息部分,对于实体待补全的查询q=(s,r,?),将历史事件集定义为Ds,r,将对应的历史实体集定义为Hs,r,不在Hs,r中的实体称为非历史实体:

8.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤6中,使用交叉熵损失函数,计算真实实体分布Pi(Y)与模型预测实体分布之间的差距

...

【技术特征摘要】

1.一种基于事件演化知识的多干预主体预测方法,其特征在于,包括以下步骤:

2.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤1中,基于事件数据集,使用大语言模型自动生成部分相关部门应对政策文本,融合原始文本信息和生成策略,进行人工筛选和处理后,得到可靠的带有事件过程描述及应对策略的安全事件案例库;

3.如权利要求2所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤1中,将事件数据集中的社会安全部分数据,以文本集合形式读入;

4.如权利要求1所述的一种基于事件演化知识的多干预主体预测方法,其特征在于,步骤2中,通过相似融合和共指消解的方法,对事件链数据集进行语义融合预处理;

5.如权利要求1所述的...

【专利技术属性】
技术研发人员:施重阳张蔚刘雯烁
申请(专利权)人:北京理工大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1