System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及知识图谱,特别是涉及一种基于多粒度隐含时态感知的时间知识图谱问答方法。
技术介绍
1、在实际应用中,事实性知识往往会随着时间的推移而发生演变,例如世界杯主办国的更替。这种知识随时间的动态变化对时间知识的管理提出了更高要求,因此当前研究的趋势之一是使用时间知识图谱(tkgs)来捕捉和表示时间维度上的信息演变。时间知识图谱问答(tkgqa)是知识图谱问答(kgqa)任务的一个重要分支,旨在从时间知识图谱中提取实体或时间戳,以回答涉及时间推理的问题。
2、tkgqa任务的主流方法可以分为两类:基于规则的方法和基于嵌入的方法。基于规则的方法,如通过预设模板将问题分解为非时态子问题和时态子问题,或通过逻辑推理直接从时间知识库中学习时序逻辑规则,这些方法依赖于人工制定的规则或基于知识库的提取,对复杂问题的泛化能力较弱。而基于嵌入的方法则是通过将问题和知识库子图编码到公共嵌入空间,实现问题与答案的匹配。例如,cronkgqa是第一个专门为时间知识图谱任务设计的模型,它将预训练语言模型与tkg直接结合以生成答案,但在复杂时态推理任务中表现欠佳。tempoqr模型提出了解决时间约束问题的推理框架,通过对问题的再编码提升推理性能,然而其对时间的编码只是进行了静态时间戳的嵌入,忽略了时间之间的动态依赖关系。总体来看,当前方法多集中于单粒度时态问题的处理,忽视了多粒度时态信息在实际应用中的复杂性,导致现有方法对多层次时间依赖和复杂时态关系的问题表现不够理想。另外,现有方法对复杂的隐式多粒度时间关注不够。
3、tkg
4、在tkgqa领域,时间知识图谱问答任务通常有两类解决方案。一种方案是将问题分解为若干非时间问题和时间约束,然后用为传统知识图谱设计的问答模型来回答问题,再通过时间约束选出答案,如tequila。然而,这种方法依赖于手工制作的规则,难以应对复杂问题的多样性。第二种方法是通过获取时间知识图谱的嵌入来计算答案的语义相似度。例如,cronkgqa引入了一种可学习的推理过程,在简单问题上表现出色,但无法很好处理隐式时间信息,对复杂时间推理的效果不理想。tempoqr模型通过引入每个问题的时间范围信息,并结合eae方法增强了问题的语义表示。然而,tempoqr方法依赖于预训练语言模型的问题嵌入表示,因此其推理过度依赖于问题中的实体信息,在处理“before”、“after”、“first”和“last”等隐式时间问题时仍显不足。其后的multiqa提出了多粒度时态的概念,设计了多粒度时间聚合模块multiqa以丰富时间属性。然而,multiqa的推理能力主要依赖于tkg嵌入预训练过程中获得的互补推理能力,因此仍存在局限性,尤其是在处理如“first”、“before”等复杂约束时表现不佳。
5、在tkgqa领域,位置编码是捕捉时间序列信息中的顺序和位置特征的重要方法。传统位置编码方法主要分为两类:固定位置编码和可学习位置编码。固定位置编码在早期的研究中被广泛应用,如在transformer模型中使用的正弦和余弦函数生成的位置编码。这种方法通过预定义的函数生成位置编码,虽然计算效率高,但其缺乏对数据特征的自适应性,在处理复杂且多变的时间序列数据时表现有限。其后,研究人员提出了可学习的位置编码,允许模型在训练过程中学习最佳的编码方式,从而适应不同的数据特征。然而,在面对多粒度时态数据时,该方法的效果依然受限。
技术实现思路
1、本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于多粒度隐含时态感知的时间知识图谱问答方法。
2、为了实现本专利技术的上述目的,本专利技术提供了一种基于多粒度隐含时态感知的时间知识图谱问答方法,包括以下步骤:
3、s1,获取问题文本,并识别问题文本中的实体信息和时间信息;其中,实体信息为时间知识图谱四元组中的头实体或尾实体,关系为头实体和/或尾实体。
4、s2,采用基于嵌入的表示学习方法,将提取到的信息在时间知识图谱(tkg)中进行检索,得到头实体嵌入es、尾实体嵌入eo,以及时间嵌入tτ;
5、时序知识图谱定义为带有时间戳的有向图g=(e,r,t),其中e是实体集合,包含∣e∣种不同实体,r是关系集合,包含∣r∣种不同关系;t是时间戳信息集合,包含∣t∣种不同时间戳。时序知识图谱也可以看作由每个时间戳上的静态知识图谱构成的集合,即g={g1,g2,…,gt}。每个时间戳τ的知识可以表示为四元组(s,r,o,τ),其中:s,o∈e分别表示主实体和客实体;r∈r表示关系,τ∈t表示时间戳。为方便表示,主实体s、关系r、客实体o和时间戳τ可以分别用嵌入表示。此处也可以采用另一种模型化形式,即用(h,r,t,τ)表示四元组,其中h为头实体,t为尾实体。
6、在时序知识图谱(temporal knowledge graph,tkg)的构建过程中,首要任务是从多样化的时序数据中抽取实体、关系和时间信息。这些数据来源包括结构化、非结构化以及半结构化数据。在完成事实三元组的抽取后,需要进行知识融合。
7、知识融合旨在整合来自不同数据源或时间点的时序知识图谱,形成一个准确且一致的数据集。此过程不仅关注实体、关系和属性的融合,还需确保这些元素在时间维度上的一致性。
8、tkg的构建不仅是对时序数据的简单整合与表示,更重要的是通过知识计算对图谱中的信息进行深度分析与推理,从而挖掘潜在信息,提升知识的完备性与准确性。知识计算的核心在于知识推理,通过已本文档来自技高网...
【技术保护点】
1.一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,步骤S3包括:
3.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,S4包括以下步骤:
4.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,所述编码器为自学习型编码器,采用自学习型编码器编码得到编码后的位置嵌入Y,包括:
5.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,S5包括以下步骤:
6.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,包括:用命名实体识别工具识别问题文本中的实体信息,用时间抽取工具获取时间信息。
7.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,集成学习层的损失函数为交叉熵损失。
【技术特征摘要】
1.一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,步骤s3包括:
3.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,s4包括以下步骤:
4.根据权利要求1所述的一种基于多粒度隐含时态感知的时间知识图谱问答方法,其特征在于,所述编码器为自学习型编码器,采用自学习型编码器编码...
【专利技术属性】
技术研发人员:卢玲,方纪祥,刘小洋,黄丹,胡冲,李雨林,左莉,
申请(专利权)人:重庆理工大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。