一种基于主题信息增强的大模型实体共指消解方法技术

技术编号：43667888 阅读：26 留言：0更新日期：2024-12-18 20:54

本发明专利技术涉及一种基于主题信息增强的大模型实体共指消解方法，包括：提取输入文档中所有mention和所述mention的上下文；将所述mention的上下文输入到TSECR模型，获取主题结构，将所述输入文档、所述主题结构和提示进行拼接，获取输出所述mention之间的共指关系，并将所述mention链接到对应的实体共指簇，其中所述TSECR模型基于BERTopic模型和添加提示的Transformer构建。本发明专利技术能够利用实体的上下文主题结构信息作为辅助，增强模型对共指关系的识别能力，同时降低计算开销。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理、信息抽取，特别是涉及一种基于主题信息增强的大模型实体共指消解方法。

技术介绍

1、实体共指消解(entity coreference resolution,ecr)是文本处理和信息抽取中的核心任务，旨在识别文本中的提及(mention)是否指代相同的实体。ecr在处理实体指代关系、消除歧义、建立语义连贯性以及提高语义分析的深度方面发挥着关键作用。ecr的有效解决对于机器翻译、信息抽取、问答系统和聊天机器人等应用具有重要意义，不仅可以改善这些系统的性能，还能实现更高层次的自然语言理解和推理能力。

2、以往的基于llms的实体共指消解方法存在一些关键性的不足。首先，llms通常需要极其庞大的计算资源来进行训练和微调，限制了其在资源有限环境中的应用。其次，在处理特定领域或少见的共指模式时，由于预训练数据的长尾问题，这些模型的表现往往不佳。目前llms大多采用基于self-attention的transformer架构，其自注意力机制中所学习到的权重使得模型倾向于在输入序列中建立高频共现词之间的关联，而忽视低频共现词之间的关联。这种偏见导致模型在处理模糊或多义的mention时，更倾向于赋予常见的语义，而非根据上下文准确地赋予其指代的特定实体的含义。长文本由于具有更长的指代跨度和复杂的叙事结构，模型在处理时又往往需要对文档进行截断，进一步增加了正确识别这种复杂共指关系的难度。因此，尽管llms在许多自然语言处理任务中表现出色，但在共指消解这一特定任务中，尤其是处理长文本和复杂语境时，仍然存在显著的

技术实现思路

1、本专利技术的目的是提供一种基于主题信息增强的大模型实体共指消解方法，能够利用实体的上下文主题结构信息作为辅助，增强模型对共指关系的识别能力，同时降低计算开销。

2、为实现上述目的，本专利技术提供了如下方案：

3、一种基于主题信息增强的大模型实体共指消解方法，包括：

4、提取输入文档中所有mention和所述mention的上下文；

5、将所述mention的上下文输入到tsecr模型，获取主题结构，将所述输入文档、所述主题结构和提示进行拼接，获取输出所述mention之间的共指关系，并将所述mention链接到对应的实体共指簇，其中，所述tsecr模型基于bertopic模型和添加提示的transformer模型构建。

6、可选的，将所述mention的上下文输入到tsecr模型，获取主题结构包括：利用所述bertopic模型对所述mention的上下文进行提取，获取所述主题结构，其中所述bertopic模型通过数据集训练获得，所述数据集为标记共指关系的文档。

7、可选的，添加所述提示的transformer模型包括：在所述transformer模型的每一层中添加所述提示，并随机初始化。

8、可选的，将所述输入文档、所述主题结构和提示进行拼接包括：

9、在所述transformer模型的嵌入层，将所述输入文档与所述mention的所述主题结构进行拼接，并加入所述嵌入层的提示，获取输入序列；

10、所述transformer模型的中间层在所述输入序列前拼接所述中间层的提示，获取输出结果；

11、所述transformer模型的输出层将所述输出结果映射为标签，判断所述mention之间是否有共指关系。

12、可选的，所述transformer模型的中间层在所述输入序列前拼接所述中间层的提示包括：所述中间层的任一层在前一层的输入序列前拼接当前层的提示，获取任一层的输入序列；

13、所述任一层的输入序列为：

14、h(i+1)＝transformerlayer(i)([p(i),h(i)])

15、其中，h(i+1)为输入序列在第i+1层的表示，h(i)为第i层的输入，p(i)为每一层中添加的提示，transformerlayer(i)为第i层transformer结构。

16、可选的，将所述mention链接到对应的实体共指簇包括：

17、判断所述mention与实体之间是否具有共指关系；

18、若所述mention指代已存储实体，则将所述mention纳入所述已存储实体的实体共指簇；

19、若所述mention不与所述已存储实体共指，则创建一个新的实体共指簇并进行缓存。

20、可选的，所述实体共指簇为：

21、

22、其中，p(e)为共指簇，s(m,e)是mention与实体e是否共指的打分函数，e的集合为e，s(m,e′)为mention与实体e′是否共指的打分函数，e’泛指文档中存在的任一实体，e特指当前mention正在对比的实体e。

23、可选的，所述提示的获取包括：计算损失函数对所述提示的梯度，并更新。

24、本专利技术的有益效果为：

25、1)提出了一种利用文本上下文主题结构信息来增强预训练大模型实体共指消解的方法。该方法充分利用从文本上下文中提取的主题结构信息，有效缓解了现有方法在mention表征方面的偏见，从而显著提高了模型在处理模糊或多义的复杂指代关系时的准确性和鲁棒性。

26、2)设计了一个基于主题结构信息增强的大模型实体共指消解模型(tsecr)。该模型的主题结构提取模块能够自动从上下文中准确提取与实体密切相关的主题结构信息；共指消解模块则将获取的主题结构信息与提示深度融合，以实现更精准的共指关系识别。

27、3)在多个公开数据集上进行了广泛的实验验证。结果表明，tsecr在性能上显著优于基准模型，且与最新预训练大模型方法相比，tsecr仅需使用其约1.1％的参数，即可达到其约98％的性能水平，展示了该方法的高效性和实用性。

本文档来自技高网...

【技术保护点】

1.一种基于主题信息增强的大模型实体共指消解方法，其特征在于，包括：

2.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，将所述mention的上下文输入到TSECR模型，获取主题结构包括：利用所述BERTopic模型对所述mention的上下文进行提取，获取所述主题结构，其中所述BERTopic模型通过数据集训练获得，所述数据集为标记共指关系的文档。

3.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，添加所述提示的Transformer模型包括：在所述Transformer模型的每一层中添加所述提示，并随机初始化。

4.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，将所述输入文档、所述主题结构和提示进行拼接包括：

5.根据权利要求4所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，所述Transformer模型的中间层在所述输入序列前拼接所述中间层的提示包括：所述中间层的任一层在前一层的输入序列前拼接当前层的提示，获取任一层的输入序列；p>

6.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，将所述mention链接到对应的实体共指簇包括：

7.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，所述实体共指簇为：

8.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，所述提示的获取包括：计算损失函数对所述提示的梯度，并更新。

...

【技术特征摘要】

1.一种基于主题信息增强的大模型实体共指消解方法，其特征在于，包括：

2.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，将所述mention的上下文输入到tsecr模型，获取主题结构包括：利用所述bertopic模型对所述mention的上下文进行提取，获取所述主题结构，其中所述bertopic模型通过数据集训练获得，所述数据集为标记共指关系的文档。

3.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，添加所述提示的transformer模型包括：在所述transformer模型的每一层中添加所述提示，并随机初始化。

4.根据权利要求1所述的基于主题信息增强的大模型实体共指消解方法，其特征在于，将所...

【专利技术属性】
技术研发人员：刘小明，吴彦博，许进忠，杨关，杨华，吴佳昊，
申请(专利权)人：中原工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人