一种应用于音频数据的多模态实体关系抽取方法技术

技术编号：44670560 阅读：6 留言：0更新日期：2025-03-19 20:25

本发明专利技术公开了一种应用于音频数据的多模态实体关系抽取方法，包括：构建音频实体关系数据集；通过音频实体关系数据集进行大模型训练，获得优化后的大模型，包括：对音频实体关系数据集进行Whisper模型转换处理，获得对应的文本数据，结合连接模块对文本数据进行优化，获得优化后的文本数据，基于优化后的文本数据，利用GPT‑3模型进行实体关系抽取以及文本预测，分别生成实体关系三元组以及文本预测的概率分布；将待处理的音频数据输入优化后的大模型，获得对应的实体关系抽取结果。该方法实现了对音频数据的高效、准确实体关系抽取，提升了从非结构化数据中获取有价值信息的能力，为智能交互等领域的智能化升级提供了有力支持。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术信息抽取领域，更具体的说是涉及一种应用于音频数据的多模态实体关系抽取方法。

技术介绍

1、随着人工智能技术的飞速发展，自然语言处理领域对数据的需求日益增长。尤其在海量开放域、非结构化数据迅速积累的背景下，如何从中有效获取有价值的信息，并减少噪声对结果的干扰，成为了信息抽取任务中的重大挑战。实体关系抽取作为信息抽取的核心任务之一，其目的是从文本或其它形式的数据中识别出实体以及它们之间的关系，这些关系三元组对于知识图谱构建、机器阅读、文本摘要、问答系统等下游任务具有奠基性意义。

2、现有技术在处理实体关系抽取任务时存在若干显著缺陷，特别是在多模态数据处理方面。首先，传统的流水线方法依赖于将实体关系抽取任务分解为实体识别和关系分类两个独立的步骤，这种做法容易导致错误传播的问题。一旦实体识别阶段出现误判，后续的关系分类必然受到影响，最终影响整体的抽取精度。此外，该方法未能充分利用实体与关系之间的内在关联，这在一定程度上造成了信息的损失，限制了其在复杂场景下的应用效果。

3、其次，联合抽取方法虽然尝试解决流水线方法的一些弊端，如通过直接从源数据中输出实体关系三元组来避免分步处理带来的误差，但它主要集中在单一任务上，对于自然语言处理领域的其他任务缺乏适应性。随着大模型的发展，这些模型展示了更强的语言理解和处理能力，在多种nlp任务中取得了优异的成绩。然而，现有的联合抽取方法未能充分利用大模型的优势，从而在泛用性和性能提升方面显得不足。

4、最后，当前针对音频数据的实体关系抽取研究相对匮乏，大多数

5、因此，如何实现对音频等多模态数据更高效、准确的实体关系抽取，提升从非结构化数据中获取有价值信息的能力是本领域技术人员亟需解决的问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种应用于音频数据的多模态实体关系抽取方法，其通过构建音频实体关系数据集、设计大模型进行音频转文本处理、结合优化模块减少信息损失，并利用大模型进行实体关系抽取，旨在提高多模态情况下实体关系抽取的准确性和效率，为信息抽取领域的发展提供新的思路和技术支持。

2、为了实现上述目的，本专利技术采用如下技术方案：

3、一种应用于音频数据的多模态实体关系抽取方法，包括：

4、s1、构建音频实体关系数据集；

5、s2、通过音频实体关系数据集进行大模型训练，获得优化后的大模型；所述大模型训练包括：

6、s21、对音频实体关系数据集进行whisper模型转换处理，获得对应的文本数据；

7、s22、结合连接模块对文本数据进行优化，获得优化后的文本数据；

8、s23、基于优化后的文本数据，利用gpt-3模型进行实体关系抽取以及文本预测，分别生成实体关系三元组以及文本预测的概率分布；

9、s3、将待处理的音频数据输入优化后的大模型，获得对应的实体关系抽取结果。

10、进一步的，所述s1，包括：

11、选择包括原始文本和对应实体关系三元组列表的duie数据集作为数据源；在duie数据集中，数据以json格式存储，包括text字段和spo_list字段；

12、利用python的json库解析duie数据集中的json格式文件，提取text字段中的内容作为待合成的文本，并将待合成的文本保存为txt格式文件；且提取spo_list字段中包括的实体关系信息作为标签数据；

13、结合elevenlabs模型中的run函数，将待合成的文本转换为音频数据，并对应所述标签数据，获得音频实体关系数据集。

14、进一步的，所述s21中，对待处理的音频数据进行whisper模型转换处理，包括：

15、将音频实体关系数据集中的音频数据通过特征提取模块转换为音频特征向量，并对所述音频特征向量进行位置编码；

16、通过多头注意力模块对位置编码后的音频特征向量进行处理，捕捉长距离依赖关系；

17、结合前馈神经网络对多头注意力模块处理后的音频特征向量进行非线性变换，获得增强后的音频特征表示；

18、将增强后的音频特征表示和位置编码后的音频特征向量进行残差连接处理，获得残差连接处理后的结果；

19、对残差连接处理后的结果，进行多个连续的多头注意力模块和前馈神经网络处理，获得音频数据处理结果。

20、进一步的，所述s21中，对待处理的音频数据进行whisper模型转换处理，还包括：

21、将音频实体关系数据集中的音频-文本对通过特征提取模块转换为文本特征向量，并对所述文本特征向量进行位置编码；

22、通过多头注意力模块对位置编码后的文本特征向量进行处理，捕捉长距离依赖关系；

23、通过交叉注意力模块对多头注意力模块处理后的文本特征向量和所述音频数据处理结果进行交叉处理，获得交叉处理结果；

24、结合前馈神经网络对交叉处理结果进行非线性变换，获得增强后的音频特征表示；

25、对增强后的音频特征表示，进行多个连续的多头注意力模块、交叉注意力模块和前馈神经网络处理，获得文本数据。

26、进一步的，所述多头注意力模块对特征向量的处理过程，包括：

27、对特征向量进行层归一化处理，获得层归一化的向量；

28、将层归一化的向量输入多头注意力结构，获得融合后的信息；其中，在多头注意力结构中，每个注意力头独立执行注意力计算，多个注意力头并行处理；

29、对融合后的信息与嵌入特征进行残差连接处理，并进行层归一化处理，获得层归一化处理后的结果；

30、将层归一化处理后的结果输入多层感知机，获得多层感知机的输出；

31、将多层感知机的输出与层归一化处理后的结果进行残差连接处理，并进行层归一化处理，获得多头注意力模块的输出结果。

32、进一步的，所述交叉注意力模块进行交叉处理，包括：

33、通过独立的全连接层分别处理音频数据和文本数据，生成音频数据和文本数据对应的查询向量、键向量和值向量；

34、计算文本数据对应的查询向量和音频数据对应的键向量的点积并进行缩放处理，获得注意力分数；

35、对注意力分数进行归一化处理，并与音频数据对应的值向量相乘，获得第一注意力计算结果；

36、计算音频数据对应的查询向量和文本数据对应的键向量的点积并进行缩放处理，获得注意力分数；

37、对注意力分数进行归一化处理，并与文本数据对应的值向量相乘，获得第二注意力计算结果；

38、基于第一注意力计算结果和第二注意力计算结果，获得交叉注意本文档来自技高网...

【技术保护点】

1.一种应用于音频数据的多模态实体关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述S1，包括：

3.根据权利要求1所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述S21中，对待处理的音频数据进行Whisper模型转换处理，包括：

4.根据权利要求3所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述S21中，对待处理的音频数据进行Whisper模型转换处理，还包括：

5.根据权利要求4所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述多头注意力模块对特征向量的处理过程，包括：

6.根据权利要求4所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述交叉注意力模块进行交叉处理，包括：

7.根据权利要求1所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述S22，包括：

8.根据权利要求1所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述S23，包括：

9.根据权利要求8所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，通过输出层生成实体关系三元组，包括：

10.根据权利要求8所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，通过输出层生成文本预测的概率分布，包括：

...

【技术特征摘要】

1.一种应用于音频数据的多模态实体关系抽取方法，其特征在于，包括：

2.根据权利要求1所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述s1，包括：

3.根据权利要求1所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述s21中，对待处理的音频数据进行whisper模型转换处理，包括：

4.根据权利要求3所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述s21中，对待处理的音频数据进行whisper模型转换处理，还包括：

5.根据权利要求4所述的一种应用于音频数据的多模态实体关系抽取方法，其特征在于，所述多头注意力模块对特征向量的处理...

【专利技术属性】
技术研发人员：李孟书，吴晨韬，王立才，刘飞欧，王浩铭，王思宇，
申请(专利权)人：中国电子科技集团公司第十五研究所，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人