一种基于多模态知识融合增强的问答方法和装置制造方法及图纸

技术编号：42869604 阅读：22 留言：0更新日期：2024-09-27 17:30

本申请公开一种基于多模态知识融合增强的问答方法和装置，方法包括，将输入的第一文档数据转换成超文本标记语言格式的第二文档数据，第一文档数据和第二文档数据具有不同格式，第一文档数据包括文本数据、图片数据和表格数据中至少两种数据；解析第二文档数据，得到第三文本数据；利用大语言模型识别第三文本数据的上下文关联信息，并根据上下文关联信息将第三文本数据拆分为多个第三上下文分块；对多个第三上下文分块进行向量化处理，得到第三文本数据对应的第三文本向量，并将第三文本向量和第三文本数据存入文档向量数据库，以利用文档向量数据库存储的第三文本数据和第三文本向量进行文档问答。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及问答，特别涉及一种基于多模态知识融合增强的问答方法和装置。

技术介绍

1、文档问答(document question answering)是大语言模型的一个重要应用，它可以使计算机程序理解并回答人类使用自然语言提出的问题。这种技术的意义在于，它可以让计算机程序更方便地与人类进行交流，使人们更容易地从大量知识文档中获取信息。

2、用于文档问答时，大语言模型可以接收用户输入的问题，然后根据问题在存储有大量文档的数据库中检索适于回答该问题的文档并进行输出。

3、目前现有的大语言模型文档问答方法在向数据库输入文档时，需要输入文档为txt格式，以方便对其文本内容进行直接读取。但在现实生产生活中，常用文档格式为pdf、word、excel等，现有的文档回答方法无法对这些文档进行合理解析，这就导致大语言模型无法正确理解输入到数据库的文档，进而无法根据这些文档正确回答用户输入的问题。

技术实现思路

1、为此，本申请公开如下技术方案：

2、本申请第一方面提供一种基于多模态知识融合增强的问答方法，包括：

3、将输入的第一文档数据转换成超文本标记语言格式的第二文档数据，所述第一文档数据和所述第二文档数据具有不同格式，所述第一文档数据包括文本数据、图片数据和表格数据中至少两种数据；

4、解析所述第二文档数据，得到第三文本数据；

5、利用大语言模型识别所述第三文本数据的上下文关联信息，并根据所述上下文关联信息将所述第三文本数

6、对多个所述第三上下文分块进行向量化处理，得到所述第三文本数据对应的第三文本向量，并将所述第三文本向量和所述第三文本数据存入文档向量数据库，以利用所述文档向量数据库存储的所述第三文本数据和所述第三文本向量进行文档问答。

7、可选的，所述解析所述第二文档数据，得到第三文本数据，包括：

8、识别所述第二文档数据的表格数据、文本数据和图片数据；

9、解析所述第二文档数据中表格数据的表头文本内容和表格文本内容，并将所述表头文本内容和所述表格文本内容按预设格式组合得到所述表格数据对应的表格文本数据；

10、解析所述第二文档数据中图片数据，得到用于描述所述图片数据的图片文本数据；

11、将所述第二文档数据中文本数据、所述表格文本数据和所述图片文本数据组合，得到第三文本数据。

12、可选的，所述利用大语言模型识别所述第三文本数据的上下文关联信息，包括：

13、根据所述第三文本数据的文本分隔标识确定出所述第三文本数据包含的每一语句；

14、利用大语言模型识别每一所述语句的关键词；

15、根据所述语句的所述关键词确定不同语句之间的关联性，所述第三文本数据中不同语句之间的关联性组成所述第三文本数据的上下文关联信息。

16、可选的，还包括：

17、获得目标问题；

18、在所述文档向量数据库中查找和所述目标问题匹配的所述第三文本数据；

19、根据查找到的所述第三文本数据输出所述目标问题对应的目标答案。

20、可选的，所述将所述第三文本向量和所述第三文本数据存入文档向量数据库，包括；

21、将所述第三文本向量、所述第三文本数据和所述第三文本数据的溯源数据存入文档向量数据库；

22、所述根据查找到的所述第三文本数据输出所述目标问题对应的目标答案之后，还包括：

23、输出查找到的所述第三文本数据对应的溯源数据和标注信息，所述标注信息用于指示所述目标答案和所述溯源数据的关联关系。

24、本申请第二方面提供一种基于多模态知识融合增强的问答装置，包括：

25、转换单元，用于将输入的第一文档数据转换成超文本标记语言格式的第二文档数据，所述第一文档数据和所述第二文档数据具有不同格式，所述第一文档数据包括文本数据、图片数据和表格数据中至少两种数据；

26、解析单元，用于解析所述第二文档数据，得到第三文本数据；

27、拆分单元，用于利用大语言模型识别所述第三文本数据的上下文关联信息，并根据所述上下文关联信息将所述第三文本数据拆分为多个第三上下文分块；

28、处理单元，用于对多个所述第三上下文分块进行向量化处理，得到所述第三文本数据对应的第三文本向量，并将所述第三文本向量和所述第三文本数据存入文档向量数据库，以利用所述文档向量数据库存储的所述第三文本数据和所述第三文本向量进行文档问答。

29、可选的，所述解析单元解析所述第二文档数据，得到第三文本数据时，具体用于：

30、识别所述第二文档数据的表格数据、文本数据和图片数据；

31、解析所述第二文档数据中表格数据的表头文本内容和表格文本内容，并将所述表头文本内容和所述表格文本内容按预设格式组合得到所述表格数据对应的表格文本数据；

32、解析所述第二文档数据中图片数据，得到用于描述所述图片数据的图片文本数据；

33、将所述第二文档数据中文本数据、所述表格文本数据和所述图片文本数据组合，得到第三文本数据。

34、可选的，所述拆分单元利用大语言模型识别所述第三文本数据的上下文关联信息时，具体用于：

35、根据所述第三文本数据的文本分隔标识确定出所述第三文本数据包含的每一语句；

36、利用大语言模型识别每一所述语句的关键词；

37、根据所述语句的所述关键词确定不同语句之间的关联性，所述第三文本数据中不同语句之间的关联性组成所述第三文本数据的上下文关联信息。

38、可选的，所述装置还包括问答单元，用于：

39、获得目标问题；

40、在所述文档向量数据库中查找和所述目标问题匹配的所述第三文本数据；

41、根据查找到的所述第三文本数据输出所述目标问题对应的目标答案。

42、可选的，所述处理单元将所述第三文本向量和所述第三文本数据存入文档向量数据库时，具体用于；

43、将所述第三文本向量、所述第三文本数据和所述第三文本数据的溯源数据存入文档向量数据库；

44、所述问答单元根据查找到的所述第三文本数据输出所述目标问题对应的目标答案之后，还用于：

45、输出查找到的所述第三文本数据对应的溯源数据和标注信息，所述标注信息用于指示所述目标答案和所述溯源数据的关联关系。

46、本方案的有益效果在于：将包括文本、图片和表格等多模态数据的文档数据转换成超文本标记语言格式，进而通过解析超文本标记语言的方式多模态的文档数据全部转换成大语言模型能够识别和处理的文本数据，使得大语言模型能够正确理解输入数据库的包含多模态数据的文档，从而能够利用这些文档正确回答用户的问题。

本文档来自技高网...

【技术保护点】

1.一种基于多模态知识融合增强的问答方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述解析所述第二文档数据，得到第三文本数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用大语言模型识别所述第三文本数据的上下文关联信息，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第三文本向量和所述第三文本数据存入文档向量数据库，包括；

6.一种基于多模态知识融合增强的问答装置，其特征在于，包括：

7.根据权利要求6所述的装置，其特征在于，所述解析单元解析所述第二文档数据，得到第三文本数据时，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述拆分单元利用大语言模型识别所述第三文本数据的上下文关联信息时，具体用于：

9.根据权利要求6所述的装置，其特征在于，所述装置还包括问答单元，用于：

10.根据权利要求9所述的装置，其特征在于，所述处理单元将所述第三文本向量和所述第三文本数据存入文档向量数据库时，具体用于；

...

【技术特征摘要】

1.一种基于多模态知识融合增强的问答方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述解析所述第二文档数据，得到第三文本数据，包括：

3.根据权利要求1所述的方法，其特征在于，所述利用大语言模型识别所述第三文本数据的上下文关联信息，包括：

4.根据权利要求1所述的方法，其特征在于，还包括：

5.根据权利要求4所述的方法，其特征在于，所述将所述第三文本向量和所述第三文本数据存入文档向量数据库，包括；

6.一种基于多模态知识融合...

【专利技术属性】
技术研发人员：宋勇，周雨忱，袁志勇，叶晓舟，欧阳晔，
申请(专利权)人：亚信科技中国有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人