一种多源多模态数据的可视化搜索方法及系统技术方案

技术编号：41130509 阅读：25 留言：0更新日期：2024-04-30 17:59

本发明专利技术公开了一种多源多模态数据的可视化搜索方法及系统，涉及信息检索技术领域。本发明专利技术通过对不同数据类型的数据通过不同特征的提取方式进行提取，并从数据二号库中获取特征并建立特征空间，在特征空间中，实现不同数据类型但同一特征的相关联，该设计能够有效地提高对不同模态数据的处理，通过特征空间直接的相关系数建立出特征空间之间的关联网络，在建立出特征空间之间的关联网络之后，将特征空间之间的关联网络对整个数据二号库进行处理，进而获得完全的特征空间之间的关联网络，从而能够有效地整合不同数据源的多种类型数据，并建立跨模态之间的关联，同时特征空间之间的关联网络也会后续的数据搜索提供了便利。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息检索，具体为一种多源多模态数据的可视化搜索方法及系统。

技术介绍

1、多源多模态数据指的是来自不同数据源的不同类型的数据，不同类型包括文本，图像、视频和音频，可视化搜索方法是一种将搜索结果以可视化形式呈现给用户的技术，传统的文本搜索结果通常以列表或网格的形式展示，而可视化搜索方法可以通过图表、地图、图像等视觉化方式呈现搜索结果，使用户更直观地理解和发现信息。

2、多源多模态数据一般涵盖各种不同的数据类型和格式，例如图片、文本、音频、视频等，由于这些数据之间具有很大的异构性，数据类型都具有特定的表示形式和特征，不同数据类型的数据通常具有不同的数据结构，不同数据类型的数据其表示形式和组织方式各不相同，不同数据类型的数据具有不同的特征表达方式，因此在实现多模态数据的搜索时需要能够有效处理不同模态的数据，在处理多源多模态数据时，面临的关键问题是如何有效地整合来自不同数据源的多种类型数据，并建立跨模态之间的关联，为此专利技术了一种多源多模态数据的可视化搜索方法及系统。

技术实现思路

1、为了实现多模态数据的搜索时能够有效地整合不同模态的数据，同时在建立不同模态数据之间的联系，从而实现多模态数据的搜索以及提高多模态数据搜索的效率，进而实现整合来自不同数据源的多种类型数据，并建立跨模态之间的关联。

2、为实现上述目的，本专利技术提供如下技术方案：一种多源多模态数据的可视化搜索方法，方法包括：

3、s01，多源多模态数据的收集和预处理，从各个数

4、s02，建立跨模态数据的关联模型，通过关联模型数据二号库中的数据进行处理，增大特征空间之间的关联网络；

5、s03，建立智能搜索引擎，将结合了自然语言处理技术的人工智能系统与常规数据搜索引擎相结合并建立交互界面,用户通过交互界面发出搜索命令，人工智能系统对搜索命令进行特征提取，获得搜索特征，将搜索特征转化为搜索特征集；

6、s04，结果反馈，使用跨模态数据的关联模型对搜索特征集进行检索得到反馈数据，智能搜索引擎将反馈数据以可视化方式展示给用户，反馈数据从数据二号库获取并附上与数据一号库的对应链接；

7、建立跨模态数据的关联模型的方法包括：

8、第一步，从数据二号库获取建模和训练的训练数据集，训练数据集中包含有不同模态的数据；

9、第二步，获取训练数据集的特征，每个数据含有至少一个特征值，不同特征值之间存在相关性，将含有相同特征值的数据映射在同一特征空间中，并基于特征值之间存在相关性设置不同特征空间之间的相关系数；

10、第三步，基于不同特征空间之间的相关系数，创建特征空间之间的关联网络得到关联模型；

11、第四步，模型优化，通过训练用数据对关联模型进行训练，并在训练中优化和修正关联模型；

12、s04步骤中，智能搜索引擎将搜索特征集与关联模型中的特征空间相对应得到至少一个目标特征空间，搜索引擎内设置有相关系数，关联模型将与各个目标特征空间均存在关联且相关系数大于关联系数的特征空间作为反馈空间，反馈空间内的特征所对应的数据为反馈数据；

13、基于反馈数据用户根据自身需求选择是否对反馈数据进行二次筛选。

14、更进一步地，多模态数据的预处理方法：

15、第一步，对每种模态的数据进行清洗，去除噪声、重复项和不完整的数据，使用图像处理技术去除图像中的噪点或伪影，对文本进行拼写和语法纠正，对音频进行降噪处理；

16、第二步，通过特征提取对每种模态的数据提取关键特征。

17、更进一步地，特征提取包括：对于图像数据，使用卷积神经网络来提取图像特征，对于文本数据，通过自然语言处理技术提取文本特征；对于音频数据，通过梅尔频率倒谱系数提取音频的频谱特征和通过语言识别技术获得音频的音频文字特征。

18、更进一步地，建立智能搜索引擎的方法包括：

19、第一步，应用自然语言处理技术，自然语言处理技术对文本信息进行分析和理解，得到文本中的特征；

20、第二步，利用计算机视觉技术和人工智能，对用户所传的图像内容进行分析，获得图像中的特征；

21、第三步，应用语音识别和音频特征提取，对用户所传音频内容进行分析，获取音频内容的特征；

22、第四步，获得搜索特征，将搜索特征转化为搜索特征集，搜索特征集对应特征空间之间关联网络中的特征空间，根据对应特征空间，从数据二号库中选取对应的预处理后数据，在搜索引擎中添加处理模块，处理模块负责接收用户的搜索命令，并将搜索命令进行特征提取；

23、第五步，利用自然语言生成技术，对搜索结果进行摘要生成，利用自然语言生成技术对搜索结果进行总结，获得总结内容，同时生成摘要，摘要包括主题和重点内容，自然语言生成技术基于搜索结果，判断搜索结果中是否存在数值，在存在数值的情况下，判断数值是否可以生成图表，在能生成图表的情况下，自然语言生成技术获取数值和数值所对应的主体生成图表；

24、搜索特征包括文本中的特征、图像中的特征和音频内容的特征。

25、更进一步地，建立智能搜索引擎的方法包括：

26、第一步，利用自然语言处理和深度学习技术，帮助搜索引擎理解用户意图；

27、第二步，基于用户的历史搜索记录、浏览行为和兴趣偏好，使用机器学习算法构建个性化推荐；

28、第三步，结合自然语言处理和特征空间之间的关联网络，开发智能问答系统；

29、使用自然语言处理技术，将用户输入的搜索命令转化成机器可读的格式，人工智能技术处理搜索命令，并提取搜索命令中的搜索特征。

30、更进一步地，二次筛选的方法包括，用户通过交互界面发出的搜索命令，人工智能技术利用自然语言处理技术对搜索命令首次进行分析，获得搜索命令的特征，通过搜索命令的特征获得多模态数据后，用户通过交互界面再次发出搜索命令，人工智能技术利用自然语言处理技术对搜索命令再次进行分析，获得第二次搜索命令的特征，根据第二次搜索命令的特征对获得多模态数据进行筛选。

31、更进一步地，相关系数为不同特征空间之间具有相同预处理后的数据数量与特征空间内预处理后的数据总量之比。

32、更进一步地，生成图表的方法包括，自然语言生成技术对搜索结果进行处理，自然语言生成技术自动标记搜索结果中数值和数值所对应的主体，自然语言生成技术通过搜索结果表达的信息和数值和数值所对应的主体的表达信息，结合数值和数值所对应的主体自动生成图表，图表显示在交互界面上。

33、一种多源多模态数据的可视化搜索系统，采用了上述的一种多源多模态数据的可视化搜索方法。

34、与本文档来自技高网...

【技术保护点】

1.一种多源多模态数据的可视化搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述多模态数据的预处理方法：

3.根据权利要求2所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述特征提取包括：对于图像数据，使用卷积神经网络来提取图像特征，对于文本数据，通过自然语言处理技术提取文本特征，对于音频数据，通过梅尔频率倒谱系数提取音频的频谱特征和通过语言识别技术获得音频的音频文字特征。

4.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述建立智能搜索引擎的方法包括：

5.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述建立智能搜索引擎的方法包括：

6.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述二次筛选的方法包括，用户通过交互界面发出的搜索命令，人工智能技术利用自然语言处理技术对搜索命令首次进行分析，获得搜索命令的特征，通过搜索命令的特征获得多模态数据后，用户通过交互界面再次发出搜索命令

7.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述相关系数为不同特征空间之间具有相同预处理后的数据数量与特征空间内预处理后的数据总量之比。

8.根据权利要求4所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述生成图表的方法包括，自然语言生成技术对搜索结果进行处理，自然语言生成技术自动标记搜索结果中数值和数值所对应的主体，自然语言生成技术通过搜索结果表达的信息和数值和数值所对应的主体的表达信息，结合数值和数值所对应的主体自动生成图表，图表显示在交互界面上。

9.一种多源多模态数据的可视化搜索系统，其特征在于：采用了权利要求1-8任意一项所述的一种多源多模态数据的可视化搜索方法。

...

【技术特征摘要】

1.一种多源多模态数据的可视化搜索方法，其特征在于，所述方法包括：

2.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述多模态数据的预处理方法：

4.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述建立智能搜索引擎的方法包括：

5.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述建立智能搜索引擎的方法包括：

6.根据权利要求1所述的一种多源多模态数据的可视化搜索方法，其特征在于：所述二次筛选的方法包括，用户通过交互界面发出的搜索命令，人工智能技术利用自然语言处理技术对搜索命令...

【专利技术属性】
技术研发人员：安呈烜，贺俊龙，崔露，
申请(专利权)人：成都数据集团股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人