System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于语义对齐的媒体信息跨模态检索方法、系统及介质技术方案_技高网

基于语义对齐的媒体信息跨模态检索方法、系统及介质技术方案

技术编号:43296920 阅读:3 留言:0更新日期:2024-11-12 16:14
本申请实施例提供了一种基于语义对齐的媒体信息跨模态检索方法、系统及介质,该方法包括:获取查询请求,基于查询请求生成用户查询数据,对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据;从不同模态的用户请求数据中提取不同模态的特征信息;将多模态特征进行特征融合,得到融合信息,基于融合信息生成统一的特征表示;基于特征表示建立不同模态数据之间的语义关联,得到关联信息;基于自然语言处理技术对关联信息分析,生成查询意图,得到跨模态检索和语义理解的结果,将跨模态检索和语义理解的结果进行展示;通过结合文本、图像、音频和视频等多种模态信息,能够更全面地理解和表达媒体内容,从而提供准确的搜索结果。

【技术实现步骤摘要】

本申请涉及智能检索,具体而言,涉及一种基于语义对齐的媒体信息跨模态检索方法、系统及介质


技术介绍

1、随着互联网和信息技术的快速发展,媒体行业正经历着数字化、网络化和全球化的深刻变革,媒体内容的生产、传播和消费方式正在发生着根本性的转变,大量的文本、图像、音频和视频数据的涌现,为媒体行业带来了前所未有的机遇和挑战,在海量的媒体数据中,如何高效、准确地搜索和获取准确的信息成为了媒体从业者面临的关键问题。

2、传统文本搜索技术依赖于关键词匹配,主要应用于文本数据的检索。然而,这种方法在处理多媒体内容时存在局限性,因为它无法有效利用图像、音频和视频等非文本数据,单模态图像/视频搜索技术通过图像或视频内容的特征提取和匹配来实现搜索,但通常忽略了与文本或其他模态数据的关联,导致搜索结果的语义理解不足。

3、基于元数据的检索系统使用图像或视频的元数据(如标题、描述、标签等)进行搜索,但这种方法依赖于高质量的元数据,且在没有足够元数据的情况下效果不佳。

4、基于内容的音频检索(cbir)通过分析音频信号的特征来检索相似的音频内容,但同样存在对上下文信息理解不足的问题。

5、现有技术大多只关注单一模态的数据,无法综合利用多种模态信息,导致搜索结果的丰富性和准确性受限。

6、语义理解不足,许多现有系统缺乏对媒体内容深层次语义的理解,难以准确捕捉用户的查询意图,尤其是在复杂的查询场景中。

7、现有检索方法在不同模态之间的信息转换和关联上存在技术障碍,难以实现高效的语义匹配,现有技术在处理大规模数据时面临性能瓶颈,搜索响应时间较长,无法满足实时检索的需求,现有的标注工作往往耗时耗力,且难以覆盖所有可能的查询场景,针对上述问题,目前亟待有效的技术解决方案。


技术实现思路

1、本申请实施例的目的在于提供一种基于语义对齐的媒体信息跨模态检索方法、系统及介质,通过结合文本、图像、音频和视频等多种模态信息,能够更全面地理解和表达媒体内容,从而提供更为丰富和准确的搜索结果。

2、本申请实施例还提供了一种基于语义对齐的媒体信息跨模态检索方法,包括:获取查询请求,基于查询请求生成用户查询数据;

3、对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据;

4、从不同模态的用户请求数据中提取不同模态的特征信息;

5、将多模态特征进行特征融合,得到融合信息,基于融合信息生成统一的特征表示;

6、基于特征表示建立不同模态数据之间的语义关联,得到关联信息;

7、基于自然语言处理技术对关联信息分析,生成查询意图,得到跨模态检索和语义理解的结果,将跨模态检索和语义理解的结果进行展示。

8、可选地,在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中,获取查询请求,基于查询请求生成用户查询数据,对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据,具体包括:

9、获取查询请求,得到用户查询数据,分析用户查询数据的噪声数据与异常数据;

10、对噪声数据清洗,并分析异常数据的异常状态,判断异常状态是否处于设定的异常区间;

11、若处于异常区间,则对异常数据进行清洗调整;

12、若不处于异常区间,则将异常数据进行剔除,并对剔除后的数据进行填充,得到用户请求数据。

13、可选地,在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中,从不同模态的用户请求数据中提取不同模态的特征信息,具体包括:

14、获取不同模态的用户请求数据,提取数据特征,根据数据特征的语义得到请求特征;

15、将请求特征与设定的特征进行比较,得到特征偏差率;

16、判断所述特征偏差率是否大于或等于设定的特征偏差率阈值;

17、若大于或等于,则判定为无效特征,并将无效特征进行剔除;

18、若小于,则判定为关键特征,基于分类规则将关键特征进行模态分类,得到多模态特征。

19、可选地,在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中,将多模态特征进行特征融合,得到融合信息,基于融合信息生成统一的特征表示,具体包括:

20、获取多模态的用户请求数据,所述多模态的用户请求数据包括如下至少之一:文本数据、图像数据、音频数据与视频数据;

21、分别提取不同模态数据的特征,得到多模态特征;

22、获取不同模态的数据特征,将同一模态的数据特征根据权重值进行权重融合,得到以第一融合信息;

23、将同一模态的数据特征进行加法融合,得到第二融合信息;

24、基于第一融合信息与第二融合信息生成最终的融合信息,基于最终的融合信息生成统一的特征表示。

25、可选地,在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中,基于特征表示建立不同模态数据之间的语义关联,得到关联信息,具体包括:

26、获取不同模态的特征表示,分析特征表示生成不同模态数据的语义信息;

27、分析不同模态的语义信息之间的关联度,判断所述关联度是否满足设定的关联区间;

28、若满足,则生成不同模态之间的语义关联,得到关联信息;

29、若不满足,则判定不同模态之间的语义差异大于设定的差异阈值,则调整融合规则。

30、可选地,在本申请实施例所述的基于语义对齐的媒体信息跨模态检索方法中,基于自然语言处理技术对关联信息分析,生成查询意图,得到跨模态检索和语义理解的结果,将跨模态检索和语义理解的结果进行展示,具体包括:

31、获取不同模态数据之间的关联信息,基于自然语言处理模型输出查询意图;

32、基于查询意图分析查询数据的不同模态的检索结果与语义理解结果;

33、基于不同模态的检索结果分析跨模态检索过程与对应模态的语义理解匹配度;

34、基于语义理解匹配度分析跨模态检索的跳跃信息,基于跳跃信息调整跨模态检索的检索方式。

35、第二方面,本申请实施例提供了一种基于语义对齐的媒体信息跨模态检索系统,该系统包括:存储器及处理器,所述存储器中包括基于语义对齐的媒体信息跨模态检索方法的程序,所述基于语义对齐的媒体信息跨模态检索方法的程序被所述处理器执行时实现以下步骤:

36、获取查询请求,基于查询请求生成用户查询数据;

37、对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据;

38、从不同模态的用户请求数据中提取不同模态的特征信息;

39、将多模态特征进行特征融合,得到融合信息,基于融合信息生成统一的特征表示;

40、基于特征表示建立不同模态数据之间的语义关联,得到关联信息;

41、基于自然语言处理技术对关联信息分析,生成查询意图,得到跨模态检索和语义理解的结果,将跨模态检索和语义本文档来自技高网...

【技术保护点】

1.一种基于语义对齐的媒体信息跨模态检索方法,其特征在于,包括:

2.根据权利要求1所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,获取查询请求,基于查询请求生成用户查询数据,对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据,具体包括:

3.根据权利要求2所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,从不同模态的用户请求数据中提取不同模态的特征信息,具体包括:

4.根据权利要求3所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,将多模态特征进行特征融合,得到融合信息,基于融合信息生成统一的特征表示,具体包括:

5.根据权利要求4所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,基于特征表示建立不同模态数据之间的语义关联,得到关联信息,具体包括:

6.根据权利要求5所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,基于自然语言处理技术对关联信息分析,生成查询意图,得到跨模态检索和语义理解的结果,将跨模态检索和语义理解的结果进行展示,具体包括:

7.一种基于语义对齐的媒体信息跨模态检索系统,其特征在于,该系统包括:存储器及处理器,所述存储器中包括基于语义对齐的媒体信息跨模态检索方法的程序,所述基于语义对齐的媒体信息跨模态检索方法的程序被所述处理器执行时实现以下步骤:

8.根据权利要求7所述的基于语义对齐的媒体信息跨模态检索系统,其特征在于,获取查询请求,基于查询请求生成用户查询数据,对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据,具体包括:

9.根据权利要求8所述的基于语义对齐的媒体信息跨模态检索系统,其特征在于,从不同模态的用户请求数据中提取不同模态的特征信息,具体包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中包括基于语义对齐的媒体信息跨模态检索方法程序,所述基于语义对齐的媒体信息跨模态检索方法程序被处理器执行时,实现如权利要求1至6中任一项所述的基于语义对齐的媒体信息跨模态检索方法的步骤。

...

【技术特征摘要】

1.一种基于语义对齐的媒体信息跨模态检索方法,其特征在于,包括:

2.根据权利要求1所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,获取查询请求,基于查询请求生成用户查询数据,对用户查询数据进行预处理,得到不同模态下的语义对齐的请求数据,具体包括:

3.根据权利要求2所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,从不同模态的用户请求数据中提取不同模态的特征信息,具体包括:

4.根据权利要求3所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,将多模态特征进行特征融合,得到融合信息,基于融合信息生成统一的特征表示,具体包括:

5.根据权利要求4所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,基于特征表示建立不同模态数据之间的语义关联,得到关联信息,具体包括:

6.根据权利要求5所述的基于语义对齐的媒体信息跨模态检索方法,其特征在于,基于自然语言处理技术对关联信息分析,生成查询意图,得到跨模态检索和语义理解的结...

【专利技术属性】
技术研发人员:张健张凯刘丽芳徐泽民张宇宜
申请(专利权)人:传播大脑科技浙江股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1