System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及人工智能及金融,尤其涉及一种图像描述方法和装置、电子设备及存储介质。
技术介绍
1、图像信息描述是一种将图像内容转化为文字描述的技术,可以应用于多种场景,例如在金融领域场景中,用于对海量金融图像进行图像信息描述,建立图像信息库,能够提升图像检索的效率与准确性。
2、目前,主要采用机器学习模型直接对图像进行图像信息生成,然而在实际应用过程中,由于图像的类型繁多,机器学习模型无法精准识别每一幅图像中的核心内容并准确描述图像信息,从而影响了图像描述的准确性。
3、因此,如何提高图像描述的准确性,成为了亟待解决的技术问题。
技术实现思路
1、本申请实施例的主要目的在于提出一种图像描述方法和装置、电子设备及存储介质,旨在提高图像描述的准确性。
2、为实现上述目的,本申请实施例的第一方面提出了一种图像描述方法,所述方法包括:
3、获取原始图像数据和原始图像指示信息;
4、对所述原始图像指示信息进行扩写处理,得到初始图像指示信息;
5、对所述原始图像数据进行图像特征提取,得到图像嵌入特征;
6、对所述初始图像指示信息进行文本特征提取,得到文本嵌入特征;
7、将所述图像嵌入特征和所述文本嵌入特征进行特征融合,得到目标信息嵌入特征;
8、根据所述目标信息嵌入特征对所述原始图像数据进行图像描述,得到目标图像描述信息。
9、在一些实施例,所述将所述图像嵌入特征和所述文本嵌入特
10、对所述图像嵌入特征和所述文本嵌入特征进行特征拼接,得到图文拼接特征;
11、对所述图文拼接特征进行矩阵变换,得到图文变换矩阵;
12、对所述图文变换矩阵进行注意力计算,得到所述目标信息嵌入特征。
13、在一些实施例,所述对所述图文变换矩阵进行注意力计算,得到所述目标信息嵌入特征,包括:
14、对所述图文变换矩阵进行映射变换,得到目标图像映射矩阵;其中,所述目标图像映射矩阵包括查询映射矩阵、键映射矩阵和值映射矩阵;
15、对所述查询映射矩阵和所述键映射矩阵进行聚合计算,得到注意力分数;
16、对所述注意力分数进行归一化计算,得到注意力权重;
17、对所述注意力权重与所述值映射矩阵进行聚合计算,得到所述目标信息嵌入特征。
18、在一些实施例,所述对所述初始图像指示信息进行文本特征提取,得到文本嵌入特征,包括:
19、对所述初始图像指示信息进行文本清洗,得到目标图像指示信息;
20、对所述目标图像指示信息进行分词处理,得到指示信息分词序列;
21、对所述指示信息分词序列进行文本编码处理,得到所述文本嵌入特征。
22、在一些实施例,所述对所述原始图像数据进行图像特征提取,得到图像嵌入特征,包括:
23、对所述原始图像数据进行图像预处理,得到目标图像数据;其中,所述目标图像数据包括多个目标子图像数据;
24、针对每一所述目标子图像数据,对所述目标子图像数据进行图像编码处理,得到子图像编码特征;
25、获取每一所述目标子图像数据的图像位置信息;其中,所述图像位置信息用于表征所述目标子图像数据在所述目标图像数据中的位置;
26、基于所述图像位置信息对多个所述子图像编码特征进行特征融合,得到所述图像嵌入特征。
27、在一些实施例,所述对所述原始图像数据进行图像预处理,得到目标图像数据,包括:
28、对所述原始图像数据进行去噪处理,得到去噪图像数据;
29、对所述去噪图像数据进行采样处理,得到初始图像数据;
30、对所述初始图像数据进行图像增强,得到增强图像数据;
31、对所述增强图像数据进行图像分割,得到所述目标图像数据。
32、在一些实施例,所述对所述原始图像指示信息进行扩写处理,得到初始图像指示信息,包括:
33、对所述原始图像指示信息进行规范化处理,得到规范图像指示信息;
34、通过预设的文本扩写模型对所述规范图像指示信息进行文本扩写,得到原始图像指示信息;
35、基于所述规范图像指示信息对所述原始图像指示信息进行校验,得到所述初始图像指示信息。
36、为实现上述目的,本申请实施例的第二方面提出了一种图像描述装置,所述装置包括:
37、图像数据获取模块,用于获取原始图像数据和原始图像指示信息;
38、指示信息扩写模块,用于对所述原始图像指示信息进行扩写处理,得到初始图像指示信息;
39、图像特征提取模块,用于对所述原始图像数据进行图像特征提取,得到图像嵌入特征;
40、文本特征提取模块,用于对所述初始图像指示信息进行文本特征提取,得到文本嵌入特征;
41、特征融合模块,用于将所述图像嵌入特征和所述文本嵌入特征进行特征融合,得到目标信息嵌入特征;
42、描述信息生成模块,用于根据所述目标信息嵌入特征对所述原始图像数据进行图像描述,得到目标图像描述信息。
43、为实现上述目的,本申请实施例的第三方面提出了一种电子设备,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现上述第一方面所述的方法。
44、为实现上述目的,本申请实施例的第四方面提出了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行时实现上述第一方面所述的方法。
45、本申请提出的图像描述方法和装置、电子设备及存储介质,其通过对原始图像指示信息进行扩写处理,得到初始图像指示信息,丰富了描述文本的语义细节;接着,对原始图像数据进行图像特征提取,得到图像嵌入特征,对初始图像指示信息进行文本特征提取,得到文本嵌入特征,捕捉了图像中的视觉内容和文本中的语言特性;将图像嵌入特征和文本嵌入特征进行特征融合,得到目标信息嵌入特征;最后,根据目标信息嵌入特征对原始图像数据进行图像描述,生成了既准确又富含细节的目标图像描述信息,充分利用图像数据与图像指示信息的互补性,不仅提高了图像描述的准确性,还增强了图像描述的丰富性和可读性,使得生成的图像描述更加贴近人类的理解和表达习惯。
本文档来自技高网...【技术保护点】
1.一种图像描述方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述图像嵌入特征和所述文本嵌入特征进行特征融合,得到目标信息嵌入特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述图文变换矩阵进行注意力计算,得到所述目标信息嵌入特征,包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述初始图像指示信息进行文本特征提取,得到文本嵌入特征,包括:
5.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述原始图像数据进行图像特征提取,得到图像嵌入特征,包括:
6.根据权利要求5所述的方法,其特征在于,所述对所述原始图像数据进行图像预处理,得到目标图像数据,包括:
7.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述原始图像指示信息进行扩写处理,得到初始图像指示信息,包括:
8.一种图像描述装置,其特征在于,所述装置包括:
9.一种电子设备,其特征在于,所述电子设备包括存储器和处理器,所述存储器存储有计算机程序,
10.一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法。
...【技术特征摘要】
1.一种图像描述方法,其特征在于,所述方法包括:
2.根据权利要求1所述的方法,其特征在于,所述将所述图像嵌入特征和所述文本嵌入特征进行特征融合,得到目标信息嵌入特征,包括:
3.根据权利要求2所述的方法,其特征在于,所述对所述图文变换矩阵进行注意力计算,得到所述目标信息嵌入特征,包括:
4.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述初始图像指示信息进行文本特征提取,得到文本嵌入特征,包括:
5.根据权利要求1至3任一项所述的方法,其特征在于,所述对所述原始图像数据进行图像特征提取,得到图像嵌入特征,包括:
6.根据权利要求5所述...
【专利技术属性】
技术研发人员:舒畅,陈又新,
申请(专利权)人:平安科技深圳有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。