System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 图片的时间信息提取方法、装置、电子设备及存储介质制造方法及图纸_技高网

图片的时间信息提取方法、装置、电子设备及存储介质制造方法及图纸

技术编号:42445079 阅读:16 留言:0更新日期:2024-08-16 16:52
本申请公开了一种图片的时间信息提取方法、装置、电子设备及存储介质,属于图片的时间信息提取技术领域,其中,图片的时间信息提取方法包括:获取目标图片;对目标图片进行字符识别,得到文本信息;利用训练好的多模态模型分析文本信息,理解并提取目标图片的时间信息。该方法通过训练好的多模态模型有效地结合图像中的视觉和文本信息,通过理解图像的布局和文本的语义内容来提高时间信息的提取准确性和效率。该方法在多样化的应用环境中,如数字取证、内容管理和事件重建等,都能表现出卓越的性能。

【技术实现步骤摘要】

本申请属于图片的时间信息提取,具体涉及一种图片的时间信息提取方法、装置、电子设备及存储介质


技术介绍

1、随着数字媒体内容的爆炸性增长,从图像和视频中自动提取信息成为了一项挑战性的任务,尤其是时间信息的提取,它对于事件重建、数字取证、内容管理等多种应用都具有重要意义。

2、现有的图像分析方法主要关注于静态特征,如物体识别和场景解析,而对于图像中的文本内容处理较少,对于与时间相关的文本,如日期和时间戳的自动提取与解析更是少之又少。


技术实现思路

1、本申请的目的是提供一种图片的时间信息提取方法、装置、电子设备及存储介质以提取图片中的时间信息。

2、根据本申请实施例的第一方面,提供了一种图片的时间信息提取方法,该方法可以包括:

3、获取目标图片;

4、对目标图片进行字符识别,得到文本信息;

5、利用训练好的多模态模型分析文本信息,理解并提取目标图片的时间信息。

6、在本申请的一些可选实施例中,对目标图片进行字符识别,得到文本信息,包括:

7、对目标图片进行清晰化处理,得到清晰图片;

8、利用训练好的深度学习模型检测清晰图片中的文本区域并进行字符识别,得到文本信息。

9、在本申请的一些可选实施例中,对目标图片进行清晰化处理,得到清晰图片,包括:

10、对目标图片进行高斯模糊处理,得到去噪图片;

11、对去噪图片进行滤波处理,清晰图片。

12、在本申请的一些可选实施例中,高斯模糊处理是通过下述公式实现:

13、ienhanced=i+β∙(i-gaussianblur(i,σ));

14、其中,ienhanced为去噪图片;i为目标图像;gaussianblur(i,σ)为应用高斯模糊后的图像;β为增强系数,决定了增强的强度;σ为高斯模糊的标准差,决定了模糊的范围;

15、参数β和σ的取值可以通过训练,系统的变化参数β和σ,并在不同的噪声条件和文本场景下评估图像的清晰度和文本的可读性,找到最优的参数组合。

16、在本申请的一些可选实施例中,训练好的深度学习模型是通过下述训练得到:

17、获取包含时间信息的训练图像;

18、对训练图像进行文本信息标注,得到第一训练集;

19、利用第一训练集训练paddleocr模型,得到训练好的深度学习模型。

20、在本申请的一些可选实施例中,训练好的多模态模型是通过下述训练得到:

21、获取包含多种环境下的时间信息数据集;

22、对包含多种环境下的时间信息数据集进行时间信息标注,得到第二训练集;

23、利用第二训练集训练layoutlmv3模型,得到训练好的多模态模型。

24、在本申请的一些可选实施例中,layoutlmv3模型的自注意力机制通过下述公式确定:

25、;

26、其中,为时间信息调整的键维度,较标准的更小,以增强模型对时间表达式的敏感度; k为键向量,用于与查询向量进行点积计算以确定相关性的向量; q为查询向量,用于提取与其他元素相关信息的向量; v为值向量,包含实际信息的向量,在注意力机制中,根据相关性对其进行加权平均后得到最终输出;点积计算 查询向量  qqq 与键向量 kkk 的点积计算。通过点积,可以得到查询向量和键向量之间的相似度或相关性; softmax函数用于将点积结果转换为概率分布,对于每个查询向量 q, softmax函数会对点积结果进行指数运算和归一化处理,使得结果成为一个概率分布;为时间信息调整的键维度,在处理时间相关的信息时,可以将键向量的维度调整得比标准的更小,这样做的目的是增强模型对时间表达式的敏感度,使其能够更好地捕捉和处理时间信息。

27、 attention( q,k,v):根据概率分布对值向量进行加权求和,得到最终的注意力输出。

28、根据本申请实施例的第二方面,提供一种图片的时间信息提取装置,该装置可以包括:

29、获取模块,用于获取目标图片;

30、识别模块,用于对目标图片进行字符识别,得到文本信息;

31、时间提取模块,用于利用训练好的多模态模型分析文本信息,理解并提取目标图片的时间信息。

32、根据本申请实施例的第三方面,提供一种电子设备,该电子设备可以包括:

33、处理器;

34、用于存储处理器可执行指令的存储器;

35、其中,处理器被配置为执行指令,以实现如第一方面的任一项实施例中所示的图片的时间信息提取方法。

36、根据本申请实施例的第四方面,提供一种存储介质,当存储介质中的指令由信息处理装置或者服务器的处理器执行时,以使信息处理装置或者服务器实现如第一方面的任一项实施例中所示的图片的时间信息提取方法。

37、本申请的上述技术方案具有如下有益的技术效果:

38、本申请实施例方法通过训练好的多模态模型有效地结合图像中的视觉和文本信息,通过理解图像的布局和文本的语义内容来提高时间信息的提取准确性和效率。该方法在多样化的应用环境中,如数字取证、内容管理和事件重建等,都能表现出卓越的性能。

本文档来自技高网...

【技术保护点】

1.一种图片的时间信息提取方法,其特征在于,包括:

2.根据权利要求1所述的图片的时间信息提取方法,其特征在于,所述对所述目标图片进行字符识别,得到文本信息,包括:

3.根据权利要求2所述的图片的时间信息提取方法,其特征在于,所述对所述目标图片进行清晰化处理,得到清晰图片,包括:

4.根据权利要求3所述的图片的时间信息提取方法,其特征在于,所述高斯模糊处理是通过下述公式实现:

5.根据权利要求2所述的图片的时间信息提取方法,其特征在于,所述训练好的深度学习模型是通过下述训练得到:

6.根据权利要求1所述的图片的时间信息提取方法,其特征在于,所述训练好的多模态模型是通过下述训练得到:

7.根据权利要求6所述的图片的时间信息提取方法,其特征在于,所述LayoutLMv3模型的自注意力机制通过下述公式确定:

8.一种图片的时间信息提取装置,其特征在于,包括:

9.一种电子设备,其特征在于,包括:处理器,存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如权利要求1-7任一项所述的图片的时间信息提取方法的步骤。

10.一种可读存储介质,其特征在于,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如权利要求1-7任一项所述的图片的时间信息提取方法的步骤。

...

【技术特征摘要】

1.一种图片的时间信息提取方法,其特征在于,包括:

2.根据权利要求1所述的图片的时间信息提取方法,其特征在于,所述对所述目标图片进行字符识别,得到文本信息,包括:

3.根据权利要求2所述的图片的时间信息提取方法,其特征在于,所述对所述目标图片进行清晰化处理,得到清晰图片,包括:

4.根据权利要求3所述的图片的时间信息提取方法,其特征在于,所述高斯模糊处理是通过下述公式实现:

5.根据权利要求2所述的图片的时间信息提取方法,其特征在于,所述训练好的深度学习模型是通过下述训练得到:

6.根据权利要求1所述的图片的时间信息提取方法,其特征在于,所述训练好的...

【专利技术属性】
技术研发人员:田永谦
申请(专利权)人:艾莎医学科技潍坊有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1