图像处理的方法、装置、设备及计算机存储介质制造方法及图纸

技术编号：43054874 阅读：6 留言：0更新日期：2024-10-22 14:36

本申请公开了一种图像处理的方法、装置、设备及计算机存储介质。获取待跟踪图像帧和指令文本，将待跟踪图像帧和指令文本输入第一模型，利用第一模型对待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息。将待跟踪图像帧和目标信息输入第二模型，利用第二模型对目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量。将第一目标框和目标掩码向量叠加到待跟踪图像帧上，得到目标跟踪图像。本公开通过获取跟踪图像帧的目标对象对应的目标信息，再根据目标信息获取目标掩码向量。通过第一目标框对目标掩码向量标注的目标对象进行跟踪，使目标对象与第一目标框对应，提高对目标进行跟踪的准确性。

全部详细技术资料下载

【技术实现步骤摘要】

本领域涉及人工智能领域，尤其涉及一种图像处理的方法、装置、设备、计算机存储介质及计算机程序产品。

技术介绍

1、随着科技的发展，人们逐渐将人工智能算法应用到多个领域中。例如，使用目标检测算法对视频中的人物、动物或者交通工具进行跟踪识别，满足用户的需求。

2、但是，相关技术中通过检测器得到目标框对视频中的目标进行跟踪，在目标被遮挡后或者和同类目标重叠后，通过目标框对原来的目标进行跟踪的准确性不高。

技术实现思路

1、本公开实施例提供一种图像处理的方法、装置、设备、计算机存储介质及计算机程序产品，能够提高对图像目标跟踪的准确性。

2、第一方面，本公开实施例提供一种图像处理的方法，方法包括：

3、获取待跟踪图像帧和指令文本；

4、将待跟踪图像帧和指令文本输入第一模型，利用第一模型对待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息，目标信息包括第一目标框，第一目标框内包括目标对象；

5、将待跟踪图像帧和目标信息输入第二模型，利用第二模型对目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量，目标掩码向量用于标注目标对象；

6、将第一目标框和目标掩码向量叠加到待跟踪图像帧上，得到目标跟踪图像。

7、在一个可以实现的实施方式中，将待跟踪图像帧和指令文本输入第一模型，利用第一模型对待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息，包括：

8、基于指令文本，确定待跟踪图像帧中的目标对象；

9、利用第一模型中的第一推理模型对待跟踪图像帧中的目标对象进行图像特征提取，得到第一目标信息；

10、利用第一模型中的第二推理模型对第一目标信息中的类别信息进行目标类别判断，得到目标对象的目标信息。

11、在一个可以实现的实施方式中，将待跟踪图像帧和目标信息输入第二模型，利用第二模型对目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量，包括：

12、基于目标信息和待跟踪图像帧，利用第二模型中的分割模型对目标信息中的第一目标框进行图像分割，确定与目标信息对应的目标框；

13、根据目标框的坐标信息得到第一掩码向量；

14、将第一掩码向量和待跟踪图像帧输入第二模型中的目标跟踪模型，利用目标跟踪模型生成与第一掩码向量对应的掩码向量集合；

15、将掩码向量集合和目标信息输入第二模型中的强化模型，利用强化模型对掩码向量集合中的掩码向量进行自注意力编码处理，得到处理数据；

16、利用强化模型对处理数据和目标信息中的坐标信息进行匹配处理，得到目标掩码向量信息。

17、在一个可以实现的实施方式中，在将待跟踪图像帧和指令文本输入第一模型，利用第一模型对待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息之前，方法还包括：

18、对第一视频抽帧，得到第一训练图像帧；

19、将第一训练图像帧和第一指令文本输入第一推理模型，利用第一推理模型对第一训练图像帧中的目标对象进行图像特征提取，得到第二目标信息；

20、将第二目标信息和第一训练图像帧输入第二推理模型，利用第二推理模型对第二目标信息中的类别信息进行目标类别判断，得到第三目标信息；

21、基于第三目标信息获取第一数量的数据；

22、利用预设修正指令信息和第一数量的数据对第二推理模型进行训练，得到训练后的第二推理模型；

23、将第一推理模型和训练后的第二推理模型组合，得到第一模型。

24、在一个可以实现的实施方式中，利用预设修正指令信息和第一数量的数据对第二推理模型进行训练，得到训练后的第二推理模型，包括：

25、基于修正指令信息，利用第二推理模型调整第一数量的数据中目标对象对应的类别信息；

26、在第一数量的数据中目标对象对应的类别信息的准确率大于第一阈值时，得到训练后的第二推理模型。

27、在一个可以实现的实施方式中，在将待跟踪图像帧和目标信息输入第二模型，利用第二模型对目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量之前，方法还包括：

28、对第二视频抽帧，得到第二训练图像帧；

29、将第二训练图像帧和第二指令文本输入第一模型，利用第一模型对第二训练图像帧的目标对象进行特征提取，得到第四目标信息；

30、将第四目标信息输入分割模型，利用分割模型确定与第四目标信息对应的第二目标框；

31、根据第二目标框的坐标信息确定第二掩码向量；

32、将第二掩码向量和第二训练图像帧输入目标跟踪模型，利用目标跟踪模型生成与第二掩码向量对应的第一掩码向量集合；

33、利用第一掩码向量集合和第四目标信息训练强化模型，得到训练后的强化模型；

34、将训练后的强化模型、分割模型和目标跟踪模型组合，得到第二模型。

35、在一个可以实现的实施方式中，利用第一掩码向量集合和第四目标信息训练强化模型，得到训练后的强化模型，包括：

36、将第一掩码向量集合和第四目标信息输入强化模型，利用强化模型对第一掩码向量集合中的掩码向量进行自注意力编码处理，得到第一处理数据；

37、利用强化模型对第一处理数据和目标信息中的坐标信息进行匹配处理，得到第一数据；

38、在第一数据大于第二阈值的情况下，得到训练后的强化模型。

39、在一个可以实现的实施方式中，在将第一目标框和目标掩码向量叠加到待跟踪图像帧上，得到目标跟踪图像之后，方法还包括：

40、基于待跟踪图像帧、目标信息和目标掩码向量，生成包括目标类别跟踪结果的结果文件。

41、第二方面，本公开实施例提供了一种图像处理的装置，装置包括：

42、获取模块，用于获取待跟踪图像帧和指令文本；

43、输入模块，用于将待跟踪图像帧和指令文本输入第一模型，利用第一模型对待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息，目标信息包括第一目标框，第一目标框内包括目标对象；

44、输入模块，还用于将待跟踪图像帧和目标信息输入第二模型，利用第二模型对目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量，目标掩码向量用于标注目标对象；

45、叠加模块，用于将第一目标框和目标掩码向量叠加到待跟踪图像帧上，得到目标跟踪图像。

46、第三方面，本公开实施例提供了一种图像处理的设备，设备包括处理器，以及存储有计算机程序指令的存储器；处理器读取并执行计算机程序指令，以实现如第一方面的任意一项的图像处理的方法。

47、第四方面，本公开实施例提供了一种计算机可读存储介质，计算机可读存储介质存储有计算机程序指令，计算机程序指令被处理器执行时实现如第一方面的任意一项的图像处理的方法。

48、第五方面，本文档来自技高网...

【技术保护点】

1.一种图像处理的方法，其特征在于，包括：

2.根据权利要求1所述的方法，其特征在于，所述将所述待跟踪图像帧和所述指令文本输入第一模型，利用所述第一模型对所述待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息，包括：

3.根据权利要求1所述的方法，其特征在于，所述将所述待跟踪图像帧和所述目标信息输入第二模型，利用所述第二模型对所述目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量，包括：

4.根据权利要求2所述的方法，其特征在于，在所述将所述待跟踪图像帧和所述指令文本输入第一模型，利用所述第一模型对所述待跟踪图像帧中的目标对象进行特征提取，得到目标对象的目标信息之前，所述方法还包括：

5.根据权利要求4所述的方法，其特征在于，所述利用预设修正指令信息和所述第一数量的数据对所述第二推理模型进行训练，得到训练后的第二推理模型，包括：

6.根据权利要求3所述的方法，其特征在于，在所述将所述待跟踪图像帧和所述目标信息输入第二模型，利用所述第二模型对所述目标信息中的第一目标框中的目标对象进行标注，得到目标掩码向量之前，所述方法还包括：

7.根据权利要求6所述的方法，其特征在于，所述利用所述第一掩码向量集合和所述第四目标信息训练所述强化模型，得到训练后的强化模型，包括：

8.根据权利要求1所述的方法，其特征在于，在所述将所述第一目标框和所述目标掩码向量叠加到所述待跟踪图像帧上，得到目标跟踪图像之后，所述方法还包括：

9.一种图像处理的装置，其特征在于，所述装置包括：

10.一种图像处理的设备，其特征在于，所述设备包括：处理器，以及存储有计算机程序指令的存储器；所述处理器读取并执行所述计算机程序指令，以实现如权利要求1-8任意一项所述的图像处理的方法。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有计算机程序指令，所述计算机程序指令被处理器执行时实现如权利要求1-8任意一项所述的图像处理的方法。

12.一种计算机程序产品，其特征在于，包括计算机程序，所述计算机程序被处理器执行时实现权利要求1-8任意一项所述的图像处理的方法。

...

【技术特征摘要】

1.一种图像处理的方法，其特征在于，包括：

6.根据权利要求3所述的方法，其特征在于，在所述将所述待跟踪图像帧和所述目标信息输入第二模型，利用所述第二模型对所述目标信息中的第一目标框...

【专利技术属性】
技术研发人员：邓华，唐宇，周杰，
申请(专利权)人：中移物联网有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人