关键点理解方法、模型训练方法和相关装置制造方法及图纸

技术编号：43504368 阅读：16 留言：0更新日期：2024-11-29 17:08

本申请公开了一种关键点理解方法、模型训练方法和相关装置，关键点理解方法包括：获取待检测图像，以及，获取目标关键点的位置提示信息；基于位置提示信息对待检测图像进行语义理解，得到待检测图像中目标关键点的语义信息，语义信息用于确定待检测图像中目标关键点的位置信息，上述方案，能够实现对图像中关键点的语义理解。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及计算机视觉处理领域，特别是涉及一种关键点理解方法、模型训练方法和相关装置。

技术介绍

1、近年来，随着人工智能技术不断发展并应用于生产生活的方方面面中，计算机视觉技术作为人工智能技术的重要分支，也受到了广泛关注。计算机视觉技术涉及到计算机对图像的理解和解析。

2、图像中包含的关键点是计算机视觉领域重点关注的对象，因此，如何实现关键点理解成为亟待解决的问题。

技术实现思路

1、本申请至少提供一种关键点理解方法、模型训练方法和相关装置。

2、本申请提供了一种关键点理解方法，包括：获取待检测图像，以及，获取目标关键点的位置提示信息；基于位置提示信息对待检测图像进行语义理解，得到待检测图像中目标关键点的语义信息，语义信息用于确定待检测图像中目标关键点的位置信息。

3、因此，通过目标关键点相关的位置提示信息结合待检测图像，能够实现对待检测图像中目标关键点的语义理解，得到的语义信息能够用于定位目标关键点，以实现图像中关键点的检测。

4、其中，该方法还包括：基于语义信息，得到待检测图像中目标关键点的位置信息。

5、因此，对关键点的语义进行初步辨识，根据语义理解判断关键点的位置，实现图像中的关键点检测。

6、其中，基于位置提示信息对待检测图像进行语义理解，得到待检测图像中目标关键点的语义信息包括：基于待检测图像和位置提示信息进行编码，得到编码特征；对编码特征进行解码，得到待检测图像中目标关键点的语义文本，其中，语义文

7、因此，位置标记与关键点的位置关联，利用能够解码得到位置标记的子编码特征能够得到关键点的位置信息，实现图像中的关键点检测。

8、其中，基于子编码特征，得到待检测图像中目标关键点的位置信息包括：利用子编码特征进行回归，得到待检测图像中目标关键点的坐标。

9、因此，子编码特征能够解码得到位置标记，利用子编码特征进行回归得到关键点坐标，实现关键点的检测。

10、其中，基于待检测图像和位置提示信息进行编码，得到编码特征包括：从待检测图像中提取得到待检测特征；基于待检测特征和位置提示信息进行编码，得到编码特征。

11、因此，从待检测图像提取得到待检测特征，再利用待检测特征与位置提示信息进行编码，实现对待检测图像和位置提示信息的变换，以用于解码得到语义信息，实现语义理解。

12、其中，位置提示信息包括待检测图像对应的支持图像和支持图像中目标关键点的参考位置信息；基于待检测特征和位置提示信息进行编码，得到编码特征包括：对支持图像进行特征提取，得到支持图像特征，以及，对参考位置信息进行特征提取，得到参考位置特征；对支持图像特征和参考位置特征进行融合，得到参考关键点特征；基于待检测特征和参考关键点特征进行编码，得到编码特征。

13、因此，位置提示信息包括支持图像和参考位置信息，通过特征提取和融合编码，能够得到与目标关键点相关的参考关键点特征，从而能够用于与待检测特征进行编码，以实现关键点检测。

14、其中，基于待检测特征和参考关键点特征进行编码，得到编码特征包括：将参考关键点特征嵌入预设文本，得到关键点提示特征，其中，预设文本用于指示大语言模型得到语义信息；利用大语言模型对关键点提示特征和待检测特征进行融合编码，得到编码特征。

15、因此，将参考关键点特征嵌入指示大语言模型的文本中，实现利用大语言模型对关键点提示特征和待检测特征进行处理，以得到语义信息，实现语义理解。

16、其中，位置提示信息包括与待检测图像中目标关键点相关的描述文本和用于指示大语言模型得到语义信息的指示文本；基于待检测特征和位置提示信息进行编码，得到编码特征包括：利用大语言模型对待检测特征和位置提示信息进行融合编码，得到编码特征。

17、因此，位置提示信息包括描述文本和指示大语言模型的指示文本，实现利用大语言模型对待检测特征和位置提示信息进行处理，以得到语义信息，实现语义理解。

18、其中，基于位置提示信息对待检测图像进行语义理解，得到待检测图像中目标关键点的语义信息为利用目标模型实现；该方法还包括如下步骤以对目标模型进行目标训练：利用目标模型基于样本位置提示信息对样本图像进行语义理解，得到样本图像中样本关键点的样本语义信息；其中，样本图像标注有真实语义信息；至少基于样本语义信息与真实语义信息之间的差异，调整目标模型的参数。

19、因此，利用标注有真实语义信息的样本图像对目标模型进行训练，得到能够实现语义理解的目标模型。

20、其中，样本图像还标注有真实位置信息，真实位置信息包括样本图像中样本关键点的坐标，调整目标模型的参数之前，该方法还包括：利用目标模型基于样本语义信息，得到样本图像中样本关键点的样本位置信息；至少基于样本语义信息与真实语义信息之间的差异，调整目标模型的参数包括：基于样本语义信息与真实语义信息之间的差异、样本位置信息和真实位置信息之间的差异，调整目标模型的参数。

21、因此，样本图像还标注有真实位置信息，利用样本图像对目标模型进行训练，以得到能够实现关键点检测的目标模型。

22、其中，目标模型包括大语言模型，大语言模型包括微调模块，在目标训练过程中，微调模块的参数作为参数调整的对象。

23、因此，大语言模型设置有微调模块，能够高效对大语言模型进行参数调整，提升训练效率。

24、其中，真实语义信息包括位置标记，以及样本关键点所属目标的真实类别和样本关键点的真实名称中的至少一者。

25、因此，样本图像标注有位置标记、所属目标的真实类别和真实名称，以指导目标模型正确理解关键点语义，提升语义理解准确性。

26、本申请提供了一种模型训练方法，包括：获取样本图像，以及，获取样本关键点的样本位置提示信息，其中，样本图像标注有真实语义信息；利用目标模型基于样本位置提示信息对样本图像进行语义理解，得到样本图像中样本关键点的样本语义信息，样本语义信息能够用于确定样本图像中样本关键点的样本位置信息；至少基于样本语义信息和真实语义信息之间的差异，调整目标模型的参数。

27、因此，利用标注有真实语义信息的样本图像对目标模型进行训练，得到能够实现语义理解的目标模型，得到的样本语义信息能够用于定位样本关键点，以实现图像中关键点的检测。

28、本申请提供了一种关键点理解装置，包括获取模块和语义理解模块，获取模块用于获取待检测图像，以及，获取目标关键点的位置提示信息；语义理解模块用于基于位置提示信息对待检测图像进行语义理解，得到待检测图像中目标关键点的语义信息，语义信息能够用于确定待检测图像中目标关键点的位置信息。

29、本申请提供了一种模型训练装置本文档来自技高网...

【技术保护点】

1.一种关键点理解方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

3.根据权利要求2所述的方法，其特征在于，所述基于所述位置提示信息对所述待检测图像进行语义理解，得到所述待检测图像中所述目标关键点的语义信息包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述子编码特征，得到所述待检测图像中所述目标关键点的位置信息包括：

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述待检测图像和所述位置提示信息进行编码，得到编码特征包括：

6.根据权利要求5所述的方法，其特征在于，所述位置提示信息包括所述待检测图像对应的支持图像和所述支持图像中所述目标关键点的参考位置信息；所述基于所述待检测特征和所述位置提示信息进行编码，得到所述编码特征包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述待检测特征和所述参考关键点特征进行编码，得到所述编码特征包括：

8.根据权利要求5所述的方法，其特征在于，所述位置提示信息包括与所述待检测图像中所述目标

9.根据权利要求1至8中任一项所述的方法，其特征在于，所述基于所述位置提示信息对所述待检测图像进行语义理解，得到所述待检测图像中所述目标关键点的语义信息为利用目标模型实现；所述方法还包括如下步骤以对所述目标模型进行目标训练：

10.根据权利要求9所述的方法，其特征在于，所述样本图像还标注有真实位置信息，所述真实位置信息包括所述样本图像中所述样本关键点的坐标，所述调整所述目标模型的参数之前，所述方法还包括：

11.一种模型训练方法，其特征在于，所述方法包括：

12.一种关键点理解装置，其特征在于，所述装置包括：

13.一种模型训练装置，其特征在于，所述装置包括：

14.一种电子设备，其特征在于，包括存储器和处理器，所述存储器上存储有程序指令，所述程序指令被所述处理器执行时实现上述权利要求1至11中任一项所述的方法。

15.一种计算机可读存储介质，其上存储有程序指令，其特征在于，所述程序指令被处理器执行时实现上述权利要求1至11中任一项所述的方法。

...

【技术特征摘要】

1.一种关键点理解方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述方法还包括：

4.根据权利要求3所述的方法，其特征在于，所述基于所述子编码特征，得到所述待检测图像中所述目标关键点的位置信息包括：

5.根据权利要求3或4所述的方法，其特征在于，所述基于所述待检测图像和所述位置提示信息进行编码，得到编码特征包括：

7.根据权利要求6所述的方法，其特征在于，所述基于所述待检测特征和所述参考关键点特征进行编码，得到所述编码特征包括：

8.根据权利要求5所述的方法，其特征在于，所述位置提示信息包括与所述待检测图像中所述目标关键点相关的描述文本和用于指示大语言模型得到...

【专利技术属性】
技术研发人员：杨杰，曾望，金晟，刘文韬，钱晨，
申请(专利权)人：深圳市慧鲤科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人