一种视觉语言模型部署优化方法及装置制造方法及图纸

技术编号：44401126 阅读：6 留言：0更新日期：2025-02-25 10:15

本发明专利技术实施例提供了一种视觉语言模型部署优化方法及装置，涉及图像处理技术领域，该方法包括：通过运行于CPU的第一线程，进行图像获取并缓存至第一队列；通过运行于GPU的第二线程，从第一队列中读取预定数量帧图像，将读取到的预定数量帧图像并行输入指定视觉语言模型，并将指定视觉语言模型输出的针对各帧图像的对象检测结果，缓存于第二队列；其中，指定视觉语言模型为针对目标视觉语言模型进行预定加速处理后所得到的视觉语言模型，且指定视觉语言模型的对于图像的并行输入数量设置为预定数量；通过第三线程，从第二队列中读取各帧图像的对象检测结果，得到各帧图像的对象检测结果。通过本方案可以满足高效对象检测的需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像处理，特别是涉及一种视觉语言模型部署优化方法及装置。

技术介绍

1、对象检测能够识别出图像或视频中的特定对象，随着深度学习技术的不断发展，通常是利用视觉语言模型对图像进行对象检测。

2、相关技术中，通常是利用视觉语言模型，串行对图像进行对象检测，即先对一图像进行对象检测，待对该图像进行对象检测完毕之后，再对下一图像进行对象检测。

3、在对大量图像进行对象检测场景下，现有的视觉语言模型串行对图像进行对象检测的方式无法满足高效对象检测的需求。

4、因此，亟需一种视觉语言模型部署优化方法，以满足高效对象检测的需求。

技术实现思路

1、本专利技术实施例的目的在于提供一种视觉语言模型部署优化方法及装置，以满足高效对象检测的需求。具体技术方案如下：

2、第一方面，本专利技术实施例提供了一种视觉语言模型部署优化方法，所述方法包括：

3、通过运行于cpu的第一线程，进行图像获取并将所获取到的每帧图像缓存至第一队列；

4、通过运行于gpu的第二线程，从所述第一队列中读取预定数量帧图像，将读取到的预定数量帧图像并行输入运行于gpu的指定视觉语言模型，并将所述指定视觉语言模型输出的针对各帧图像的对象检测结果，缓存于第二队列；其中，所述指定视觉语言模型为针对目标视觉语言模型进行预定加速处理后所得到的视觉语言模型，且所述指定视觉语言模型的对于图像的并行输入数量设置为所述预定数量；

5、通过第三线程，从所述第

6、可选地，所述将读取到的预定数量帧图像并行输入运行于gpu的指定视觉语言模型，包括：

7、调用gpu以对于所述预定数量帧图像进行图像预处理；

8、将图像预处理后的所述预定数量帧图像并行地输入所述指定视觉语言模型。

9、可选地，所述目标视觉语言模型包括图像处理网络和文本处理网络，所述图像处理网络包括特征提取模块、特征融合模块以及对象检测模块；

10、其中，所述文本处理网络用于对目标文本进行特征提取，得到文本特征，并将所述文本特征输入所述特征融合模块，所述目标文本为表征对象检测需求的文本；

11、所述特征提取模块用于针对所输入的、所述预定数量帧图像中的每一帧图像进行特征提取，得到该帧图像的图像特征，并输入至所述特征融合模块；

12、所述特征融合模块用于针对所接收到的每帧图像的图像特征，将该帧图像的图像特征以及所述文本特征进行融合，得到该帧图像对应的融合特征，并输入所述对象检测模块；

13、所述对象检测模块用于针对所接收到的每帧图像对应的融合特征，根据该帧图像对应的融合特征进行对象检测，得到该帧图像对应的对象检测结果。

14、可选地，所述指定视觉语言模型的图像处理网络的指定输入参数为动态参数；其中，所述指定输入参数为用于指示图像并行输入数量的参数；

15、所述指定视觉语言模型的对于图像的并行输入数量设置为所述预定数量的设置方式包括：

16、将所述图像处理网络的指定输入参数的数量设置为所述预定数量；

17、所述文本处理网络的特征维度参数为动态参数；所述方法还包括：

18、将所述文本处理网络的特征维度参数设置为与所述预定数量相匹配的数量；其中，所述特征维度参数为用于指示所提取的文本特征的维度数量的参数。

19、可选地，所述从所述第二队列中读取各帧图像的对象检测结果，得到各帧图像的对象检测结果，包括：

20、从所述第二队列中读取各帧图像的对象检测结果；

21、通过音视频处理模块对各帧图像的对象检测结果进行处理，得到包含各帧图像的对象检测结果的推流结果。

22、第二方面，本专利技术实施例提供了一种视觉语言模型部署优化装置，所述装置包括：

23、获取模块，用于通过运行于cpu的第一线程，进行图像获取并将所获取到的每帧图像缓存至第一队列；

24、输入模块，用于通过运行于gpu的第二线程，从所述第一队列中读取预定数量帧图像，将读取到的预定数量帧图像并行输入运行于gpu的指定视觉语言模型，并将所述指定视觉语言模型输出的针对各帧图像的对象检测结果，缓存于第二队列；其中，所述指定视觉语言模型为针对目标视觉语言模型进行预定加速处理后所得到的视觉语言模型，且所述指定视觉语言模型的对于图像的并行输入数量设置为所述预定数量；

25、读取模块，用于通过第三线程，从所述第二队列中读取各帧图像的对象检测结果，得到各帧图像的对象检测结果。

26、可选地，所述输入模块，具体用于：

27、调用gpu以对于所述预定数量帧图像进行图像预处理；

28、将图像预处理后的所述预定数量帧图像并行地输入所述指定视觉语言模型。

29、可选地，所述目标视觉语言模型包括图像处理网络和文本处理网络，所述图像处理网络包括特征提取模块、特征融合模块以及对象检测模块；

30、其中，所述文本处理网络用于对目标文本进行特征提取，得到文本特征，并将所述文本特征输入所述特征融合模块，所述目标文本为表征对象检测需求的文本；

31、所述特征提取模块用于针对所输入的、所述预定数量帧图像中的每一帧图像进行特征提取，得到该帧图像的图像特征，并输入至所述特征融合模块；

32、所述特征融合模块用于针对所接收到的每帧图像的图像特征，将该帧图像的图像特征以及所述文本特征进行融合，得到该帧图像对应的融合特征，并输入所述对象检测模块；

33、所述对象检测模块用于针对所接收到的每帧图像对应的融合特征，根据该帧图像对应的融合特征进行对象检测，得到该帧图像对应的对象检测结果。

34、可选地，所述指定视觉语言模型的图像处理网络的指定输入参数为动态参数；其中，所述指定输入参数为用于指示图像并行输入数量的参数；

35、所述指定视觉语言模型的对于图像的并行输入数量设置为所述预定数量的设置方式包括：

36、将所述图像处理网络的指定输入参数的数量设置为所述预定数量；

37、所述文本处理网络的特征维度参数为动态参数；所述装置还包括：

38、设置模块，用于将所述文本处理网络的特征维度参数设置为与所述预定数量相匹配的数量；其中，所述特征维度参数为用于指示所提取的文本特征的维度数量的参数。

39、可选地，所述读取模块，具体用于：

40、从所述第二队列中读取各帧图像的对象检测结果；

41、通过音视频处理模块对各帧图像的对象检测结果进行处理，得到包含各帧图像的对象检测结果的推流结果。

42、本专利技术实施例有益效果：

43、本专利技术实施例提供的视觉语言模型部署优化方法，通过运行于cpu的第一线程进行图像获取，并将所获取到的每帧图像缓存至第一队列；通过运行于gpu的第二线程本文档来自技高网...

【技术保护点】

1.一种视觉语言模型部署优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将读取到的预定数量帧图像并行输入运行于GPU的指定视觉语言模型，包括：

3.根据权利要求1所述的方法，其特征在于，所述目标视觉语言模型包括图像处理网络和文本处理网络，所述图像处理网络包括特征提取模块、特征融合模块以及对象检测模块；

4.根据权利要求3所述的方法，其特征在于，所述指定视觉语言模型的图像处理网络的指定输入参数为动态参数；其中，所述指定输入参数为用于指示图像并行输入数量的参数；

5.根据权利要求1-4任一项所述的方法，其特征在于，所述从所述第二队列中读取各帧图像的对象检测结果，得到各帧图像的对象检测结果，包括：

6.一种视觉语言模型部署优化装置，其特征在于，所述装置包括：

7.根据权利要求6所述的装置，其特征在于，所述输入模块，具体用于：

8.根据权利要求6所述的装置，其特征在于，所述目标视觉语言模型包括图像处理网络和文本处理网络，所述图像处理网络包括特征提取模块、特征融合模块以及对象检测模块；

9.根据权利要求8所述的装置，其特征在于，所述指定视觉语言模型的图像处理网络的指定输入参数为动态参数；其中，所述指定输入参数为用于指示图像并行输入数量的参数；

10.根据权利要求6-9任一项所述的装置，其特征在于，所述读取模块，具体用于：

...

【技术特征摘要】

1.一种视觉语言模型部署优化方法，其特征在于，所述方法包括：

2.根据权利要求1所述的方法，其特征在于，所述将读取到的预定数量帧图像并行输入运行于gpu的指定视觉语言模型，包括：

5.根据权利要求1-4任一项所述的方法，其特征在于，所述从所述第二队列中读取各帧图像的对...

【专利技术属性】
技术研发人员：陈方平，王霜，陆煜衡，夏云樊，
申请(专利权)人：天津云圣智能科技有限责任公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人