基于多模态大模型的铁塔鸟窝监测方法及系统技术方案

技术编号：42845110 阅读：36 留言：0更新日期：2024-09-27 17:15

本发明专利技术公开了基于多模态大模型的铁塔鸟窝监测方法及系统，方法包括步骤：获取目标铁塔的监测视频，利用目标检测算法初步识别监测视频中的疑似鸟窝，并上报疑似鸟窝对象；所述疑似鸟窝对象包括监测图像、疑似鸟窝位置、图像时间戳、标签和置信度；将所述疑似鸟窝对象输入微调好的多模态大模型中，按过滤提示词模板库输出铁塔鸟窝识别结果；所述过滤提示词模板库包括组成键值对的事件类型与标准事件提示词列表；若所述识别结果中包含铁塔鸟窝存在的确定结论，则将所述疑似鸟窝对象作为事件对象进行上报。本发明专利技术通过结合视觉信息和语义理解，实现了对铁塔鸟窝的准确识别，能够显著降低误报率，确保上报的鸟窝事件更加准确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及铁塔安全监测领域，尤其涉及基于多模态大模型的铁塔鸟窝监测方法及系统。

技术介绍

1、在铁塔（包括电力铁塔和通信铁塔）鸟窝检测场景中，传统视觉模型往往因铁塔周围复杂的背景和多样的环境条件，导致难以准确识别鸟窝的位置，并且容易将其他非鸟窝的物体（如树枝、塑料袋等）误识别为鸟窝。

2、随着人工智能技术的不断发展，计算机视觉模型如yolo系列、resnet等已被广泛应用于各类监控和检测任务中，包括交通监控、安防监控、环境监测和工业检测等领域。这些模型在自动化检测方面取得了显著的进展，尤其是在识别特定目标（如铁塔鸟窝）等方面。然而，实际应用中，视觉模型的性能仍然受到环境复杂性、目标多样性等因素的限制，导致大量误报现象的出现。这些误报不仅增加了人工审核的工作量，也在一定程度上影响了系统的整体效率和准确性。

3、目前，业界常用的误报处理方法包括通过增加负样本数据来更新训练数据集，以期提高模型的泛化能力。然而，这种方法存在周期长、效果有限等问题，难以满足高精度要求。此外，一些系统尝试结合视觉大模型（如vit视觉大模型）和误报数据的收集与更新，以提高检测精度，但误报率依然较高，且仍需依赖人工审核来最终确认事件的准确性。这种方式不仅增加了人力成本，也限制了系统的实时性和自动化能力。

技术实现思路

1、为了解决上述现有技术中存在的问题，本专利技术旨在提供一种结合传统图像识别技术和新兴的多模态大模型技术，能够结合视觉信息与语义理解的铁塔鸟窝监测方法，实现对铁塔鸟窝事件

2、为了实现上述专利技术目的，本专利技术提供的技术方案具体包括：

3、1.基于多模态大模型的铁塔鸟窝监测方法，包括步骤：

4、获取目标铁塔的监测视频，利用目标检测算法初步识别监测视频中的疑似鸟窝，并上报疑似鸟窝对象；所述疑似鸟窝对象包括监测图像、疑似鸟窝位置、图像时间戳、标签和置信度；

5、将所述疑似鸟窝对象输入微调好的多模态大模型中，按过滤提示词模板库输出铁塔鸟窝识别结果；所述过滤提示词模板库包括组成键值对的事件类型与标准事件提示词列表；

6、若所述识别结果中包含铁塔鸟窝存在的确定结论，则将所述疑似鸟窝对象作为事件对象进行上报。

7、优选的，所述监测视频中的疑似鸟窝的初步识别方法包括：

8、逐帧提取所述监测视频中的监测图像，利用兴趣区域提取所述监测图像中包含疑似鸟窝的子图像，利用训练好的鸟窝目标检测模型对所述子图像进行目标识别；

9、获取识别出的疑似鸟窝在子图像中的位置，并将该位置还原至监测图像中获得疑似鸟窝位置；

10、为所述疑似鸟窝添加鸟窝标签，并进行标签属性过滤，得到疑似鸟窝对象列表；

11、利用跟踪算法对所述疑似鸟窝对象列表进行目标跟踪，获取疑似鸟窝跟踪对象列表；所述疑似鸟窝跟踪对象列表包括当前最合理的疑似鸟窝对象、当前疑似鸟窝对象、跟踪状态和图像时间戳；

12、当跟踪状态变更为“消失”时，将当前最合理的疑似鸟窝对象作为疑似鸟窝对象。

13、优选的，所述子图像的提取方法包括：

14、以所述兴趣区域的最小外接矩形为基准在所述监测图像中提取兴趣图像；

15、以所述最小外接矩形和所述监测图像中，宽高比例最大者的宽高比例为外扩比例，以所述最小外接矩形的中心为外扩中心，按所述外扩比例向外扩展图像提取框；

16、若所述图像提取框扩展超出所述监测图像边界，则将所述外扩中心向超出方向的反方向进行平移以确保所述图像提取框不超过所述监测图像边界；

17、当所述图像提取框的宽高中的任一者与所述监测图像的宽高相等时，将当前所述图像提取框的监测图像作为子图像。

18、优选的，所述疑似鸟窝跟踪对象列表中所述当前最合理的疑似鸟窝对象的更新方法包括：

19、当所述当前疑似鸟窝对象的识别框大小和所述置信度均大于所述当前最合理的疑似鸟窝对象的疑似鸟窝位置和置信度，则用所述当前疑似鸟窝对象更新当前最合理的疑似鸟窝对象。

20、优选的，所述多模态大模型的微调方法包括：

21、构建包括标注好鸟窝的图像和对应的图像描述文本的正确事件数据集，和包括标注好误报为鸟窝的对象的图像和误报原因描述文本的误报事件数据集，共同作为预训练数据集对所述多模态大模型进行微调，加强所述多模态大模型对铁塔鸟窝的图像和语义理解。

22、本专利技术还提供了基于多模态大模型的铁塔鸟窝监测系统，包括：

23、视频获取模块，用于获取目标铁塔的监测视频；

24、初步识别模块，与所述视频获取模块连接，用于利用目标检测算法对所述监测视频进行初步识别，生成疑似鸟窝对象；所述疑似鸟窝对象包括监测图像、疑似鸟窝位置、图像时间戳、标签和置信度；

25、多模态大模型模块，与所述初步识别模块连接，内置有微调好的多模态大模型，用于将所述疑似鸟窝对象输入多模态大模型中，根据过滤提示词模板库输出铁塔鸟窝识别结果；所述过滤提示词模板库包括组成键值对的事件类型与标准事件提示词列表；

26、事件上报模块，与所述多模态大模型模块连接，用于在识别结果中包含铁塔鸟窝存在的确定结论时，将所述疑似鸟窝对象作为事件对象进行上报。

27、优选的，所述初步识别模块对所述监测视频进行初步识别的方法包括：

28、逐帧提取所述监测视频中的监测图像，利用兴趣区域提取所述监测图像中包含疑似鸟窝的子图像，利用训练好的鸟窝目标检测模型对所述子图像进行目标识别；

29、获取识别出的疑似鸟窝在子图像中的位置，并将该位置还原至监测图像中获得疑似鸟窝位置；

30、为所述疑似鸟窝添加鸟窝标签，并进行标签属性过滤，得到疑似鸟窝对象列表；

31、利用跟踪算法对所述疑似鸟窝对象列表进行目标跟踪，获取疑似鸟窝跟踪对象列表；所述疑似鸟窝跟踪对象列表包括当前最合理的疑似鸟窝对象、当前疑似鸟窝对象、跟踪状态和图像时间戳；

32、当跟踪状态变更为“消失”时，将当前最合理的疑似鸟窝对象作为疑似鸟窝对象。

33、优选的，所述初步识别模块包括子图像提取单元，所述子图像提取单元提取子图像的方法包括：

34、以所述兴趣区域的最小外接矩形为基准在所述监测图像中提取兴趣图像；

35、以所述最小外接矩形和所述监测图像中，宽高比例最大者的宽高比例为外扩比例，以所述最小外接矩形的中心为外扩中心，按所述外扩比例向外扩展图像提取框；

36、若所述图像提取框扩展超出所述监测图像边界，则将所述外扩中心向超出方向的反方向进行平移以确保所述图像提取框不超过所述监测图像边界；

37、当所述图像提取框的宽高中的任一者与所述监测图像的宽高相等时，将当前所述图像提取框的监测图像本文档来自技高网...

【技术保护点】

1.基于多模态大模型的铁塔鸟窝监测方法，其特征在于，包括步骤：

2.如权利要求1所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述监测视频中的疑似鸟窝的初步识别方法包括：

3.如权利要求2所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述子图像的提取方法包括：

4.如权利要求2所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述疑似鸟窝跟踪对象列表中所述当前最合理的疑似鸟窝对象的更新方法包括：

5.如权利要求1所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述多模态大模型的微调方法包括：

6.基于多模态大模型的铁塔鸟窝监测系统，其特征在于，包括：

7.如权利要求6所述的基于多模态大模型的铁塔鸟窝监测系统，其特征在于，所述初步识别模块对所述监测视频进行初步识别的方法包括：

8.如权利要求7所述的基于多模态大模型的铁塔鸟窝监测系统，其特征在于，所述初步识别模块包括子图像提取单元，所述子图像提取单元提取子图像的方法包括：

9.如权利要求7所述的基于多模态大模型的

10.如权利要求6所述的基于多模态大模型的铁塔鸟窝监测系统，其特征在于，所述多模态大模型的微调方法包括：

...

【技术特征摘要】

1.基于多模态大模型的铁塔鸟窝监测方法，其特征在于，包括步骤：

2.如权利要求1所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述监测视频中的疑似鸟窝的初步识别方法包括：

3.如权利要求2所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述子图像的提取方法包括：

5.如权利要求1所述的基于多模态大模型的铁塔鸟窝监测方法，其特征在于，所述多模态大模型的微调方法包括：

6.基于多模态大模型的...

【专利技术属性】
技术研发人员：石永禄，谢治宇，余国家，李佳慧，李佩芸，沈复民，申恒涛，
申请(专利权)人：成都考拉悠然科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人