System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于多模态深度学习驱动的零次学习智能预警方法技术_技高网

基于多模态深度学习驱动的零次学习智能预警方法技术

技术编号:42359916 阅读:6 留言:0更新日期:2024-08-16 14:44
本发明专利技术公开了一种基于多模态深度学习驱动的零次学习智能预警方法,在行人异常入侵检测中的应用,以解决周界警戒管理中基于固定摄像机实现行人异常入侵目标智能检测,方法基于管理已建的定点固定摄像头取像,调用算法自动检测监控画面中行人异常入侵目标,周界警戒管理提供了一种方便、快捷和开放的信息化管理空间,并依托深度学习技术,实现周界警戒智能管理和高效的运行,针对固定监控下的行人异常入侵检测,对其记录建档,以备管理部门查证,同时将信息推送到相关人员手机上并及时到达现场进行处理。

【技术实现步骤摘要】

本专利技术涉及深度学习多模态视频处理领域,尤其涉及一种基于多模态深度学习驱动的零次学习智能预警方法


技术介绍

1、2000年左右,互联网的兴起促进了跨模态检索的应用。早期搜索引擎人们使用文本(关键词)来搜索图片、视频,近年来出现以图搜图,以图搜视频等。接着,基于多模态数据的人类社交行为理解被提出。通过分析会议录像信息可以进行人的情感识别。2015年后,联合视觉与语言的任务大量出现并逐渐成为热点,代表性任务是图像描述,即生成一句话对一幅图的主要内容进行描述,当然,以文本到图像,视频到文本,文本到视频等生成任务也被提出。

2、许多科研人员提出了很多解决方案在开放词汇目标检测领域的进展已经实现了识别和定位多种不同目标的能力,但是这些方法的应用具有一定的局限性,对于非限定条件下的模型在推理过程中依赖于预定义的目标类别列表,这限制了它们在实际场景中的应用。

3、专利 cn109033378a公开了一种零次学习 learning在智能客服系统中的应用方法,包括通用模型准备阶段和通用模型预测阶段,采用半自动化训练了企业的通用nlu模型,在未来使用过程中应用方如果遇到新nlu需求,可不需要新语料样本数据,即可对新语义理解需求进行分类;但是过度依赖预定义的目标类别列表,限制了在实际场景中的应用。

4、综上所述,需要一种基于多模态深度学习驱动的零次学习方法来解决现有技术中所存在的不足之处。


技术实现思路

1、针对现有技术的不足,本专利技术提供了一种基于多模态深度学习驱动的零次学习智能预警方法,旨在解决上述问题。

2、为实现上述目的,本专利技术提供如下技术方案:一种基于多模态深度学习驱动的零次学习智能预警方法,包括以下步骤:

3、步骤s1:创建并启动任务,获取实时监控视频,启动多模态异常入侵检测任务;

4、步骤s2:区域划定,在实时监控视频中划定入侵区域,利用行人入侵多模态算法进行实时检测分析,得到行人入侵目标信息;

5、步骤s3:将检测到的行人入侵目标信息发送至多模态推理模型进行深层次分析;

6、步骤s4:预警显示,前端智能调度平台根据推理结果预警显示入侵信息,包括入侵位置和类别;

7、步骤s5:通知处理,触发警报后,系统通知并调度相关工作人员前往现场处理。

8、可选的,所述步骤s2中实时监控视频的实时检测分析为:

9、步骤s21:获取摄像头地址和回调地址参数;

10、步骤s22:启动新进程,开始对摄像头的视频流抓取图像帧,并存入redis,同时通知监听程序;

11、步骤s23:监听程序收到通知,从redis取出图像帧,同时开始创建算法实例,并调用算法实例开始对图像帧开始分析;

12、步骤s24:算法实例根据业务逻辑分析图像帧,将分析结果存入redis,同时通知监听程序;

13、步骤s25:监听程序收到通知,取出结果,将分析结果提交至业务接口。

14、可选的,所述步骤s3中多模态推理模型中测试训练图像数据准备为:

15、手机图像数据采集:使用手机采集目标图像,分为远景目标图像和近景目标图像,将采集的每类图像分为两列放在表格中,第一列放近景目标图像,第二列放远景目标图像,图像采集人员按天将搜集的监控视频图像或手机拍摄图像放在表格中,并且每张图像都配有相应文本描述,得到手机采集图像数据;

16、监控视频图像采集:在监控视频中,找出l段不同地点不同时间不同天气的含有行人的视频,vi表示第i段视频,vi中共有ni幅视频图像,从ni幅视频图像中选取mi幅视频图像作为训练与测试图像,则从l段视频可获得幅视频图像作为训练与测试图像,得到监控视频图像数据;

17、将手机采集图像数据和监控视频图像数据作为多模态推理模型的测试训练图像数据。

18、可选的,所述多模态推理模型进行测试训练前,对测试训练图像数据进行增强,增强方法为:

19、颜色变换:在色彩通道空间进行数据增强,比如将某种颜色通道关闭,或者改变亮度值;

20、旋转变换:选择一个角度,左右旋转图像,改变图像内容朝向;

21、添加噪声:从高斯分布中采样出的值矩阵加入到图像中;

22、锐化和模糊:使用高斯算子,拉普拉斯算子处理图像;

23、缩放变换:图像按照比例进行放大和缩小图像;

24、平移变换:向上下左右四个维度移动图像;

25、翻转变换:对图像按照水平或者竖直的轴进行翻转操作;

26、裁剪变换:包括中心裁剪与随机裁剪;

27、仿射变换:对图像进行一次线性变换并接平移变换。

28、可选的,所述步骤s3中多模态推理模型包括图像输入、图像文本描述输入、文本编码器、图像特征卷积网络和视觉语言路径聚合网络;

29、图像文本描述输入将图像文本描述输入至文本编码器,进行特征提取,同时,图像输入将图像输入至图像特征卷积网络进行特征提取,得到对应的特征,经过视觉语言路径聚合网络进行处理,使单模态到多模态信息融合,增强图像与文本间的交互理解。

30、可选的,所述多模态的预训练方法为:

31、图片输入到图片的encoder得到一些特征,文本输入到文本的encoder得到一些特征,每个traning batch里有n个图像和文本对,得到n个图片的特征和n个文本的特征,然后在这些特征上做对比学习。

32、可选的,所述多模态零次学习推理方法为:

33、步骤a、采用预训练的多模态模型从文本和图像中提取特征;

34、步骤b、利用prompt模板技术,将目标类别转化为自然语言描述形式,得到文本描述集合;

35、步骤c、将文本描述集合输入至预训练的文本编码器中,获取与每个类别对应的文本特征向量;

36、步骤d、使用图像编码器对图像提取其特征向量;

37、步骤e、计算待分类图像的特征向量与步骤c中所有文本特征向量之间的余弦相似度;

38、步骤f、选择与待分类图像特征向量最相似的文本特征所对应的类别作为预测结果。

39、可选的,所述图像特征卷积网络包括二维卷积层、批次归一化层和silu激活函数,

40、二维卷积层,采用大小为k的卷积核,步长s设定为2,执行降采样操作,减少特征图尺寸并提升通道数;

41、批次归一化层,用于对每个小批量数据进行标准化处理,使特征具有零均值和单位方差,以加速训练过程;

42、silu激活函数,用于增强模型的非线性表达能力。

43、可选的,所述视觉语言路径聚合网络的操作包括以下步骤:

44、步骤a、图像特征聚合:从多尺度图像特征中,使用最大池化操作提取3*3区域的特征;

45、步骤b、文本嵌入更新:通过多头注意力机制更新文本嵌入权重;这里的多头注意力作用于更本文档来自技高网...

【技术保护点】

1.一种基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述步骤S2中实时监控视频的实时检测分析为:

3.根据权利要求1所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述步骤S3中多模态推理模型中测试训练图像数据准备为:

4.根据权利要求3所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述多模态推理模型进行测试训练前,对测试训练图像数据进行增强,增强方法为:

5.根据权利要求4所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述步骤S3中多模态推理模型包括图像输入、图像文本描述输入、文本编码器、图像特征卷积网络和视觉语言路径聚合网络;

6.根据权利要求5所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述多模态的预训练方法为:

7.根据权利要求6所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述多模态零次学习推理方法为:

<p>8.根据权利要求5所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述图像特征卷积网络包括二维卷积层、批次归一化层和SiLU激活函数,

9.根据权利要求5所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述视觉语言路径聚合网络的操作包括以下步骤:

10.根据权利要求1所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述多模态推理模型的模型迭代为:

...

【技术特征摘要】

1.一种基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述步骤s2中实时监控视频的实时检测分析为:

3.根据权利要求1所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述步骤s3中多模态推理模型中测试训练图像数据准备为:

4.根据权利要求3所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述多模态推理模型进行测试训练前,对测试训练图像数据进行增强,增强方法为:

5.根据权利要求4所述基于多模态深度学习驱动的零次学习智能预警方法,其特征在于,所述步骤s3中多模态推理模型包括图像输入、图像文本描述输入、文本编码器、图像特...

【专利技术属性】
技术研发人员:韦小伟燕海东
申请(专利权)人:杭州梯度安全服务有限公司
类型:发明
国别省市:

相关技术
    暂无相关专利
网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1