System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 目标编码器训练方法、装置、计算机设备及存储介质制造方法及图纸_技高网

目标编码器训练方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:43500908 阅读:5 留言:0更新日期:2024-11-29 17:06
本发明专利技术涉及人工智能技术领域,公开了目标编码器训练方法、装置、计算机设备及存储介质,方法包括:获取预处理的训练样本,训练样本包括文本内容、文本内容对应的目标框位置和文本内容的类别;基于文本内容、文本内容对应的目标框位置和文本内容的类别为预处理的训练样本添加位置编码信息,获得目标训练样本;将目标训练样本输入预设编码器,获得第一特征值;将预处理的训练样本输入至预设图片编码器,获得第二特征值;基于第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数;基于第一损失函数,对预设图片编码器进行参数调优,以获得预训练的图片编码器。本发明专利技术减少了大型视觉语言模型进行文本理解的时间消耗。

【技术实现步骤摘要】

本专利技术涉及人工智能,具体涉及目标编码器训练方法、装置、计算机设备及存储介质


技术介绍

1、随着大模型技术的发展,大语言模型正深度融入日常生活。大语言模型凭借其卓越的文本处理能力与理解能力,通过精细调节以贴合用户需求,彰显出其作为高效生产力工具的强大潜力。这类模型核心在于擅长文本交互,导致这类模型难以涉足图像、语音、视频等其他媒介形式,从而影响了普及度与实用性。

2、为拓宽应用场景,大型视觉语言模型(large-scale language model,lvlm)应运而生,作为多模态大模型的一员,旨在融合视觉与语言理解,有效应对复杂的现实视觉挑战,展现出非凡的应用前景。在富含文本信息的场景中,利用对象检测模型将文本信息分为不同类别,将不同类别的文本信息输入对应的编码器,实现对文本信息的编码,再将文本信息的编码提供给lvlm,以使lvlm基于文本信息的编码进行文本信息理解。

3、然而,这种需要利用对象检测模型先将文本信息分为不同类别的方式,增加了lvlm进行文本理解的时间消耗,且增加了lvlm的算力需求。


技术实现思路

1、有鉴于此,本专利技术提供了一种目标编码器训练方法、装置、计算机设备及存储介质,以解决相关技术中需要利用对象检测模型先将文本信息分为不同类别的方式,增加了lvlm进行文本理解的时间消耗,且增加了lvlm的算力需求的问题。

2、第一方面,本专利技术提供了一种目标编码器训练方法,所述方法包括:

3、获取预处理的训练样本,所述训练样本包括文本内容、文本内容对应的目标框位置和文本内容的类别;

4、基于所述文本内容、文本内容对应的目标框位置和文本内容的类别为所述预处理的训练样本添加位置编码信息,获得目标训练样本;

5、将所述目标训练样本输入预设编码器,获得所述目标训练样本对应的第一特征值;

6、将所述预处理的训练样本输入至预设图片编码器,获得所述预处理的训练样本对应的第二特征值;

7、基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数;

8、基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器。

9、本实施例提供的目标编码器训练方法,通过基于文本内容、文本内容对应的目标框位置和文本内容的类别为预处理的训练样本增加位置编码信息,以基于位置编码信息,确定目标训练样本的类别,基于目标训练样本的类别将目标训练样本输入预设编码器即在目标训练样本的类别为文字类别,则将目标训练样本输入文本编码器;在目标训练样本的类别为图像类别,则将目标训练样本输入图片编码器,以获得目标训练样本的第一特征值。通过将预处理的训练样本输入至预设图片编码器,获得第二特征值,基于第一特征值和第二特征值之间的第一损失函数,对预设图片编码器进行参数调优,获得预训练的图片编码器。利用该预训练的图片编码器就可以实现对文本丰富的内容的图片编码,无需利用对象检测模型先将文本信息分为不同类别,减少了lvlm进行文本理解的时间消耗,且减少了lvlm的算力需求。

10、在一种可选的实施方式中,获取预处理的训练样本包括:

11、对所述训练样本进行缩放处理,获得缩放训练样本;

12、对所述缩放训练样本进行切片处理,获得切片后的多个待处理训练样本;

13、对每个待处理训练样本的像素值进行归一化处理,获得预处理的训练样本。

14、本实施例提供的目标编码器训练方法,通过对训练样本进行缩放处理、切片处理以及归一化处理,提高了训练样本的质量,为后续的模型训练提供了良好的基础,有助于提升预训练的图片编码器的性能。

15、在一种可选的实施方式中,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:

16、通过以下公式确定第一特征值与第二特征值之间的第一损失函数:

17、

18、其中,loss1为第一损失函数,f2i为第i个预处理的训练样本对应的第二特征值,f1i为第i个预处理的训练样本对应的目标训练样本对应的第一特征值。

19、本实施例提供的目标编码器训练方法,通过对比学习,对预设图片编码器进行参数调优,利用该预训练的图片编码器就可以实现对文本丰富的内容的图片编码,无需利用对象检测模型先将文本信息分为不同类别,减少了lvlm进行文本理解的时间消耗,且减少了lvlm的算力需求。

20、在一种可选的实施方式中,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:

21、在所述第一损失函数小于预设第一损失函数阈值的情况下,将所述预设图片编码器作为预训练的图片编码器;

22、在所述第一损失函数不小于预设第一损失函数阈值的情况下,对所述预设图片编码器进行参数调优,直至所述第一损失函数小于预设第一损失函数阈值,将所述预设图片编码器作为预训练的图片编码器。

23、本实施例提供的目标编码器训练方法,通过设定第一损失函数阈值作为停止条件,实现了训练过程的自动化管理。这样可以在预设图片编码器达到预期性能水平时及时终止训练,避免了过拟合的风险,同时也节省了计算资源。在第一损失函数不满足要求的情况下继续参数调优,直至满足条件,这样的策略保证了迭代过程的针对性和有效性。每一次参数调整都是为了更接近最优解,加速了预设图片编码器收敛过程。

24、在一种可选的实施方式中,所述方法还包括;

25、基于预处理的训练样本,以预处理的训练样本对应的文本编码特征为标签,对预设文本编码器进行训练,以获得预训练的文本编码器;

26、基于预处理的训练样本,以预处理的训练样本对应的类别为标签,对预设类别编码器进行训练,以获得预训练的类别编码器。

27、本实施例提供的目标编码器训练方法,通过对预设文本编码器进行训练,获得预训练的文本编码器,通过对预设类别编码器进行训练,得到预训练的类别编码器。通过预训练的文本编码器和预训练的类别编码器可以实现对预训练的图片编码器的输入结果的进一步处理,以确保输入到lvlm的编码信息的准确性。

28、在一种可选的实施方式中,所述方法还包括:

29、针对任一目标训练样本,判断所述目标训练样本对应的类别是否为文字类别;

30、在所述目标训练样本对应的类别为文字类别的情况下,通过以下公式对所述目标训练样本对应的特征矩阵进行文本框加强处理,获得所述目标训练样本对应的加强特征矩阵:

31、

32、其中,q1、k1、v1相同,为所述目标训练样本对应的特征矩阵,attenobj为所述目标训练样本对应的加强特征矩阵,为所述目标训练样本对应的特征矩阵的维度值,softmax为激活函数,mobj为文本框加强矩阵的值;

33、通过以下公式确定所述文本框加强矩阵的值:

34、

本文档来自技高网...

【技术保护点】

1.一种目标编码器训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取预处理的训练样本包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括;

6.根据权利要求5所述的方法,其特征在于,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述基于第二损失函数、第三损失函数和第四损失函数,确定总损失函数,包括:

8.一种目标编码器训练装置,其特征在于,所述装置包括:

9.一种计算机设备,其特征在于,包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有计算机指令,所述计算机指令用于使计算机执行权利要求1至7中任一项所述的目标编码器训练方法

...

【技术特征摘要】

1.一种目标编码器训练方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,获取预处理的训练样本包括:

3.根据权利要求1所述的方法,其特征在于,所述基于所述第一特征值和第二特征值,确定第一特征值与第二特征值之间的第一损失函数,包括:

4.根据权利要求1所述的方法,其特征在于,所述基于所述第一损失函数,对所述预设图片编码器进行参数调优,以获得预训练的图片编码器,包括:

5.根据权利要求1所述的方法,其特征在于,所述方法还包括...

【专利技术属性】
技术研发人员:许博
申请(专利权)人:苏州元脑智能科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1