一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备技术

技术编号：41572523 阅读：2 留言：0更新日期：2024-06-06 23:51

本发明专利技术公开了一种基于大规模视频‑语言模型的理化生实验视频描述方法及相关设备，涉及人工智能技术领域，所述方法包括：获取理化生实验视频片段；调用预训练的视频骨干模型对所述理化生实验视频片段进行特征提取，得到视频特征；调用交叉自注意力模块对所述视频特征和随机初始化的三组查询向量Qh、Qo、Qv进行自注意力计算，得到第一向量和第二向量，调用预训练的所述大语言模型对所述第二向量进行推理，生成与所述理化生实验视频片段相对应的动作描述信息。通过本发明专利技术提供的方法，通过引入目标框信息和手部关键点信息，提高识别手部操作动作的准确性，降低外部因素干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，具体涉及一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备。

技术介绍

1、理化生操作考试主要考查的是学生在实际实验中的操作技能和科学知识。考试通常涵盖物理、化学和生物三个学科，每个学科都有不同的实验操作要求。

2、随着人工智能技术的飞速发展，大语言模型在各个领域取得了显著的成果。大语言模型(large language model)是基于海量文本数据训练的深度学习模型，能够生成自然语言文本或理解语言文本的含义。大语言模型在规模上通常包含数十亿级别的参数，通过大规模的训练数据和计算资源进行训练和优化。目前最著名的大语言模型包括gpt-3、bert和xlnet等。

3、大语言模型的应用非常广泛，包括但不限于文本分类、问答、翻译、对话等任务。由于大语言模型能够深入理解文本含义，处理各种自然语言任务，因此在人工智能领域中具有重要的地位。随着技术的不断成熟，大语言模型的应用范围还将不断拓展，为人类提供更加智能化和个性化的服务，进一步改善人们的生活和生产方式。

4、然而，目前市场上与理化生操作考试相关的应用还较为欠缺，特别是理化生操作考试的手部操作动作的识别准确性不高，容易受到外部因素干扰(如光照、场景变化等)的问题。

技术实现思路

1、针对现有技术中的不足，本专利技术提供一种基于大规模视频-语言模型的理化生实验视频描述方法及相关设备，通过引入目标框信息和手部关键点信息，提高识别手部操作动作的准确性，降低外部因素干扰。</p>

2、为实现上述目的，本专利技术提供以下技术方案：

3、第一方面，本专利技术提供了理化生实验视频描述方法，其包括步骤：

4、获取理化生实验视频片段；

5、调用预训练的视频骨干模型对所述理化生实验视频片段进行特征提取，得到视频特征；

6、调用交叉自注意力模块对所述视频特征和随机初始化的三组查询向量qh、qo、qv进行自注意力计算，得到第一向量和第二向量，其中，所述第一向量包含手部及目标框信息，所述第二向量包含视频整体信息，所述第一向量用于训练大语言模型，以通过引入所述手部及目标框信息，引导所述大语言模型关注手部动作及操作区域；所述第二向量用于训练大语言模型，以捕捉文本向量与视频向量间的关联性；

7、调用预训练的所述大语言模型对所述第二向量进行推理，生成与所述理化生实验视频片段相对应的动作描述信息。

8、在一可选实施方式中，所述第一向量用于训练大语言模型，包括训练步骤：

9、调用目标检测模型的目标检测头对所述第一向量进行目标和类别预测，对所述目标检测头预测的结果与真实值之间进行损失计算；

10、调用目标检测模型的语义检测头对所述第一向量进行语义类别预测，对所述语义检测头预测的结果与调用大语言模型生成的名词文本之间进行损失计算。

11、在一可选实施方式中，所述第二向量用于训练大语言模型，包括训练步骤：

12、所述第二向量与调用大语言模型生成的句子文本之间进行损失计算。

13、在一可选实施方式中，所述对所述目标检测头预测的结果与真实值之间进行损失计算，其中，损失函数lbox按如下设置：

14、

15、式中，bi代表真实目标框，代表预测到的目标框信息，liou表示计算预测结果与真是结果的交并比。

16、所述对所述语义检测头预测的结果与调用大语言模型生成的名词文本之间进行损失计算，其中，损失函数lword按如下设置：

17、

18、式中，nj表示语义头学习到的第j个名词信息，n′k表示理化生实验中可能出现的名称集合d中的第k个名词，τ表示一个温度系数。

19、在一可选实施方式中，所述第二向量与调用大语言模型生成的句子文本之间进行损失计算，其中，损失函数lv2t，

20、

21、式中，b代表一个批次，i是批次中的一个样本，tj代表第j个句子文本特征，v代表视频特征，τ为温度系数。将公式中的t与v互换，可得lt2v。

22、在一可选实施方式中，所述第一向量用于训练大语言模型和所述第二向量用于训练大语言模型，其中，训练阶段的损失函数可以表示为：

23、ltrain＝lv2t+lt2v+lbox+γlword

24、γ是名词文本与语义头的超参数。

25、在一可选实施方式中，所述调用预训练的所述大语言模型对所述第二向量进行推理的过程中，还包括利用提示词促使生成与所述理化生实验视频片段相对应的动作描述信息。

26、第二方面，本专利技术提供了一种理化生实验视频描述装置，其包括：

27、数据获取模块，其用于获取理化生实验视频片段；

28、特征提取模块，其用于调用预训练视频骨干模型对所述理化生实验视频片段进行特征提取，得到视频特征；

29、语义训练模块，其用于调用交叉自注意力模块对所述视频特征和随机初始化的三组查询向量qh、qo、qv进行自注意力计算，得到第一向量和第二向量，其中，所述第一向量包含手部及目标框信息，所述第二向量包含视频整体信息，所述第一向量用于训练大语言模型，以通过引入所述手部及目标框信息，引导所述大语言模型关注手部动作及操作区域；所述第二向量用于训练大语言模型，以捕捉文本向量与视频向量间的关联性；

30、描述生成模块，其用于调用预训练的所述大语言模型对所述第二向量进行推理，生成与所述理化生实验视频片段相对应的动作描述信息。

31、第三方面，本专利技术还提供了一种电子设备，包括处理器以及存储器；

32、所述存储器用于存储程序；

33、所述处理器执行所述程序实现如前面所述的方法。

34、第四方面，本专利技术还提供了一种计算机可读存储介质，所述存储介质存储有程序，所述程序被处理器执行实现如前面所述的方法。

35、第五方面，本专利技术还提供了一种计算机程序产品或计算机程序，该计算机程序产品或计算机程序包括计算机指令，该计算机指令存储在计算机可读存储介质中。计算机设备的处理器可以从计算机可读存储介质读取该计算机指令，处理器执行该计算机指令，使得该计算机设备执行前面的方法。

36、本专利技术与现有技术相比，其有益效果在于：本专利技术首次将大规模语言模型应用于理化生实验，提高实验过程描述的准确性和便捷性，通过本专利技术提供的方法，通过引入目标框信息和手部关键点信息，提高识别手部操作动作的准确性，降低外部因素干扰，借助句子文本及名词文本提示，实现视觉特征、句子文本及名词文本特征的对齐，提高实验描述的准确性和一致性，可见，在理化生实验教学和考试领域具有广泛的应用前景，有望推动理化生实验操作评判的创新与发展。

本文档来自技高网...

【技术保护点】

1.一种理化生实验视频描述方法，其特征在于，包括步骤：

2.根据权利要求1所述的理化生实验视频描述方法，其特征在于，所述第一向量用于训练大语言模型，包括训练步骤：

3.根据权利要求1所述的理化生实验视频描述方法，其特征在于，所述第二向量用于训练大语言模型，包括训练步骤：

4.根据权利要求2所述的理化生实验视频描述方法，其特征在于，

5.根据权利要求3所述的理化生实验视频描述方法，其特征在于，所述第二向量与调用大语言模型生成的句子文本之间进行损失计算，其中，损失函数Lv2t，

6.根据权利要求1所述的理化生实验视频描述方法，其特征在于，所述第一向量用于训练大语言模型和所述第二向量用于训练大语言模型，其中，训练阶段的损失函数可以表示为：

7.根据权利要求1所述的理化生实验视频描述方法，其特征在于，所述调用预训练的所述大语言模型对所述第二向量进行推理的过程中，还包括利用提示词促使生成与所述理化生实验视频片段相对应的动作描述信息。

8.一种理化生实验视频描述装置，其特征在于，包括：

9.一种电

10.一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令、至少一段程序，所述至少一条指令、所述至少一段程序由处理器加载并执行以实现如权利要求1至7任一所述的理化生实验视频描述方法。

...

【技术特征摘要】

1.一种理化生实验视频描述方法，其特征在于，包括步骤：

2.根据权利要求1所述的理化生实验视频描述方法，其特征在于，所述第一向量用于训练大语言模型，包括训练步骤：

3.根据权利要求1所述的理化生实验视频描述方法，其特征在于，所述第二向量用于训练大语言模型，包括训练步骤：

4.根据权利要求2所述的理化生实验视频描述方法，其特征在于，

5.根据权利要求3所述的理化生实验视频描述方法，其特征在于，所述第二向量与调用大语言模型生成的句子文本之间进行损失计算，其中，损失函数lv2t，

<...

【专利技术属性】
技术研发人员：龚瑞锋，葛海龙，范志鸿，庞恺，刘曦林，
申请(专利权)人：广州像素数据技术股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人