System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于深度学习的多模态数据标注系统及方法技术方案_技高网

基于深度学习的多模态数据标注系统及方法技术方案

技术编号:45024581 阅读:2 留言:0更新日期:2025-04-18 17:05
本发明专利技术公开了基于深度学习的多模态数据标注系统及方法,涉及数据标注技术领域,基于深度学习的多模态数据标注方法具体步骤包括:步骤一、输入原始视频数据流,对原始视频数据进行模态分解与预处理,得到多模态数据,步骤二、分类分析收集到的多模态数据,通过提取多模态数据特征,设置多模态对应的特征系数,步骤三、基于多模态对应的特征系数设置联合特征向量,根据联合特征向量实现实时标注质量监控,本发明专利技术通过通过提取多模态数据特征自定义图像数据特征、文本数据特征与音频数据特征系数,通过参考不同特征系数设置联合特征向量,根据联合特征向量实现实时标注质量监控。

【技术实现步骤摘要】

本专利技术属于数据标注,具体涉及基于深度学习的多模态数据标注系统及方法


技术介绍

1、随着大数据时代的到来,多模态数据(如图像、文本、音频等)的处理和分析变得越来越重要。传统的数据标注方法通常依赖于单一模态的数据特征,难以充分利用多模态数据之间的关联信息,导致标注质量参差不齐。现有技术中,虽然有一些多模态数据标注方法,但这些方法往往无法有效提取和利用多模态数据的深层次特征,导致标注结果不够准确和全面。

2、此外,现有的多模态数据标注方法在处理不同模态数据之间的融合与对齐时也存在着一定的困难。由于不同模态数据在表达形式、时空分辨率等方面存在差异,如何通过实时监测它们之间的融合和对齐,以充分保证多模态数据标注的质量,是当前研究中的一个难点问题。

3、因此当前亟需一种新型的多模态数据标注方法,用于解决当前多模态数据标注存在的技术问题。


技术实现思路

1、本专利技术的目的在于提供基于深度学习的多模态数据标注系统及方法,用于解决现有技术中难以实现实时监测不同模态数据之间的融合和对齐的技术问题。

2、为了实现上述目的,本专利技术采用了如下技术方案:

3、基于深度学习的多模态数据标注方法,包括:

4、步骤一、输入原始视频数据流,对原始视频数据进行模态分解与预处理,得到多模态数据;

5、步骤二、分类分析收集到的多模态数据,通过提取多模态数据特征,设置多模态对应的特征系数;

6、步骤三、基于多模态对应的特征系数设置联合特征向量,根据联合特征向量实现实时标注质量监控。

7、进一步的,输入原始视频数据流,对原始视频数据进行模态分解与预处理,得到多模态数据,具体方法为:

8、输入原始视频数据流,按预设帧率,将视频分解生成时间戳对齐的图像数据集,记为,其中m表示视频分解后一共拥有m帧图像,量化运动强度定义运动强度阈值,根据该阈值判断不同视频帧是否属于剧烈运动强度,采用滑动窗口算法动态调整分帧间隔,记录格式包含帧序号、时间戳数值和图像数据引用路径,得到由视频帧数据组成的图像数据,使用深度学习模型检测图像中的潜在文本区域,将由图像检测到的文本记为图像文本;

9、从视频数据流中分离独立音频轨道,保存为无损音频格式,保持f采样率和16位深度,对音频进行快速傅里叶变换,将持续超过a1毫秒且能量低于a2的语音时间判定为静音段,非静音段则为有效音频片段,将有效语音片段与静音段的频谱数据记为音频数据,采用端到端语音识别模型识别音频数据中包含的文本内容,输出文本内容与对应时间区间,将该输出文本记为音频文本;

10、将图像数据,音频数据,图像文本与音频文本统称为多模态数据,其中图像文本与音频文本统称为文本数据。

11、进一步的,分类分析收集到的多模态数据,通过提取多模态数据特征,设置多模态对应的特征系数,具体方法为:

12、通过卷积神经网络提取每个视频帧的图像数据的亮度参数、纹理参数与边缘密度,综合得到图像特征系数;

13、将收集到的文本数据进行预处理,将预处理后的文本数据根据原文本信息来源的视频帧与图像张数进行划分,将每个视频帧中包含的所有文本信息记为一个文档内容,综合得到文本特征系数;

14、收集从视频数据流分离所得到的视频帧,通过对每个视频帧对应的音频数据进行短时傅里叶变换,确定音频特征系数。

15、进一步的,通过卷积神经网络提取每个视频帧的图像数据的亮度参数、纹理参数与边缘密度,综合得到图像特征系数,具体方法为:

16、利用公式表示图像特征系数,其中,x表示第x个视频帧,表示第x个视频帧的图像特征系数,d(x)表示第x个视频帧具体图像的面积大小,表示第x个视频帧的图像数据中像素的横坐标和纵坐标,表示常数代表第x个视频帧的图像数据像素坐标最大值,表示第x个视频帧的图像数据在坐标的像素值,a为常数值,表示第x个视频帧的图像数据的第个像素,表示第x个视频帧的图像数据的第个像素,表示灰度级等于像素灰度级与像素灰度级的像素对出现的联合概率分布,表示对第x个视频帧的图像数据应用canny边缘检测算法得到的边缘像素数量,表示像素值权重系数,表示灰度级权重系数,表示边缘权重系数。

17、进一步的,将收集到的文本数据进行预处理,将预处理后的文本数据根据原文本信息来源的视频帧与图像张数进行划分,将每个视频帧中包含的所有文本信息记为一个文档内容,综合得到文本特征系数,具体方法为:

18、利用公式表示文本特征系数,其中,x表示第x个视频帧,表示第x个视频帧的文本特征系数,pa(x)表示第x个视频帧对应文档内容中单词出现次数最大值,pi(x)表示第x个视频帧对应文档内容中单词出现次数平均值,n(x)表示第x个视频帧对应文档内容的维度数量,表示维度因子。

19、进一步的,收集从视频数据流分离所得到的视频帧,通过对每个视频帧对应的音频数据进行短时傅里叶变换,确定音频特征系数,具体方法为:

20、利用公式表示音频特征系数,其中,x表示第x个视频帧,表示第x个视频帧的音频特征系数,表示第x个视频帧音频段数据的短时傅里叶变换系数,k表示离散傅里叶变换的频点序号,每个k对应一个离散频率分量,n表示傅里叶变换的序号总数,表示仅在实际物理频率y等于处有能量贡献,在其他频率点能量为零。

21、进一步的,基于多模态对应的特征系数设置联合特征向量,具体方法为:

22、利用公式表示联合特征向量,其中,x表示第x个视频帧,表示第x个视频帧的联合特征向量,表示第x个视频帧的图像特征系数,表示第x个视频帧的文本特征系数,表示第x个视频帧的音频特征系数,为文本特征因子,xu(i)表示第x个视频帧的图像特征因子,xt(j)表示第x个视频帧的音频特征因子。

23、进一步的,根据联合特征向量实现实时标注质量监控,具体方法为:

24、设置图像特征系数相似度阈值p,若相邻视频帧的图像特征系数比值大于等于该阈值,证明该对相邻视频帧属于同场景图像,设置联合特征向量阈值e,计算所有属于同场景图像视频帧联合特征向量的差值绝对值,若该绝对值大于等于e,则表示该对相邻视频帧对应的多模态数据模态间量纲存在差异,时空关系未对齐,标注质量异常,需要根据视频帧时间戳,重新设置同场景图像的图像特征、文本特征与音频特征所在同一时间窗口,若该绝对值小于e,则表示该对同场景图像多模态数据标注质量正常。

25、本专利技术还提供基于深度学习的多模态数据标注系统,包括:

26、多模态数据收集模块,输入原始视频数据流,对原始视频数据进行模态分解与预处理,得到多模态数据;

27、多模态特征提取模块,分类分析收集到的多模态数据,通过提取多模态数据特征,设置多模态对应的特征系数;

28、实时标注质量监控模块,基于多模态对应的特征系数设置联合特征向量,根据联合特征向量实现实时标注质量监控。

29、综上所述,由于采用了本文档来自技高网...

【技术保护点】

1.基于深度学习的多模态数据标注方法,其特征在于,包括:

2.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,输入原始视频数据流,对原始视频数据进行模态分解与预处理,得到多模态数据,具体方法为:

3.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,分类分析收集到的多模态数据,通过提取多模态数据特征,设置多模态对应的特征系数,具体方法为:

4.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,通过卷积神经网络提取每个视频帧的图像数据的亮度参数、纹理参数与边缘密度,综合得到图像特征系数,具体方法为:

5.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,将收集到的文本数据进行预处理,将预处理后的文本数据根据原文本信息来源的视频帧与图像张数进行划分,将每个视频帧中包含的所有文本信息记为一个文档内容,综合得到文本特征系数,具体方法为:

6.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,收集从视频数据流分离所得到的视频帧,通过对每个视频帧对应的音频数据进行短时傅里叶变换,确定音频特征系数,具体方法为:

7.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,基于多模态对应的特征系数设置联合特征向量,具体方法为:

8.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,根据联合特征向量实现实时标注质量监控,具体方法为:

9.基于深度学习的多模态数据标注系统,应用于权利要求1-8任一项所述的基于深度学习的多模态数据标注方法,其特征在于,包括:

...

【技术特征摘要】

1.基于深度学习的多模态数据标注方法,其特征在于,包括:

2.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,输入原始视频数据流,对原始视频数据进行模态分解与预处理,得到多模态数据,具体方法为:

3.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,分类分析收集到的多模态数据,通过提取多模态数据特征,设置多模态对应的特征系数,具体方法为:

4.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,通过卷积神经网络提取每个视频帧的图像数据的亮度参数、纹理参数与边缘密度,综合得到图像特征系数,具体方法为:

5.根据权利要求1所述的基于深度学习的多模态数据标注方法,其特征在于,将收集到的文本数据进行预处理,将预处理后的文本数据根据原文...

【专利技术属性】
技术研发人员:田山张志龙孙小龙
申请(专利权)人:山东再起数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1