一种对于视频冗余数据的清洗方法及系统技术方案

技术编号：40264128 阅读：20 留言：0更新日期：2024-02-02 22:53

本发明专利技术提供一种对于视频冗余数据的清洗方法及系统，包括，获取视频数据，并按帧拆解该视频数据的图像信息；提取所述图像信息中的特征向量并对所述图像数据进行聚类处理，得到对应的向量簇；从所述向量簇中选择满足预设条件的图像数据，作为疑似冗余数据；将所述疑似冗余数据作为向量输入预先训练的模型推理器，得到对应的推理结果，并根据得到的推理结果评估对应的疑似冗余数据是否有效，将评估为无效的疑似冗余数据判定为冗余数据并对该冗余数据进行清洗；其中，所述模型推理器用以根据预设的评估准则对疑似冗余数据进行判断并确定其是否为对模型推理器训练有效的样本。本发明专利技术实现对视频数据的快速清洗，排除冗余数据对模型训练的干扰。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及视频冗余数据的清洗，特别是涉及一种对于视频冗余数据的清洗方法及系统。

技术介绍

1、数据清洗是指对数据进行重新审查和校验的过程，目的在于删除重复信息、纠正存在的错误，并提供数据一致性，不符合要求的数据主要是有不完整的数据、错误的数据、重复的数据三大类，在图像与视频处理中，重复的数据是最亟待清洗的类型。目前常见方法是应用数理统计、数据挖掘或者预定义的清理规则将数据转化为符合要求的数据。

2、在生产神经网络模型中，数据是最重要的一环，而通过拍摄视频从中采集图片是常见且快捷的方式，可从定点摄像头、无人机等多种边缘设备录制视频，并在视频中抽选包含目标的帧作为样本数据；但视频的相邻帧往往存在大量雷同图片，它们之间仅有微小的平移、旋转导致的差距，在语义层面非常近似，这就导致直接从视频获取的图片数据存在大量冗余，干扰模型的训练与评价。

技术实现思路

1、本专利技术的目的在于，提出一种对于视频冗余数据的清洗方法及系统，解决如何高效清洗视频冗余数据的技术问题。

2、一方面，提供一种对于视频冗余数据的清洗方法，包括：

3、获取视频数据，并按帧拆解该视频数据的图像信息；

4、提取所述图像信息中的特征向量并对所述图像数据进行聚类处理，得到对应的向量簇；

5、从所述向量簇中选择满足预设条件的图像数据，作为疑似冗余数据；

6、将所述疑似冗余数据作为向量输入预先训练的模型推理器，得到对应的推理结果，并根据得到的推理结果评估对应

7、优选地，所述提取所述图像信息中的特征向量包括：

8、从每个图像数据中提取符合预设的规格的特征向量，作为图像数据的语义特征。

9、优选地，所述对所述图像数据进行聚类处理包括：

10、随机选择一个语义特征作为检索模板，根据该检索模板与其余语义特征间的余弦相似度聚合向量簇；

11、将余弦相似度高于预设的相似度阈值的语义特征并入对应的向量簇，并重复根据该检索模板与其余语义特征间的余弦相似度聚合向量簇，直至无语义特征在向量簇外。

12、优选地，所述从所述向量簇中选择满足预设条件的图像数据包括：

13、在每个向量簇中选择满足预设条件的图像数据作为不重复数据，或者以人工交互的形式从向量簇中选择图像数据作为不重复数据；

14、将选择的不重复数据标定为疑似冗余数据。

15、另一方面，还提供一种对于视频冗余数据的清洗系统，用以实现所述的方法，包括：

16、特征提取器，用以获取视频数据，并按帧拆解该视频数据的图像信息，提取所述图像信息中的特征向量；

17、聚类模块，用以对所述图像数据进行聚类处理，得到对应的向量簇；从所述向量簇中选择满足预设条件的图像数据，作为疑似冗余数据；

18、筛选模块，用以将所述疑似冗余数据作为向量输入预先训练的模型推理器，得到对应的推理结果，并根据得到的推理结果评估对应的疑似冗余数据是否有效，将评估为无效的疑似冗余数据判定为冗余数据并对该冗余数据进行清洗；其中，所述模型推理器为通过提前获取的训练数据集对预设的神经网络模型进行训练获得，用以根据预设的评估准则对疑似冗余数据进行判断并确定其是否为对模型推理器训练有效的样本。

19、优选地，所述特征提取器具体用以，从每个图像数据中提取符合预设的规格的特征向量，作为图像数据的语义特征。

20、优选地，所述聚类模块具体用以，随机选择一个语义特征作为检索模板，根据该检索模板与其余语义特征间的余弦相似度聚合向量簇；

21、将余弦相似度高于预设的相似度阈值的语义特征并入对应的向量簇，并重复根据该检索模板与其余语义特征间的余弦相似度聚合向量簇，直至无语义特征在向量簇外。

22、优选地，所述聚类模块还用以在每个向量簇中选择满足预设条件的图像数据作为不重复数据，或者以人工交互的形式从向量簇中选择图像数据作为不重复数据；将选择的不重复数据标定为疑似冗余数据。

23、综上，实施本专利技术的实施例，具有如下的有益效果：

24、本专利技术提供的对于视频冗余数据的清洗方法及系统，能摆脱对标注数据的依赖，实现多个场景对图片快速分类为不重复图片与疑似冗余图片；可以利用图片数据本身信息，对疑似冗余图片进行进一步筛选，有效挖掘对模型训练有效的样本数据，从而实现对视频数据的快速清洗，排除冗余数据对模型训练的干扰，整个流程极少需要人工参与，大大减少工作量；同时在模型筛选过程中，即可训练一个初步的模型，加快神经网络模型生产效率。

本文档来自技高网...

【技术保护点】

1.一种对于视频冗余数据的清洗方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述提取所述图像信息中的特征向量包括：

3.如权利要求2所述的方法，其特征在于，所述对所述图像数据进行聚类处理包括：

4.如权利要求3所述的方法，其特征在于，所述从所述向量簇中选择满足预设条件的图像数据包括：

5.一种对于视频冗余数据的清洗系统，用以实现如权利要求1-4任一所述的方法，其特征在于，包括：

6.如权利要求5所述的系统，其特征在于，所述特征提取器具体用以，从每个图像数据中提取符合预设的规格的特征向量，作为图像数据的语义特征。

7.如权利要求6所述的系统，其特征在于，所述聚类模块具体用以，随机选择一个语义特征作为检索模板，根据该检索模板与其余语义特征间的余弦相似度聚合向量簇；

8.如权利要求7所述的系统，其特征在于，所述聚类模块还用以在每个向量簇中选择满足预设条件的图像数据作为不重复数据，或者以人工交互的形式从向量簇中选择图像数据作为不重复数据；将选择的不重复数据标定为疑似冗余数据。

【技术特征摘要】

1.一种对于视频冗余数据的清洗方法，其特征在于，包括：

2.如权利要求1所述的方法，其特征在于，所述提取所述图像信息中的特征向量包括：

3.如权利要求2所述的方法，其特征在于，所述对所述图像数据进行聚类处理包括：

4.如权利要求3所述的方法，其特征在于，所述从所述向量簇中选择满足预设条件的图像数据包括：

5.一种对于视频冗余数据的清洗系统，用以实现如权利要求1-4任一所述的方法，其特征在于，包括：

6.如权利要求5所述的系统，其...

【专利技术属性】
技术研发人员：龚海明，孙蒙恩，郭祥葛，刘志雄，李英，
申请(专利权)人：深圳供电局有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人