错误可回溯的图像数据结构与标注方法技术

技术编号:38011441 阅读:10 留言:0更新日期:2023-06-30 10:32
本发明专利技术公开了一种错误可回溯的图像数据结构与标注方法,所述方法包括如下步骤:步骤一、读入图像数据,步骤二、图像内容预处理,步骤三、图像数据转化为HPC文件格式,步骤四、HPC文件的标注与修改,步骤五、HPC文件格式转化为TPC文件格式,步骤六、TPC文件格式转化为目标格式文件。本发明专利技术能将错误的样本个例溯源至原始样本批次内容上,有助于对成批出现的错误样本进行处理;能将大数据量的样本信息的修改与删除一体化处理,减少中间步骤,大幅度减少对处理采集到的数据所用的时间,减少人力的浪费,提升效率;能将相同标签的样本存储一体化,有利于在存储、使用、样本分类。样本分类。样本分类。

【技术实现步骤摘要】
错误可回溯的图像数据结构与标注方法


[0001]本专利技术属于计算机视觉领域,涉及一种图像数据结构与标注方法,具体涉及一种面向海量数据采集任务的错误可回溯的图像数据结构与标注方法。

技术介绍

[0002]随着网络的日渐发达,物联网的蓬勃发展,万物可联网无疑是未来的必然的发展趋势,而这发展过程中,对各种不同类别的图像数据集的需求也越来越大。手写识别需要手写文字数据集,人脸识别需要人脸图像数据集,在智能识别系统以其高效与安全的特点逐步替代了传统的人工识别工作时,物联网对各类图像数据集的需求量也随之水涨船高。然而,当前计算机视觉领域的图像数据集的采集更多的从头到尾都依赖于参与人员的手动处理,参与人员需要手动将采集到的数据逐个分类、筛选、编号、对图像做出一定的图像处理并完成信息标注后,才算收集好了一份有效的数据集。而这样的数据集收集方式除了存在因人工处理大批量图像数据时易疲劳而产生的误差外,还存在着对原始数据中的一批不同类别的图像数据同时出错时处理繁琐可能遗漏的问题,这都大大降低了一套有效数据集的可靠性,所以往往一套数据集需要多遍人工处理才能投入使用。以这样方式完成一套数据集采集所需的人力、物力、时间成本极大,且成稿过程缓慢,乃至于现在很多计算机视觉领域的数据集已经逐渐跟不上其本身识别技术的发展速度,拖累了计算机视觉领域的发展步伐。不能将分类后的错误图像数据回溯至原始数据集批次上进行重点分析是现有图像数据集采集的重要问题所在。若能将错误图像数据溯源对错误批次的原始数据集进行重点分析无疑可以节省下大量的人力与时间成本,加快数据集成稿速度,提高数据集的准确率。
[0003]现有的用于计算机视觉领域的图像数据集格式一般有TIFF(Tag Image File Format)、BMP(Bitmap)、PNG(Portable Network Graphics)等不失真格式。用于计算机视觉领域的图像文件格式最重要的特点就是无损,在处理过程中没有损失。为了保证数据集不影响识别技术的识别效率与正确率,应最大程度保留图像原有的分辨率,减少因图像压缩等原因损失的图像品质。传统数据格式中,图像与图像之间是相互独立的,两张图像之间没有任何关联,适用于几乎所有需要图像数据的领域。
[0004]将图像数据格式运用于对海量图像数据集的采集无疑面临着新的挑战。海量的图像数据一般成批次的获取大量原始数据,在对原始数据进行处理过程中,往往会将图像数据按照标签重新归类,并在此基础上进行二次处理。当一个批次的原始数据出错时,因其内容已被归类至不同标签分类下,在二次处理中将其逐个对应挑出删改是一个极为浪费人力与时间成本的选择。另一个重要问题为对图像内容标签的标注。传统图像数据格式的标注一般只能使用文件夹命名的方式分类存储,或直接对图像文件使用标签命名,在采集一图多标签的图像数据集或海量数据集时十分不便。显然,在采集用于计算机视觉领域的图像数据集时,我们应提供一种更适合图像数据集采集处理过程的新的数据格式与其对应的一套系统。
[0005]一种手写汉字图像数据的存储格式:CASIA脱机汉字库gnt文件格式(其格式如表1
所示)。HWDB1.1是出自CASIA的手写汉字库,由中国科学院自动化研究所模式识别国家重点实验室收集的,收录了7185个常用汉字及171个特殊符号,这些数据以gnt格式存储。根据手写汉字库的特点,该格式文件在每个字符图像的头文件内加入标识对应字符的标签位,为了适应大数据量存储,尽可能减少存储空间,在每个字符图像数据内容中加入该字符图像所占总长、该字符图像的长宽字段描述字符图像的基本信息,将该字符图像的具体像素内容按行逐个输出排列,完成一个字符内容的存储,后续字符内容以同样格式续接在上一字符数据内容后,使复数字符图像数据按照串行排列存储。存在如下缺点:
[0006](1)无法将错误图像样本溯源至原始批次图像样本上。
[0007](2)无法将样本修改与删除一体化处理。
[0008](3)相同标签的样本数据未能存储一体化。
[0009]表1gnt文件格式
[0010][0011]
技术实现思路

[0012]针对现有技术存在的上述缺点,本专利技术提供了一种面向海量数据采集任务的错误可回溯的图像数据结构与标注方法。
[0013]本专利技术的目的是通过以下技术方案实现的:
[0014]一种面向海量数据采集任务的错误可回溯的图像数据结构与标注方法,包括如下步骤:
[0015]步骤一、读入图像数据
[0016](1)通过对目标目录的迭代获取样本存储文件夹路径下的所有图像样本路径与样本名称;
[0017](2)将样本路径与样本名称存入向量中,作为待处理文件信息保存;
[0018](3)根据向量中的待处理文件信息获取图像文件,将之读入内存进行后续处理,每处理完一张图像文件,将该图像文件信息移出向量再开始处理下一张图像文件;
[0019]步骤二、图像内容预处理
[0020](1)对图像信息使用大津算法进行二值化处理,得到一张二值图;
[0021](2)对二值图采用hough变换的方式检测到印刷版面边缘信息,获取图像的倾斜角度值;
[0022](3)根据倾斜角度值与二值图对原始图像进行倾斜校正与初步降噪;
[0023](4)按比例切割版面四角的矩形图像区域,分别进行投影分析以确认二维码所在区域,根据二维码所在区域的位置完成对原始图像的翻转处理;
[0024](5)使用zxing库获取二维码内信息,得到该图像文件所对应的包括文字顺序在内的基础信息;
[0025](6)将图像路径、图像名称、图像样本的基础信息作为预处理文档输出;
[0026]步骤三、图像数据转化为HPC文件格式
[0027](1)使用预处理文档确认每个单元内的单位数目与相应的基础信息,按照HPC文件规格说明生成单元头;
[0028](2)通过版面投影与对连通域的分析定位出有效图像单位的位置;
[0029](3)通过定位出的图像位置对原始图像进行切分,获得单位图像内容,按照HPC文件规格说明填入HPC文件中;
[0030]步骤四、HPC文件的标注与修改
[0031](1)HPC文件的内容显示:HPC文件修改工具按照规格格式读取HPC文件,根据读取到的单位图像内容生成图像矩阵,并使用连通域查找的方式对图像进行分割,将分割后的连通域信息以字为分组存储至二维区块链数组中以便后续人工删减,显示时采用蓝色矩框显示连通域外框方便识别与操作;
[0032](2)HPC文件的标注修改:使用者通过左键点击鼠标拖拽的方式选中明显为噪音部分的连通域,选中的连通域采用使外边框变红的方式提示,按下delete按键时将界面上已经选中的连通域删除,删除的内容同步更新至HPC文件中,以同时完成对HPC文件图像信息的修改;
[0033]步骤五、HPC文件格式转化为TPC文件格式
[0034](1)编写格式转换程序将根据即将读取的HPC文件I本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种错误可回溯的图像数据结构与标注方法,其特征在于所述方法包括如下步骤:步骤一、读入图像数据(1)通过对目标目录的迭代获取样本存储文件夹路径下的所有图像样本路径与样本名称;(2)将样本路径与样本名称存入向量中,作为待处理文件信息保存;(3)根据向量中的待处理文件信息获取图像文件,将之读入内存进行后续处理,每处理完一张图像文件,将该图像文件信息移出向量再开始处理下一张图像文件;步骤二、图像内容预处理(1)对图像信息使用大津算法进行二值化处理,得到一张二值图;(2)对二值图采用hough变换的方式检测到印刷版面边缘信息,获取图像的倾斜角度值;(3)根据倾斜角度值与二值图对原始图像进行倾斜校正与初步降噪;(4)按比例切割版面四角的矩形图像区域,分别进行投影分析以确认二维码所在区域,根据二维码所在区域的位置完成对原始图像的翻转处理;(5)使用zxing库获取二维码内信息,得到该图像文件所对应的包括文字顺序在内的基础信息;(6)将图像路径、图像名称、图像样本的基础信息作为预处理文档输出;步骤三、图像数据转化为HPC文件格式(1)使用预处理文档确认每个单元内的单位数目与相应的基础信息,按照HPC文件规格说明生成单元头;(2)通过版面投影与对连通域的分析定位出有效图像单位的位置;(3)通过定位出的图像位置对原始图像进行切分,获得单位图像内容,按照HPC文件规格说明填入HPC文件中;步骤四、HPC文件的标注与修改(1)HPC文件的内容显示:HPC文件修改工具按照规格格式读取HPC文件,根据读取到的单位图像内容生成图像矩阵,并使用连通域查找的方式对图像进行分割,将分割后的连通域信息以字为分组存储至二维区块链数组中以便后续人工删减,显示时采用蓝色矩框显示连通域外框方便识别与操作;(2)HPC文件的标注修改:使用者通过左键点击鼠标拖拽的方式选中明显为噪音部分的连通域,选中的连通域采用使外边框变红的方式提示,...

【专利技术属性】
技术研发人员:苏统华马建宇曲明成王忠杰涂志莹
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1