一种基于图像的大数据分析方法技术

技术编号:29594133 阅读:35 留言:0更新日期:2021-08-06 19:55
本发明专利技术涉及图像分析技术领域,具体是一种基于图像的大数据分析方法,为了提高整体的运算速度,步骤1、图像采集:步骤2、图像预处理:步骤3、特征提取:步骤4、建立图像特征索引:步骤5、图像特征匹配。本发明专利技术设计新颖,方法考究,利用PCA算法将维将高维图像识别问题转化为特征表达向量的识别问题,大大降低了计算的复杂程度,减少了冗余信息所造成的识别误差,提高了识别的精度和工作效率,同时也减少了所需存储空间,节约了存储设备的成本,图像特征匹配可以将相似度由高到低的图像输出,提高了识别度。

【技术实现步骤摘要】
一种基于图像的大数据分析方法
本专利技术涉及图像分析
,具体是一种基于图像的大数据分析方法。
技术介绍
图像分析用模式识别和人工智能方法对物景进行分析、描述、分类和解释的技术,又称景物分析或图像理解,20世纪60年代以来,在图像分析方面已有许多研究成果,从针对具体问题和应用的图像分析技术逐渐向建立一般理论的方向发展。图像分析同图像处理、计算机图形学等研究内容密切相关,而且相互交叉重叠。但图像处理主要研究图像传输、存储、增强和复原,计算机图形学主要研究点、线、面和体的表示方法以及视觉信息的显示方法,图像分析则着重于构造图像的描述方法,更多地是用符号表示各种图像,而不是对图像本身进行运算,并利用各种有关知识进行推理。图像分析与关于人的视觉的研究也有密切关系,对人的视觉机制中的某些可辨认模块的研究可促进计算机视觉能力的提高。但是目前常见的图像分析方法比较简单,图像维度较大,从而过多的占用了存储空间,增加了存储成本,同时也增加了分析的时间,对工作效率造成一定程度的影响。因此,本领域技术人员提供了一种基于图像的大数据分析方法,以解决上述
技术介绍
中提出的问题。
技术实现思路
本专利技术的目的在于提供一种基于图像的大数据分析方法,以解决上述
技术介绍
中提出的问题。为实现上述目的,本专利技术提供如下技术方案:一种基于图像的大数据分析方法,包括以下步骤:步骤1、图像采集:根据指定关键词通过网络爬虫对互联网中的相关图像、图片进行采集;采集后的图像、图片通过网络防火墙和杀毒软件进行木马、网络攻击的隔绝和查杀;步骤2、图像预处理:对采集的图像、图片进行背景差分和滤波去噪,进一步完成缩小和放大换,从而获得固定大小的图像、图片样本;对固定大小的图像、图片样本进行灰度化处理,并通过中值滤波和形态学方法增强图像,确保图像、图片的主要纹理特征清晰可辩;利用直方图均衡化技术对图像、图片进行处理,使其满足统一的均值和方差,进而得到标准图像、图片;步骤3、特征提取:建立图像的高斯金字塔,对图像进行分块处理,使其呈现一种层次金字塔的结构,进一步分别统计每一块子结构的特征,直至所有结构特征统计完毕后拼接成完整的特征;利用PCA算法对图像、图片进行将维处理,处理后存入图库中;利用K均值聚类方法进行特征集离散化处理,并将离散化处理后的特征转换成邻域特证;步骤4、建立图像特征索引:利用倒排索引技术对图像特征进行快速检索;步骤5、图像特征匹配:设定一个检索特征,在量化后,对应于待检索特征在倒排检索中索引项Wi被确定,进一步索引项Wi所对应的一系列相关的索引特征会作为候选匹配结果,两个图像特征向量X和Y之间的匹配函数定义如下:fq(x,y)=σq(x),q(y)。作为本专利技术更进一步的方案:所述降维处理的具体子步骤如下:S1、针对已有的数据集P=(P1、PZ……Pn)通过公式计算平均值;S2、用原数据减去均值得到Pi′=pi-m,然后通过公式计算协方差矩阵;S3、计算协方差矩阵的特征值E1、E2……Em和特征向量EV1、EV2……EVm,进一步将特征值按照从大到小的顺序排列,得到E1′、E2′……Em′以及相应的特征向量EV1′、EV2′……EVm′;S4、根据特征值的大小选取前32个,将原数据由原来的128维降低到新的32维,完成针对原数据降维处理;作为本专利技术更进一步的方案:特征向量代表原始数据的分布方向,特征向量对应的特征值越大,该特征向量越重要。作为本专利技术更进一步的方案:所述特征集离散化处理方法包括以下子步骤:A1、从图库中提取大量特征集,利用K均值聚类对其作离散化处理,聚标记即是图像、图片的索引值,将特征集划分成K个离散的聚类;A2、利用迭代的方式将每一个特征划分到距离其最近的聚类中,其中类间距离度量上采用单连接法,对任意两个聚类Ci、Cj,单连接法的计算公式为:dist(ci,cj)=min{dist(xi,xj)|xi∈ci,xj∈cj}。作为本专利技术更进一步的方案:所述A1中K值数量取10000。作为本专利技术更进一步的方案:步骤5中q为量化函数,将特征向量映射为离其最近的簇中心。与现有技术相比,本专利技术的有益效果是:本专利技术设计新颖,方法考究,利用PCA算法将维将高维图像识别问题转化为特征表达向量的识别问题,大大降低了计算的复杂程度,减少了冗余信息所造成的识别误差,提高了识别的精度和工作效率,同时也减少了所需存储空间,节约了存储设备的成本,图像特征匹配可以将相似度由高到低的图像输出,提高了识别度。附图说明图1为一种基于图像的大数据分析方法的步骤图。具体实施方式请参阅图1,本专利技术实施例中,一种基于图像的大数据分析方法,包括以下步骤:步骤1、图像采集:根据指定关键词通过网络爬虫对互联网中的相关图像、图片进行采集;采集后的图像、图片通过网络防火墙和杀毒软件进行木马、网络攻击的隔绝和查杀;步骤2、图像预处理:对采集的图像、图片进行背景差分和滤波去噪,进一步完成缩小和放大换,从而获得固定大小的图像、图片样本;对固定大小的图像、图片样本进行灰度化处理,并通过中值滤波和形态学方法增强图像,确保图像、图片的主要纹理特征清晰可辩;利用直方图均衡化技术对图像、图片进行处理,使其满足统一的均值和方差,进而得到标准图像、图片;步骤3、特征提取:建立图像的高斯金字塔,对图像进行分块处理,使其呈现一种层次金字塔的结构,进一步分别统计每一块子结构的特征,直至所有结构特征统计完毕后拼接成完整的特征;利用PCA算法对图像、图片进行将维处理,处理后存入图库中;利用K均值聚类方法进行特征集离散化处理,并将离散化处理后的特征转换成邻域特证;步骤4、建立图像特征索引:利用倒排索引技术对图像特征进行快速检索;步骤5、图像特征匹配:设定一个检索特征,在量化后,对应于待检索特征在倒排检索中索引项Wi被确定,进一步索引项Wi所对应的一系列相关的索引特征会作为候选匹配结果,两个图像特征向量X和Y之间的匹配函数定义如下:fq(x,y)=σq(x),q(y)。进一步的,降维处理的具体子步骤如下:S1、针对已有的数据集P=(P1、PZ……Pn)通过公式计算平均值;S2、用原数据减去均值得到Pi′=pi-m,然后通过公式计算协方差矩阵;S3、计算协方差矩阵的特征值E1、E2……Em和特征向量EV1、EV2……EVm,进一步将特征值按照从大到小的顺序排列,得到E1′、E2′……Em′以及相应的特征向量EV1′、EV2′……EVm′;S4、根据特征值的大小选取前32个,将原数据由原来的128维降低到新的32维,完成针对原数据降维处理;进一步的,特征向量代表原始数据的分布方向,特征向量对应的特征值越大,该特征向量越重要。进一步的,特征集离散化处理方法包括以下子步骤:本文档来自技高网...

【技术保护点】
1.一种基于图像的大数据分析方法,其特征在于,包括以下步骤:/n步骤1、图像采集:根据指定关键词通过网络爬虫对互联网中的相关图像、图片进行采集;/n采集后的图像、图片通过网络防火墙和杀毒软件进行木马、网络攻击的隔绝和查杀;/n步骤2、图像预处理:对采集的图像、图片进行背景差分和滤波去噪,进一步完成缩小和放大换,从而获得固定大小的图像、图片样本;/n对固定大小的图像、图片样本进行灰度化处理,并通过中值滤波和形态学方法增强图像,确保图像、图片的主要纹理特征清晰可辩;/n利用直方图均衡化技术对图像、图片进行处理,使其满足统一的均值和方差,进而得到标准图像、图片;/n步骤3、特征提取:建立图像的高斯金字塔,对图像进行分块处理,使其呈现一种层次金字塔的结构,进一步分别统计每一块子结构的特征,直至所有结构特征统计完毕后拼接成完整的特征;/n利用PCA算法对图像、图片进行将维处理,处理后存入图库中;/n利用K均值聚类方法进行特征集离散化处理,并将离散化处理后的特征转换成邻域特证;/n步骤4、建立图像特征索引:利用倒排索引技术对图像特征进行快速检索;/n步骤5、图像特征匹配:设定一个检索特征,在量化后,对应于待检索特征在倒排检索中索引项Wi被确定,进一步索引项Wi所对应的一系列相关的索引特征会作为候选匹配结果,两个图像特征向量X和Y之间的匹配函数定义如下:fq(x,y)=σq(x),q(y)。/n...

【技术特征摘要】
1.一种基于图像的大数据分析方法,其特征在于,包括以下步骤:
步骤1、图像采集:根据指定关键词通过网络爬虫对互联网中的相关图像、图片进行采集;
采集后的图像、图片通过网络防火墙和杀毒软件进行木马、网络攻击的隔绝和查杀;
步骤2、图像预处理:对采集的图像、图片进行背景差分和滤波去噪,进一步完成缩小和放大换,从而获得固定大小的图像、图片样本;
对固定大小的图像、图片样本进行灰度化处理,并通过中值滤波和形态学方法增强图像,确保图像、图片的主要纹理特征清晰可辩;
利用直方图均衡化技术对图像、图片进行处理,使其满足统一的均值和方差,进而得到标准图像、图片;
步骤3、特征提取:建立图像的高斯金字塔,对图像进行分块处理,使其呈现一种层次金字塔的结构,进一步分别统计每一块子结构的特征,直至所有结构特征统计完毕后拼接成完整的特征;
利用PCA算法对图像、图片进行将维处理,处理后存入图库中;
利用K均值聚类方法进行特征集离散化处理,并将离散化处理后的特征转换成邻域特证;
步骤4、建立图像特征索引:利用倒排索引技术对图像特征进行快速检索;
步骤5、图像特征匹配:设定一个检索特征,在量化后,对应于待检索特征在倒排检索中索引项Wi被确定,进一步索引项Wi所对应的一系列相关的索引特征会作为候选匹配结果,两个图像特征向量X和Y之间的匹配函数定义如下:fq(x,y)=σq(x),q(y)。


2.根据权利要求1所述的一种基于图像的大数据分析方法,其特征在于,所述降维处理的具体子步骤如下:
S1、针对已有的...

【专利技术属性】
技术研发人员:谭旭蔡铁王琼曹维程东升郝智勇
申请(专利权)人:深圳信息职业技术学院
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1