一种大数据采集发布方法及大数据平台技术

技术编号:39244217 阅读:8 留言:0更新日期:2023-10-30 11:56
本发明专利技术涉及大数据技术领域,尤其为一种大数据采集发布方法及大数据平台,包括如下步骤:S1:通过数据传输设备采集数据;S2:对采集的数据进行挖掘处理获得分类处理的数据;S3:对分类处理获取的数据进行整合分类发布。本发明专利技术通过数据挖掘方法对海量数据进行挖掘分类,能够根据用户需求进行分类,并通过改进的遗传算法进行权重调整因子的寻优,获得最佳权重矩阵,通过分类函数进行分类整合、发布的方法,对不同采集方式采集的数据分别进行处理,其适用性较广,获取的数据的冗余度较低、质量较高。获取的数据的冗余度较低、质量较高。获取的数据的冗余度较低、质量较高。

【技术实现步骤摘要】
一种大数据采集发布方法及大数据平台


[0001]本专利技术涉及大数据
,尤其是一种大数据采集发布方法及大数据平台。

技术介绍

[0002]大数据时代的到来,给人们提供了海量丰富的数据信息,极大地实现了信息地位的平等。大数据在诸多领域都有广泛的应用,如信息检索、个性化推荐、刑事侦缉等。大数据的优势特点是非常突出的,但大数据的使用也面临一些实际的困难,其根本原因在于大数据所带来的信息冗余。故亟需一种大数据的采集发布方法,能够对采集的大数据进行冗余处理、整合发布,提升数据输出的质量,为用户提供最有价值的信息。现有技术通过设置不同的接口数据的采集和发布,但是数据采集包含多种方式,通过配置接口采集的数据适用性较低,本专利技术通过数据挖掘和分类整合发布的方法对不同采集方式采集的数据分别进行处理,其适用性较广,获取的数据的冗余度较低、质量较高。

技术实现思路

[0003]本专利技术的目的是通过提出一种大数据采集发布方法及大数据平台,以解决上述
技术介绍
中提出的缺陷。
[0004]本专利技术采用的技术方案如下:
[0005]提供一种大数据采集发布方法,包括如下步骤:
[0006]S1:通过数据传输设备采集数据;
[0007]S2:对采集的数据进行挖掘处理获得分类处理的数据;
[0008]S3:对分类处理获取的数据进行整合分类发布。
[0009]作为本专利技术的一种优选技术方案:所述S1中,分别通过传感器采集、爬虫采集、录入采集、导入采集和接口采集的方式采集数据。r/>[0010]作为本专利技术的一种优选技术方案:所述S2中,还对采集的数据进行数据清洗。
[0011]作为本专利技术的一种优选技术方案:所述S2中,基于挖掘算法对数据清洗后获得的数据进行挖掘处理。
[0012]作为本专利技术的一种优选技术方案:所述S2中,根据采集的数据的属性和挖掘条件进行数据挖掘获得判断矩阵,基于判断矩阵,作为RBF神经网络的输出权重矩阵进行数据的训练和分类。
[0013]作为本专利技术的一种优选技术方案:所述S2中的挖掘算法具体如下:
[0014]设定数据属性集合为A:
[0015]A={a1,a2,

,a
|A|
}
[0016]其中,a
|A|
表示数据挖掘过程中的第|A|个数据属性;
[0017]设定数据挖掘条件集合为B:
[0018]B={b1,b2,

,b
|B|
}
[0019]其中,b
|B|
表示数据挖掘过程中的第|B|个挖掘条件;
[0020]得到挖掘判断矩阵P如下:
[0021][0022]其中,表示判断矩阵中根据第|A|个属性和第|B|个条件形成的判断依据;
[0023]对挖掘判断矩阵P进行权重分配:
[0024][0025]其中,ω
k
表示第k个权重,δ为权重调整因子,|A|
k
表示属性k的数据数量总和;
[0026]作为本专利技术的一种优选技术方案:所述S2中,基于遗传算法进行权重调整因子寻优:
[0027]设定浮点数编码,选取轮盘赌法作为适应度函数f,轮盘的可能参数设置为E,
[0028][0029]选择操作根据优胜劣汰的准则进行,计算个体适应度,完成选择的个体进行交叉操作,交叉方法如下:
[0030][0031][0032]其中,分别表示第i个个体第t+1次和第t次进化的位置,分别表示第j个个体第t+1次和第t次进化的位置,P
c
为交叉概率,t为种群进化次数;
[0033][0034]其中,P
c1
、P
c2
为交叉概率调节因子,f
b
为参与交叉的两个个体中的较大适应度值,f
max
为当代种群中的最大适应度值,为当代种群中的平均适应度值;
[0035]以父代子代顺序比较的方式替代变异:
[0036]G
new
=max(G
f
,G
c
)
[0037]其中,G
new
表示父代、子代的染色体适应度值比较结果,G
f
、G
c
分别表示父代、子代的染色体适应度值;
[0038]x

i
=x
i
+x
i
·
rand(x
b

x
i
)
[0039]其中,x

i
表示第i个个体最终个体更新的位置,x
i
表示第i个个体变异的位置,x
b
为最佳适应度个体对应的空间位置。
[0040]作为本专利技术的一种优选技术方案:所述S2中,基于遗传算法寻优获取的最优权重调整因子构建权重矩阵ω
l
,并将权重矩阵作为输入至RBF神经网络的数据的输出权重矩阵,对数据进行训练。
[0041]作为本专利技术的一种优选技术方案:所述训练具体如下:
[0042]设RBF神经网络的输入向量、输出向量的维度分别为g,h,即X=[X1,X2,

,X
g
],y=[y1,y2,

,y
h
],隐藏层的规模为r,隐藏层节点的激活函数为则RBF网络在第m个节点的输出y
m
为:
[0043][0044]其中,为网络中使用的高斯径向基函数,c
l
为RBF网络中隐藏层节点l的中心矢量,σ为RBF神经网络的宽度;
[0045]基于分类算法进行数据的分类:
[0046][0047]其中,Y
m
表示第m个输出数据的分类结果,M表示输出数据的个数,e为数学常量。
[0048]提供一种大数据平台,包括:
[0049]数据采集层:用于通过数据传输设备采集数据;
[0050]挖掘分类层:用于对采集的数据进行挖掘处理获得分类处理的数据;
[0051]整合发布层:用于对分类处理获取的数据进行整合分类发布。
[0052]本专利技术提供的大数据采集发布方法及大数据平台,与现有技术相比,其有益效果有:
[0053]本专利技术通过数据挖掘方法对海量数据进行挖掘分类,能够根据用户需求进行分类,并通过改进的遗传算法进行权重调整因子的寻优,获得最佳权重矩阵,通过分类函数进行分类整合、发布的方法,对不同采集方式采集的数据分别进行处理,其适用性较广,获取的数据的冗余度较低、质量较高。
附图说明
[0054]图1为本专利技术优选实施例的方法流程图;
[0055]图2为本专利技术优选实施例中平台架构图。
[0056]图中各个标记的意义为:100、数据采集层;200、挖掘分类层;300、整合发布层本文档来自技高网...

【技术保护点】

【技术特征摘要】
1.一种大数据采集发布方法,其特征在于:包括如下步骤:S1:通过数据传输设备采集数据;S2:对采集的数据进行挖掘处理获得分类处理的数据;S3:对分类处理获取的数据进行整合分类发布。2.根据权利要求1所述的大数据采集发布方法,其特征在于:所述S1中,分别通过传感器采集、爬虫采集、录入采集、导入采集和接口采集的方式采集数据。3.根据权利要求2所述的大数据采集发布方法,其特征在于:所述S2中,还对采集的数据进行数据清洗。4.根据权利要求3所述的大数据采集发布方法,其特征在于:所述S2中,基于挖掘算法对数据清洗后获得的数据进行挖掘处理。5.根据权利要求4所述的大数据采集发布方法,其特征在于:所述S2中,根据采集的数据的属性和挖掘条件进行数据挖掘获得判断矩阵,基于判断矩阵,作为RBF神经网络的输出权重矩阵进行数据的训练和分类。6.根据权利要求5所述的大数据采集发布方法,其特征在于:所述S2中的挖掘算法具体如下:设定数据属性集合为A:A={a1,a2,

,a
|A|
}其中,a
|A|
表示数据挖掘过程中的第|A|个数据属性;设定数据挖掘条件集合为B:B={b1,b2,

,b
|B|
}其中,b
|B|
表示数据挖掘过程中的第|B|个挖掘条件;得到挖掘判断矩阵P如下:其中,表示判断矩阵中根据第|A|个属性和第|B|个条件形成的判断依据;对挖掘判断矩阵P进行权重分配:其中,ω
k
表示第k个权重,δ为权重调整因子,|A|
k
表示属性k的数据数量总和。7.根据权利要求6所述的大数据采集发布方法,其特征在于:所述S2中,基于遗传算法进行权重调整因子寻优:设定浮点数编码,选取轮盘赌法作为适应度函数f,轮盘的可能参数设置为E,选择操作根据优胜劣汰的准则进行,计算个体适应度,完成选择的个体进行交叉操作,
交叉方法如下:交叉方法如下:其中,分别表示第i个个体第t+1次和第t次进化的位置,分别表示第j个个体第t+1次和第t次进化的位置,P
c
为交叉概率,t为种群进化次数;其中,P
c1
、P
c2
为交叉概率调节因子,f
b
为参与交叉的两个个体中的较大适应度值,f

【专利技术属性】
技术研发人员:邱新明徐海涛邱石乔帆李凯
申请(专利权)人:广达创远河南科技发展有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1