System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于神经网络分类模型的多源数据筛选方法及系统技术方案_技高网

基于神经网络分类模型的多源数据筛选方法及系统技术方案

技术编号:44812597 阅读:4 留言:0更新日期:2025-03-28 19:58
本发明专利技术公开了基于神经网络分类模型的多源数据筛选方法及系统,包括:确定目标数据筛选规则并转为概率模型,获得特征组合联合概率密度函数,各类型数据构建神经网络分类模型,根据联合概率密度函数优化模型参数,组合不同数据类型的神经网络分类模型成多层神经网络分类模型,通过概率模型生成对抗样本进行训练,最后基于多层神经网络分类模型最后一层的梯度确定特征重要性,经聚类分析选特征组合筛选多源数据,根据筛选结果更新特征重要性,循环优化筛选过程。该方法能够处理和整合多种类型的数据源,提高数据利用的广度和深度,通过概率模型和神经网络的结合,实现对数据的精确筛选,提升决策质量,同时具有较好的可解释性。

【技术实现步骤摘要】

本专利技术涉及数据挖掘领域,尤其涉及基于神经网络分类模型的多源数据筛选方法及系统


技术介绍

1、在当今数字化时代,数据呈爆炸式增长,数据来源也日益多样化,多源数据蕴含着丰富的信息,但数据的多样性和复杂性使得传统的数据处理方法难以有效地挖掘其中的价值,不同数据源的数据格式、数据质量、数据语义等方面存在巨大差异。并且数据的规模扩大,对数据筛选的效率和准确性提出了更高的要求。在海量数据中快速准确地筛选出有价值的信息成为亟待解决的问题。

2、传统的基于规则或简单统计分析的筛选方法在处理大规模多源数据时,往往面临计算资源消耗大、筛选结果不准确等问题。例如,在金融领域,需要从股票交易数据、宏观经济数据、行业报告等多源数据中筛选出对投资决策有价值的信息;在医疗领域,要从病历、检查报告、影像数据、基因数据等多源数据中筛选出与疾病诊断和治疗相关的关键信息,传统方法难以满足这些领域对数据筛选的高效性和准确性需求。

3、基于神经网络分类模型的多源数据筛选方法及系统,实现对多源数据的高效、精确筛选,能够显著提升数据处理效率和准确性,可以有效地克服传统方法的局限性,具有广泛的应用前景。


技术实现思路

1、本专利技术的目的是要提供基于神经网络分类模型的多源数据筛选方法及系统。

2、为达到上述目的,本专利技术是按照以下技术方案实施的:

3、本专利技术第一方面提供了基于神经网络分类模型的多源数据筛选方法,包括:

4、s100确定目标数据的筛选规则,将筛选规则中的条件和约束转换为概率模型,获取特征组合间的联合概率密度函数;

5、s200为每个类型的数据构建神经网络分类模型,根据所述联合概率密度函数的形态和边界区域优化每个神经网络分类模型的参数;

6、s300组合不同数据类型的神经网络分类模型,获得多层神经网络分类模型,利用所述概率模型生成对抗样本数据对多层神经网络分类模型进行训练;

7、s400基于所述多层神经网络模型最后一层的梯度确定特征的分类重要性,根据分类重要性进行聚类分析,选择用于筛选的特征组合对多源数据进行筛选;

8、s500根据筛选结果更新所述特征的分类重要性,持续优化筛选过程。

9、作为进一步的方法,所述将筛选规则中的条件和约束转换为概率模型,获取特征组合间的联合概率密度函数的方法,包括:

10、考虑连续型特征数据和离散型特征数据,将筛选规则中的条件和约束转换为概率表达式,具体为:对于连续型特征数据,使用高斯分布表示概率表达式,对于离散型特征数据,使用多项式分布表示概率表达式;

11、确定特征组合间的联合概率密度,表达式为:

12、

13、其中,f(h)表示特征组合的联合概率密度函数,h为特征组合的观测值,k为特征组合中特征的总数,∑为特征组合的均方差矩阵,μ为特征组合的均值向量,t表示为进行转置操作。

14、作为进一步的方法,所述为每个类型的数据构建神经网络分类模型,其中神经网络分类模型的结构包括输入层、嵌入层、隐藏层和输出层,具体为:

15、输入层,用于接收指定类型数据特征向量;

16、嵌入层,包含256个神经元,以relu激活函数初步提取特征共性与差异;

17、隐藏层,共三层,神经元数量分别为128、64、32,对应激活函数分别为leakyrelu、tanh和selu,用于对特征进行深度抽象与转移;

18、输出层根据指定类型数据的分类目标确定神经元数量,由softmax函数输出所属类别概率,表达式为:

19、

20、其中,p(y=q|z)表示在输入z的情况下,输出类别为q的概率,y为输出类别,e为自然常数,zq为输入z中对应类别q的元素,q为类别总数即输出层神经元总数,zj为输入z中对应类别j的元素。

21、作为进一步的方法,所述根据所述联合概率密度函数的形态和边界区域优化每个神经网络分类模型的参数的方法,包括:

22、获取每个类型数据所有特征的联合概率密度函数;

23、计算联合概率密度函数的梯度,将梯度大于预设阈值的数据区域确定为边界区域;

24、根据各类型数据所有特征的联合概率密度函数定义适应度函数,包括整体形态拟合部分和边界区域拟合部分,表达式为:

25、

26、其中,θ为神经网络模型的参数,α为整体形态拟合部分的权重参数,p(x)为联合概率密度函数,f(x;θ)为神经网络模型对于输入x在参数θ下的输出,b为边界区域,w(x)为边界区域数据点的权重函数,k为增长速度的调节参数,为p(x)的梯度,τ为梯度的预设阈值;

27、通过麻雀算法优化模型参数使适应度函数最小,迭代终止条件为连续两次迭代适应度函数的变化率小于0.01,其中进行位置更新的表达式为:

28、

29、其中,和分别为第t次迭代和第t+1次迭代时第i个麻雀的位置向量,为第t次迭代时整个麻雀群体中适应度最优的位置,a为更新步长的控制参数,为第t+1次迭代时第i个麻雀的适应度函数值,tdr为边界区域内概率密度的梯度变化均值,up和lo分别为搜索空间的上界和下界,rand为随机数生成函数,取值区间为[0,1],rand(1,d)为生成1×d的随机矩阵,d为待优化的神经网络模型参数的维度数量,n为麻雀种群中总的个体数量,为在第t次迭代时第i个麻雀的位置与最优麻雀个体位置的距离,为在第t次迭代时在麻雀种群中随机选取的麻雀个体的位置。

30、作为进一步的方法,所述组合不同数据类型的神经网络分类模型,获得多层神经网络分类模型的方法,包括:

31、根据目标数据的需求重点确定数据类型处理的先后顺序,连接不同数据类型的神经网络结构,获得多层神经网络分类模型;

32、根据黏菌算法优化各层间的连接权重,其中进行局部搜索优化的表达式为:

33、

34、其中,sma表示为黏菌算法的优化函数,为在第t次迭代中连接第i层和第j层的权重,为第t次迭代中第i层激活函数输出向量,为第t+1次迭代中第j层激活函数输出向量,γ为缩放因子;其中更新规则的表达式为:

35、

36、其中,为在第t+1次迭代中连接第i层和第j层的权重,η为学习率,f为损失函数,为在第t+1次迭代中第i层的偏置,为第t次迭代中第i层的偏置。

37、作为进一步的方法,所述利用所述概率模型生成对抗样本数据对多层神经网络分类模型进行训练的方法,包括:

38、根据概率模型中特征的分布情况,确定每个特征的扰动范围;

39、利用概率模型中的条件概率关系确定扰动方向,若某特征变化使目标数据分类概率向错误方向变化概率高,则优先在该特征上沿使分类错误方向扰动;

40、对于数值型数据,在扰动范围内根据扰动方向通过基于梯度方法对关键特征进行调整生成对抗样本数据,对于文本型数据,本文档来自技高网...

【技术保护点】

1.基于神经网络分类模型的多源数据筛选方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述将筛选规则中的条件和约束转换为概率模型,获取特征组合间的联合概率密度函数的方法,包括:

3.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述为每个类型的数据构建神经网络分类模型,其中神经网络分类模型的结构包括输入层、嵌入层、隐藏层和输出层,具体为:

4.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述根据所述联合概率密度函数的形态和边界区域优化每个神经网络分类模型的参数的方法,包括:

5.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述组合不同数据类型的神经网络分类模型,获得多层神经网络分类模型的方法,包括:

6.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述利用所述概率模型生成对抗样本数据对多层神经网络分类模型进行训练的方法,包括:

7.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述基于所述多层神经网络模型最后一层的梯度确定特征的分类重要性的方法,包括:

8.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述根据分类重要性进行聚类分析,选择用于筛选的特征组合对多源数据进行筛选的方法,包括:

9.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述根据筛选结果更新所述特征的分类重要性的方法,包括:根据筛选结果与目标数据的匹配程度设定奖励函数,基于奖励函数值通过强化学习更新特征的分类重要性。

10.基于神经网络分类模型的多源数据筛选系统,用以执行权利要求1~9任一项所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述系统,包括:

...

【技术特征摘要】

1.基于神经网络分类模型的多源数据筛选方法,其特征在于,包括以下步骤:

2.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述将筛选规则中的条件和约束转换为概率模型,获取特征组合间的联合概率密度函数的方法,包括:

3.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述为每个类型的数据构建神经网络分类模型,其中神经网络分类模型的结构包括输入层、嵌入层、隐藏层和输出层,具体为:

4.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述根据所述联合概率密度函数的形态和边界区域优化每个神经网络分类模型的参数的方法,包括:

5.根据权利要求1所述的基于神经网络分类模型的多源数据筛选方法,其特征在于,所述组合不同数据类型的神经网络分类模型,获得多层神经网络分类模型的方法,包括:

6.根据权利要求1所述的基于神经网络分类模型...

【专利技术属性】
技术研发人员:王蒙湘刘娜庞永恒付强朱怀杰万福军
申请(专利权)人:中国标准化研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1