System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及电数字数据处理,具体涉及一种基于大数据的信息收集分类系统。
技术介绍
1、随着计算机科学和信息技术的发展,金融、医疗、能源等各行业的数据库系统中积累了大量的业务数据,利用数据挖掘或机器学习模型可以从数据库系统中发现新知识、挖掘新价值或者提供新服务,其是当前大数据领域的热点研究问题。为了提高工作效率,需要进一步探索高效的数据信息提取方法,也就是对信息杂乱的数据进行分类处理,以提取出有效数据。
2、传统随机森林算法是在数据特征变量对分类效果影响相近的情况下,将收集的信息数据分类为有效数据和无效数据,但当数据特征集中含有较多的冗余特征变量时,即信息数据为高维度数据时,对高维度数据对应的所有数据特征变量采取相同的策略生成决策树,此时的决策树的分类能力被弱化,造成分类过拟合,进而导致信息数据的分类结果准确性低下。
技术实现思路
1、为了解决上述含有较多冗余特征变量的信息数据的分类结果准确性低下的技术问题,本专利技术的目的在于提供一种基于大数据的信息收集分类系统,所采用的技术方案具体如下:
2、本专利技术一个实施例提供了一种基于大数据的信息收集分类系统,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
3、获取待分类高维数据集,所述待分类高维数据集中的待分类高维数据是由若干个维度的数据特征变量构成的向量;
4、根据每个所述待分类高维数据及其每个维度的所述数据特征变量,分析每个维度的数据特征变量在区分待分
5、利用结合所述每对待分类高维数据的特征权重的算法,对所述待分类高维数据集进行降维处理,得到待分类低维数据集;
6、根据所述待分类低维数据集中所有待分类低维数据中同一维度的数据特征变量的出现频率特征,确定每个维度的特征分类优异度;
7、根据所述特征分类优异度和预设的决策树参考深度,确定每个决策树的决策树相对深度;通过融合所述决策树相对深度的随机森林算法,确定每个待分类低维数据的分类结果。
8、进一步地,所述根据每个所述待分类高维数据及其每个维度的所述数据特征变量,分析每个维度的数据特征变量在区分待分类高维数据时的重要程度,确定每对待分类高维数据的特征权重,包括:
9、任选两个待分类高维数据组成目标对待分类高维数据,根据目标对待分类高维数据的待分类高维数据距离和每个维度的数据特征变量距离,确定目标对待分类高维数据下每个维度的特征影响因子;
10、根据所述每个维度的特征影响因子和所述每个维度的数据特征变量距离,确定目标对待分类高维数据的特征权重。
11、进一步地,所述目标对待分类高维数据下每个维度的特征影响因子的确定步骤包括:
12、计算目标对待分类高维数据中两个待分类高维数据之间的距离,对所述两个待分类高维数据之间的距离进行归一化处理,得到待分类高维数据距离;
13、将任一维度作为目标维度,计算所述两个待分类高维数据的目标维度的数据特征变量之间的差异,对所述目标维度的数据特征变量之间的差异进行归一化处理,得到目标维度的数据特征变量距离;
14、确定所述待分类高维数据距离与所述目标维度的数据特征变量距离之间的相关系数,对所述相关系数进行标准化处理,得到目标对待分类高维数据下目标维度的特征影响因子。
15、进一步地,所述根据所述每个维度的特征影响因子和所述每个维度的数据特征变量距离,确定目标对待分类高维数据的特征权重,包括:
16、将所述特征影响因子的倒数作为对应维度的数据特征变量距离的系数,利用所述系数对每个维度的数据特征变量距离进行加权求和处理,得到目标对待分类高维数据的特征变量差异程度;
17、对所述特征变量差异程度进行反比例的归一化处理,得到目标对待分类高维数据的特征权重。
18、进一步地,所述利用结合所述每对待分类高维数据的特征权重的算法,对所述待分类高维数据集进行降维处理,得到待分类低维数据集,包括:
19、将所述特征权重作为待分类高维数据在无向权重邻接图中的权重,获得改进后的le算法;利用所述改进后的le算法,对所述待分类高维数据集进行降维处理,得到待分类低维数据集。
20、进一步地,所述根据所述待分类低维数据集中所有待分类低维数据中同一维度的数据特征变量的出现频率特征,确定每个维度的特征分类优异度,包括:
21、将同一维度的数据特征变量的最小值到最大值构成的区间,作为对应维度的低维数据特征区间;统计同一维度的不同数据特征变量的出现频率,根据所述不同数据特征变量的出现频率构建每个维度的数据特征变量直方图;
22、在每个维度的数据特征变量直方图中,将以最大出现频率的数据特征变量为中心,且以预设倍的所述低维数据特征区间作为对应维度的分类区间;根据每个维度的分类区间中每个数据特征变量的出现频率,确定每个维度的特征分类优异度。
23、进一步地,所述根据每个维度的分类区间中每个数据特征变量的出现频率,确定每个维度的特征分类优异度,包括:
24、对于任一维度,确定该维度的分类区间中所有数据特征变量的出现频率的累加值,对所述出现频率的累加值进行归一化处理,得到该维度的特征分类优异度。
25、进一步地,所述根据所述特征分类优异度和预设的决策树参考深度,确定每个决策树的决策树相对深度,包括:
26、从所有待分类低维数据的所有维度的数据特征变量中,随机选取预设数目个维度的数据特征变量作为生成决策树的数据分类特征;
27、根据每个决策树的各个所述数据分类特征的特征分类优异度和所述决策树参考深度,确定每个决策树的决策树相对深度。
28、进一步地,所述根据每个决策树的各个所述数据分类特征的特征分类优异度和所述决策树参考深度,确定每个决策树的决策树相对深度,包括:
29、对于任一决策树,计算该决策树的各个所述数据分类特征的特征分类优异度的累加和,将所述特征分类优异度的累加和与所述决策树参考深度的乘积,作为该决策树的决策树相对深度。
30、进一步地,所述待分类低维数据的分类结果为有效数据或无效数据。
31、本专利技术具有如下有益效果:
32、本专利技术提供了一种基于大数据的信息收集分类系统,通过分析每个维度的数据特征变量在区分待分类高维数据时的重要程度,所确定的特征权重改进了le算法中邻接图权重的计算过程,可以在一定程度上消除待分类高维数据中冗余特征变量的影响,并保留了在数据信息分类中产生关键作用的数据变量特征,获得可靠性更强的待分类低维数据集。基于待分类低维数据集中所有待分类低维数据中同一维度的数据特征变量的出现频率特征,量化每个维度的特征分类优异度,可以放大数据变量特征在数据分类中所起到的关键作用,降低在数据分类中起辅助作用的数据变量特征,有利于后续自适应确定每个决策树的决策树相对本文档来自技高网...
【技术保护点】
1.一种基于大数据的信息收集分类系统,其特征在于,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
2.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据每个所述待分类高维数据及其每个维度的所述数据特征变量,分析每个维度的数据特征变量在区分待分类高维数据时的重要程度,确定每对待分类高维数据的特征权重,包括:
3.根据权利要求2所述的一种基于大数据的信息收集分类系统,其特征在于,所述目标对待分类高维数据下每个维度的特征影响因子的确定步骤包括:
4.根据权利要求3所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据所述每个维度的特征影响因子和所述每个维度的数据特征变量距离,确定目标对待分类高维数据的特征权重,包括:
5.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征在于,所述利用结合所述每对待分类高维数据的特征权重的算法,对所述待分类高维数据集进行降维处理,得到待分类低维数据集,包括:
6.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征
7.根据权利要求6所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据每个维度的分类区间中每个数据特征变量的出现频率,确定每个维度的特征分类优异度,包括:
8.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据所述特征分类优异度和预设的决策树参考深度,确定每个决策树的决策树相对深度,包括:
9.根据权利要求8所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据每个决策树的各个所述数据分类特征的特征分类优异度和所述决策树参考深度,确定每个决策树的决策树相对深度,包括:
10.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征在于,所述待分类低维数据的分类结果为有效数据或无效数据。
...【技术特征摘要】
1.一种基于大数据的信息收集分类系统,其特征在于,包括存储器和处理器,所述处理器执行所述存储器存储的计算机程序,以实现如下步骤:
2.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据每个所述待分类高维数据及其每个维度的所述数据特征变量,分析每个维度的数据特征变量在区分待分类高维数据时的重要程度,确定每对待分类高维数据的特征权重,包括:
3.根据权利要求2所述的一种基于大数据的信息收集分类系统,其特征在于,所述目标对待分类高维数据下每个维度的特征影响因子的确定步骤包括:
4.根据权利要求3所述的一种基于大数据的信息收集分类系统,其特征在于,所述根据所述每个维度的特征影响因子和所述每个维度的数据特征变量距离,确定目标对待分类高维数据的特征权重,包括:
5.根据权利要求1所述的一种基于大数据的信息收集分类系统,其特征在于,所述利用结合所述每对待分类高维数据的特征权重的算法,对所述待分类高维数据集进行降维处理,得到待分类低维数...
【专利技术属性】
技术研发人员:刘迎春,李孝田,高扬,张磊,
申请(专利权)人:北京这房行信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。