当前位置: 首页 > 专利查询>天津大学专利>正文

一种数据探索方法及系统技术方案

技术编号:34528280 阅读:14 留言:0更新日期:2022-08-13 21:20
本发明专利技术提供了一种数据探索方法,包括以下步骤:S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据。本发明专利技术能够自动识别属于陌生模式的可视化数据,实现了模式分类器自动化地探索数据,还能够使模式分类器自动地识别新模式并更新模式分类器。地识别新模式并更新模式分类器。地识别新模式并更新模式分类器。

【技术实现步骤摘要】
一种数据探索方法及系统


[0001]本专利技术涉及计算机
,具体涉及一种数据探索方法及系统。

技术介绍

[0002]一个数据集中包含了若干个样品,交互式数据探索是为了在数据集样品中识别潜在的数据模式,在典型的数据探索场景中,分析人员重复执行三个步骤,即(1)从大批量的原始记录中进行查询,并将查询结果绘制成反映地理或者数据变化等数据特征的可视化(2)用户逐张的审视可视化数据(3)用户利用自己的经验和知识确定模式是否存在。
[0003]虽然有许多方法通过推荐最优的可视化技术来呈现目标数据来自动化,但步骤(2)的主体仍然是人。主观的模式识别降低了交互式数据探索的效率,给分析人员施加了很高的工作负担,并可能产生受分析师认知能力和经验的限制的有偏见的结论。
[0004]有鉴于此,确有必要提供一种解决上述问题的技术方案。

技术实现思路

[0005]本专利技术的目的之一在于:提供一种数据探索方法,解决上述在面对不具备先验知识的数据集时,不能识别陌生模式的可视化数据,导致无法判断该样品是否属于新模式的问题。
[0006]为了实现上述目的,本专利技术采用以下技术方案:
[0007]一种数据探索方法,包括以下步骤:
[0008]S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;
[0009]S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据;
[0010]S3、更换各个属性的值,生成新的数据空间,或者不更改各个属性的值,继续在已有的数据空间中进行探索;
[0011]S4、在指定的数据空间内随机生成多组数据查询,并为每一条数据生成相应的可视化数据;
[0012]S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果,将样本输入到已经完成构建的多个子模型中,得到样本在各个子模型上的分类结果,通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。
[0013]作为所述数据探索方法的一种改进,子模型的数量小于或等于N,且大于1。
[0014]作为所述数据探索方法的一种改进,步骤S2中,聚类是将各组数据的可视化数据放入不同文件夹,完成聚类后,进入分类文件夹中删除等纯化分类。
[0015]本专利技术的目的之二在于,提供一种用于数据探索的系统,应用于上述的数据探索方法,由前端和后端组成,前端包括可视化探索器组件和分类调整器组件,后端模块包括模式分类器初始化模块、模式识别模块以及模式分类器更新模块;
[0016]可视化探索器组件,用于管理数据探索方向和生成可视化数据,分析人员可以通过指定不同属性的属性值构建由大量记录构成的数据空间,系统会自动生成空间中的可视化数据,并为每一个可视化数据计算指标,随后自动为生成的可视化数据进行分类;
[0017]分类调整器组件,用于支持分析人员调整可视化探索器的分类结果,对于具备新模式的可视化数据,分析人员可以通过新建类来归类它们,对于分类错误的可视化数据,可以手动将它们调整至正确的分类或者删除;
[0018]模式分类器初始化模块,用于初始化分类器,该模块集成了聚类算法,支持用户对当前可视化数据进行聚类;同时该模块具备数据处理功能,能对用户的最终聚类结果进行数据处理;
[0019]模式识别模块,集成了上述的自动化数据探索方发,用于识别可视化数据是否为模式分类器未曾接触过的新模式;
[0020]模式分类器更新模块,用于构建模式分类器的子模型,并且在用户调整完各个模式类的可视化数据之后,进行数据整合,将当前可视化数据的分类结果作为训练集和标签,更新模式分类器及其子模型。
[0021]作为所述用于数据探索的系统的一种改进,完成初始化模式分类器之后,系统在指定的数据空间内随机生成一批数据查询,并为每一条数据生成相应的可视化数据,但是系统不指定生成的可视化数据种类和样式,可以根据需求更换不同的可视化种类或者生成适合进行数据探索的可视化样式。
[0022]相比于现有技术,本专利技术的有益效果在于:
[0023]1)本专利技术能够自动识别属于陌生模式的可视化数据,实现了模式分类器自动化地探索数据。现有的大多数相关的工作理想地假设数据中的模式类别是固定的,但是在真实场景中,分析人员会逐渐发现越来越多的新模式,面对这些新模式,模式分类器往往会给出错误的分类结果。本专利技术能够使模式分类器自动地识别新模式并更新模式分类器。
[0024]2)将模式识别这个在交互式数据探索的过程中频繁出现且需要耗费大量精力的任务交给模型负责,分析人员因此只需要维护模式分类器,并能够节省出精力去关注一些高层次任务,如调整探索范围和控制探索流程等。让模型和分析人员在交互式数据探索中做各自擅长的事情可以提升探索效率,避免主观偏差,降低人的负担。
附图说明
[0025]图1为本专利技术提供的一种数据探索方法的流程图。
[0026]图2为本专利技术提供的一种用于数据探索的系统的结构图。
[0027]图3为本专利技术提供的一种用于数据探索的系统的可视化系统界面。
[0028]图4为属性值范围离散成等宽单位区间示意图。
[0029]图5为本专利技术提供的一种用于数据探索的系统的可视化编码示意图。
[0030]图6为子模型构造示意图。
具体实施方式
[0031]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]应当理解,文中所使用的步骤编号仅是为了方便描述,不作为对步骤执行先后顺序的限定。
[0033]应当理解,在本专利技术说明书中所使用的术语仅仅是出于描述特定实施例的目的而并不意在限制本专利技术。如在本专利技术说明书和所附权利要求书中所使用的那样,除非上下文清楚地指明其它情况,否则单数形式的“一”、“一个”及“该”意在包括复数形式。
[0034]术语“包括”和“包含”指示所描述特征、整体、步骤、操作、元素和/或组件的存在,但并不排除一个或多个其它特征、整体、步骤、操作、元素、组件和/或其集合的存在或添加。
[0035]术语“和/或”是指相关联列出的项中的一个或多个的任何组合以及所有可能组合,并且包括这些组合。
[0036]为了减小人的负担和认知水平带来的影响,降低人在数据探索中的工作量,采取自动化方法是自然而然的。在现有的技术中,有许多指标可以检测出一个可视化是否包含特本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种数据探索方法,其特征在于,包括以下步骤:S1、构建子模型,以一个具有N个隐藏层的模式分类器为原模型,构建多个子模型,原模型中的每一个隐藏层都能构建子模型,第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层,N>1;S2、完成模式分类器的初始化,通过指定不同属性的属性值构建由大量记录构成的数据空间,从数据空间中随机选择多组数据进行可视化,再对得到的多组可视化数据进行聚类和细化,最后将细化后的聚类结果作为模式分类器的训练数据;S3、更换各个属性的值,生成新的数据空间,或者不更改各个属性的值,继续在已有的数据空间中进行探索;S4、在指定的数据空间内随机生成多组数据查询,并为每一条数据生成相应的可视化数据;S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果,将样本输入到已经完成构建的多个子模型中,得到样本在各个子模型上的分类结果,通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。2.根据权利要求1所述的一种数据探索方法,其特征在于,所述子模型的数量小于或等于N,且大于1。3.根据权利要求1所述的一种数据探索方法,其特征在于,步骤S2中,所述聚类是将各组数据的可视化数据放入不同文件夹,完成聚类后,进入分类文件夹中删除等纯化分类。4.一种用于数据探索的系统,应用于权利要求1

3任意一项所述的一种数据探索方法,由前端和后端组成,所述前端...

【专利技术属性】
技术研发人员:李杰黄文韬
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1