一种数据探索方法及系统技术方案

技术编号：34528280 阅读：14 留言：0更新日期：2022-08-13 21:20

本发明专利技术提供了一种数据探索方法，包括以下步骤：S1、构建子模型，以一个具有N个隐藏层的模式分类器为原模型，构建多个子模型，原模型中的每一个隐藏层都能构建子模型，第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层，N＞1；S2、完成模式分类器的初始化，通过指定不同属性的属性值构建由大量记录构成的数据空间，从数据空间中随机选择多组数据进行可视化，再对得到的多组可视化数据进行聚类和细化，最后将细化后的聚类结果作为模式分类器的训练数据。本发明专利技术能够自动识别属于陌生模式的可视化数据，实现了模式分类器自动化地探索数据，还能够使模式分类器自动地识别新模式并更新模式分类器。地识别新模式并更新模式分类器。地识别新模式并更新模式分类器。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据探索方法及系统

[0001]本专利技术涉及计算机
，具体涉及一种数据探索方法及系统。

技术介绍

[0002]一个数据集中包含了若干个样品，交互式数据探索是为了在数据集样品中识别潜在的数据模式，在典型的数据探索场景中，分析人员重复执行三个步骤，即(1)从大批量的原始记录中进行查询，并将查询结果绘制成反映地理或者数据变化等数据特征的可视化(2)用户逐张的审视可视化数据(3)用户利用自己的经验和知识确定模式是否存在。
[0003]虽然有许多方法通过推荐最优的可视化技术来呈现目标数据来自动化，但步骤(2)的主体仍然是人。主观的模式识别降低了交互式数据探索的效率，给分析人员施加了很高的工作负担，并可能产生受分析师认知能力和经验的限制的有偏见的结论。
[0004]有鉴于此，确有必要提供一种解决上述问题的技术方案。

技术实现思路

[0005]本专利技术的目的之一在于：提供一种数据探索方法，解决上述在面对不具备先验知识的数据集时，不能识别陌生模式的可视化数据，导致无法判断该样品是否属于新模式的问题。
[0006]为了实现上述目的，本专利技术采用以下技术方案：
[0007]一种数据探索方法，包括以下步骤：
[0008]S1、构建子模型，以一个具有N个隐藏层的模式分类器为原模型，构建多个子模型，原模型中的每一个隐藏层都能构建子模型，第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层，N＞1；
[0009]S2、完成模式分类器的初始化，通过...

【技术保护点】

【技术特征摘要】
1.一种数据探索方法，其特征在于，包括以下步骤：S1、构建子模型，以一个具有N个隐藏层的模式分类器为原模型，构建多个子模型，原模型中的每一个隐藏层都能构建子模型，第i个子模型应该包括输入层、模式分类器的前i个隐藏层和一个新添加的输出层，N＞1；S2、完成模式分类器的初始化，通过指定不同属性的属性值构建由大量记录构成的数据空间，从数据空间中随机选择多组数据进行可视化，再对得到的多组可视化数据进行聚类和细化，最后将细化后的聚类结果作为模式分类器的训练数据；S3、更换各个属性的值，生成新的数据空间，或者不更改各个属性的值，继续在已有的数据空间中进行探索；S4、在指定的数据空间内随机生成多组数据查询，并为每一条数据生成相应的可视化数据；S5、将S3中生成的可视化中映射的数据特征作为可视化编码输入初始化或者已经更新过的模式分类器中得到分类结果，将样本输入到已经完成构建的多个子模型中，得到样本在各个子模型上的分类结果，通过各个子模型的分类结果和原模型的分类结果的一致性来判断该样本是否属于新模式。2.根据权利要求1所述的一种数据探索方法，其特征在于，所述子模型的数量小于或等于N，且大于1。3.根据权利要求1所述的一种数据探索方法，其特征在于，步骤S2中，所述聚类是将各组数据的可视化数据放入不同文件夹，完成聚类后，进入分类文件夹中删除等纯化分类。4.一种用于数据探索的系统，应用于权利要求1
‑
3任意一项所述的一种数据探索方法，由前端和后端组成，所述前端...

【专利技术属性】
技术研发人员：李杰，黄文韬，
申请(专利权)人：天津大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人