【技术实现步骤摘要】
一种面向大数据中稀有类数据的快速查询技术
本专利技术属于数据挖掘领域,尤其涉及一种面向大数据中稀有类数据的快速查询技术。
技术介绍
在现实世界里,大数据中经常包含一些数据样本较少但却具有重要价值的稀有类。例如在商业活动过程中,虽然绝大多数的交易行为都是合法的,但是其中仍然包括一些虚假信息的交易数据;在大量的网络访问的过程中,虽然绝大多数的网络请求都是合理的,但是不排除一些利用系统漏洞进行网络攻击的行为。在实际应用中,这些稀有类数据样本常常被偶然发现或者是通过一些稀有类检测技术所侦察到,当发现了少量的稀有类样本后,随之产生的问题是如何利用这些少量的稀有类数据样本对数据集中的稀有类数据进行快速查询。对于稀有类的查询,虽然有稀有类分类和稀有类聚类等相关的技术可以找出所有的稀有类数据,但是稀有类分类技术需要大量已知的稀有类数据作为训练集来进行分类器的训练,而实际生活中这些数据是难以获取的,稀有类聚类技术虽然不需要训练数据,但是在聚类过程中没有利用一些已知的有价值稀有类数据信息,可能造成结果的不准确。因而如何利用仅有的少量稀有类数据找到所有稀有类数据是一个重要且极具挑战的问题。
技术实现思路
为了解决上述技术问题,本专利技术提供了一种面向大数据中稀有类数据的快速查询技术。首先通过已知的一个稀有类样本点和一个较小的k近邻值来找到一个小范围的稀有类区域,然后根据这个小范围区域计算出新的k值和距离阈值,再根据新的k和距离阈值来继续寻找新的稀有类数据点。本专利技术所采用的技术方案是:一种面向大数据中稀有类数据的快速查询技术,其特征在于,包括以下步骤:步骤1:对于给定的数据集为D ...
【技术保护点】
一种面向大数据中稀有类数据的快速查询技术,其特征在于,包括以下步骤:步骤1:对于给定的数据集为D,首先将D中的每个点标记为未知点,使用集合N记录用来寻找稀有类的数据集合,初始时N中仅包含一个已知的稀有类数据点n0,即N={n0},设置k为较小的值k0,设置距离阈值τd为一个正数,该正数大于数据集D中任意两点之间的最大欧式距离;步骤2:对于N中的每个点ni,在D中找到与ni最近的k个点,记为Knn(ni),将N中所有点的k近邻组成集合Knn(N),然后在D中找到Knn(N)中每个点的k近邻,将Knn(N)中所有点的k近邻组成集合Knn(Knn(N)),将N中的点标为已知点,并对N中每个点ni对应的Knn(ni)中的点进行筛选,直至筛选的次数达到设定的阈值τi;步骤3:根据筛选后的Knn(N)结果进行选择:选择步骤一:若筛选后的Knn(N)中的点包含未知点,则更新N中每个点的坐标,并记录下该点已更新的次数,若更新次数超过给定阈值τt,则该点的坐标不再更新,初始化一个空集合N’,将更新后得到的新坐标点加入集合N’,并更新N=Knn(N)∪N',然后返回步骤2;N中点的坐标更新规则为:
【技术特征摘要】
1.一种面向大数据中稀有类数据的快速查询技术,其特征在于,包括以下步骤:步骤1:对于给定的数据集为D,首先将D中的每个点标记为未知点,使用集合N记录用来寻找稀有类的数据集合,初始时N中仅包含一个已知的稀有类数据点n0,即N={n0},设置k为较小的值k0,设置距离阈值τd为一个正数,该正数大于数据集D中任意两点之间的最大欧式距离;步骤2:对于N中的每个点ni,在D中找到与ni最近的k个点,记为Knn(ni),将N中所有点的k近邻组成集合Knn(N),然后在D中找到Knn(N)中每个点的k近邻,将Knn(N)中所有点的k近邻组成集合Knn(Knn(N)),将N中的点标为已知点,并对N中每个点ni对应的Knn(ni)中的点进行筛选,直至筛选的次数达到设定的阈值τi;步骤3:根据筛选后的Knn(N)结果进行选择:选择步骤一:若筛选后的Knn(N)中的点包含未知点,则更新N中每个点的坐标,并记录下该点已更新的次数,若更新次数超过给定阈值τt,则该点的坐标不再更新,初始化一个空集合N’,将更新后得到的新坐标点加入集合N’,并更新N=Knn(N)∪N',然后返回步骤2;N中点的坐标更新规则为:其中,(ni)old表示点ni的原始坐标;(ni)new表示更新后的坐标;nij表示点ni的k近邻Knn(ni)中的第j个点;Knnj(ni)表示点nij的坐标;d(nij,ni)表示点ni和点nij之间的欧式距离;选择步骤二:若筛选后的Knn(N)中的点均为已知点并且k等于k0,将D中所有已知点加入集合R;将k的值逐步增加,每次增加1,直至R在新的k值下找到的k近邻集合Knn(R)中包含有未知点,并记录此时的k值,记为knew,更新k=knew;然后对于R中的每个点nr,在D中找到nr的k近邻Knn(nr),计算nr和Knn(nr)中每个点的距离,并计算这些距离的均值,记录最大的均值,记为根据给定扩大系数m,更新阈值τd的值为的m倍,即然后从R的k近邻集合Knn(R)中挑选一个未知点nno,更新N={nno},返回步骤2;选择步骤三:若筛选后的Knn(N)中的点均为已知点并且k不等于k0,则算法停止,然后将R集合中的数据作为最后找到的稀有类结果返回。2.根据权利要求1所述的一种面向大数据中稀有类数据的快速查询技术,其特征在于:所述的步骤2中,对N中每个点ni的k近邻Knn(ni)中的点进行筛选的过程如下:步骤2.1:对于Knn(ni)中的每个数据点nij,在D中找到nij的k近邻Knn(nij),计算nij与Knn(nij)中每个点的距离,并计算这些距离的均值,记为若大于距离阈值τd,则将nij从Knn(ni)...
【专利技术属性】
技术研发人员:李宗鹏,黄浩,
申请(专利权)人:武汉万般上品信息技术有限公司,
类型:发明
国别省市:湖北,42
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。