融入簇存在强度的数据流聚类方法技术

技术编号:10515540 阅读:168 留言:0更新日期:2014-10-08 15:07
本发明专利技术涉及web技术领域,公开了一种融入簇存在强度的数据流聚类方法,包括以下的具体步骤:预处理步骤,对特定用户的信息进行预处理并保存至用户属性数据库中;用户聚类步骤,对用户属性技能型聚类,关联规则步骤,形成基于用户属性数据的关联规则,漂移检测步骤,实时地对关联规则进行检测,以保证关联规则的有效性。本发明专利技术的优点在于,解决了簇的存在强度对于聚类的影响,确实可以将荣誉距离、簇存在概率以及簇存在强度三重因素的不确定数据流聚类方法。

【技术实现步骤摘要】
融入簇存在强度的数据流聚类方法
本专利技术涉及web
,特别涉及一种融入簇存在强度的数据流聚类方法。
技术介绍
在电子商务推荐系统中,用户信息的获取通常来源于用户提交的注册信息显示信息和用户搜索关键词、浏览时间、购买行为等隐式信息,但是用户和电子商务网站之间往往存在两难问题:用户出于对个人隐私信息的保护,不愿意将个人信息提供给系统,调查显示80%的用户在填写调查问卷是可以提供性别、年龄、教育背景、地域的信息,但是对于收入水平、职业等更为隐私的信息是不希望透露的;同时网站运营商,非常渴望获取用户的更多信息,从而更好的挖掘客户,掌握客户需求,以此来提高推荐系统的质量。目前多数网站运营商采取隐式方法观察用户的兴趣,然而由于处理技术、获取方式等原因,使得获取的用户信息多数是有残缺值的、不完全的,即数据元组不一定符合客观事实,是具有一定的概率的。但是,目前国内外关于Web用户分析是针对确定型数据的,因此本专利技术针对此类问题,将不确定数据模型引入到用户分析中,提出了融入不确定性的Web用户分析方法;同时针对现有的不确定数据流的研究中并没有考虑到簇的存在强度对聚类的影响问题,本专利技术提出了簇存在强度的概念,研究融入距离、簇存在概率及簇存在强度三重因素的不确定数据流聚类方法。
技术实现思路
本专利技术针对现有技术无法充分发挥簇的存在强度对于聚类的影响的缺点,提供了一种融入簇存在强度的数据流聚类方法,可以实现应用簇的存在强度调整数据流聚类的问题。为实现上述目的,本专利技术可采取下述技术方案:一种融入簇存在强度的数据流聚类方法,包括以下的具体步骤:预处理步骤:对特定用户的用户特征信息进行处理以形成用户属性数据库,所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据,所述用户属性数据库用于存放所述用户属性数据;用户聚类步骤:将至少两个用户的用户属性数据集合形成用户群属性库,其中,用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述用户不确定性数据流由至少两个元组组成,所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率,所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所述随机变量是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的时间范围内用户属性数据的变化区域;关联规则步骤:依据用户群属性数据库所包含的用户属性数据形成关联规则,并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势;漂移检测步骤:对不同时间段内所产生的关联规则进行检测,生成最终的用户行为规则,并将所生成的用户行为规则作为数据流聚类方法。于本专利技术的实施例中,还包括以下具体步骤:双区聚类步骤:组建簇,所述簇由至少两个元组构成;创建微簇,所述微簇至少包括二阶矩CF2、一阶矩CF1、存在概率APC、微簇创建时间tS、微簇最后更新时间te、样本容量n、簇编号CID、分区编号MID,其中,所述微簇与簇一一对应,所述二阶矩CF2是指簇的连续变量的二阶矩,所述一阶矩CF1是指簇的连续变量的一阶矩,所述分区编号MID是指微簇所在分区的编号;进行双区聚类,所述双区聚类是指将簇划分为两类:主缓冲区Bufc簇以及副缓冲区Bufo簇,所述主缓冲区Bufc簇是指当对一个新元组进行聚类时,首先在主缓冲区Bufc中进行聚类得到的簇,所述主缓冲区Bufc簇是指当主缓冲区Bufc中的簇不适合新元组时,则在副缓冲区Bufo中进行聚类得到的簇,所述不适合是指新元组的加入会令被加入的簇的存在强度发生超出预设阈值的改变。于本专利技术的实施例中,所述双区聚类步骤还包括,当副缓冲区Bufo中的簇不适合新元组时,将该新元组思维全局离散点,做丢弃处理。于本专利技术的实施例中,所述簇的存在强度的改变是指簇发生由强簇变为弱簇或者过渡簇,所述强簇是指对于预设值α,0<α<1,所述簇的存在概率APC≥α的簇,所述弱簇是指满足存在概率APC<β,且满足β<min的簇,所述过渡簇是指介于强簇和弱簇之间的簇。本专利技术具有以下的显著技术效果:实现了一种可以充分地考虑簇的存在强度的聚类方法,计算更为简便,步骤少,计算量小,结果更为精确,具有较好的应用价值。附图说明图1为融入簇存在强度的数据流聚类方法的大致流程示意图。图2为融入簇存在强度的数据流聚类方法的进一步细化的流程示意图。图3为双区聚类步骤的流程示意图。具体实施方式下面结合实施例对本专利技术作进一步的详细描述。实施例1一种融入簇存在强度的数据流聚类方法,如图1、2所示,包括以下的具体步骤:预处理步骤100:对特定用户的用户特征信息进行处理以形成用户属性数据库,所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据,用户背景信息包括用户的基本情况信息以及用户的登入IP,登入时间等信息,用户行为信息包括用户的偏好数据,对某一特定网站的访问频率,范围时间范围等信息,所述用户属性数据库用于存放所述用户属性数据;用户聚类步骤200:将至少两个用户的用户属性数据集合形成用户群属性库,其中,用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述用户不确定性数据流S由至少两个元组<vi,pi>组成,该元组<vi,pi>(i≥1)为不确定元组,其中,vi为元组的值,pi(0≤pi≤1)为元组vi的存在概率,即,所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率,所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所述随机变量是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的时间范围内用户属性数据的变化区域,所述概率分布是指该随机变量符合给定区域中该随机变量的值在给定区域中的出现频率;关联规则步骤300:依据用户群属性数据库所包含的用户属性数据形成关联规则,并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势,进一步地,作为另一种可选的方案,可以将离散的用户属性数据进行拟合得到一条曲线,并用拟合后的曲线来表示该用户属性数据的变化趋势,并作为其关联规则;漂移检测步骤400:对不同时间段内所产生的关联规则进行检测,生成最终的用户行为规则,并将所生成的用户行为规则作为数据流聚类方法,所述检测是指对聚类后的簇按照关联规则进行重新判断,如果簇中多数元组的值超出该关联规则的变化趋势以及变化范围时,重新生成新的符合该簇的元组的值的变化趋势的关联规则。所述融入簇存在强度的数据流聚类方法还包括以下具体步骤,如图3所示:双区聚类步骤500:组建簇,所述簇由至少两个元组构成;创建微簇,所述微簇至少包括二阶矩CF2、一阶矩CF1、存在概率APC、微簇创建时间tS、微簇最后更新时间te、样本容量n、簇编号CID、分区编号MID,其中,所述微簇与簇一一对应,所述二阶矩CF2是指簇的连续变量的二阶矩,所述一阶矩CF1是指簇的连续变量的一阶矩,所述分区编号MID是指微簇所在分区的编号;进行双区聚本文档来自技高网...
融入簇存在强度的数据流聚类方法

【技术保护点】
一种融入簇存在强度的数据流聚类方法,其特征在于,包括以下的具体步骤:预处理步骤(100):对特定用户的用户特征信息进行处理以形成用户属性数据库,所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据,所述用户属性数据库用于存放所述用户属性数据;用户聚类步骤(200):将至少两个用户的用户属性数据集合形成用户群属性库,其中,用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述用户不确定性数据流由至少两个元组组成,所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率,所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所述随机变量是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的时间范围内用户属性数据的变化区域;关联规则步骤(300):依据用户群属性数据库所包含的用户属性数据形成关联规则,并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势;漂移检测步骤(400):对不同时间段内所产生的关联规则进行检测,生成最终的用户行为规则,并将所生成的用户行为规则作为数据流聚类方法。...

【技术特征摘要】
1.一种融入簇存在强度的数据流聚类方法,其特征在于,包括以下的具体步骤:预处理步骤100:对特定用户的用户特征信息进行处理以形成用户属性数据库,所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据,所述用户属性数据库用于存放所述用户属性数据;用户聚类步骤200:将至少两个用户的用户属性数据集合形成用户群属性库,其中,用于形成用户群属性库的用户属性数据包括用户不确定性数据流,所述用户不确定性数据流由至少两个元组组成,所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率,所述存在概率通过赋予所述用户属性数据以一个随机变量得到,所述随机变量是指在一定的给定区域上符合概率分布的随机量,所述给定区域是指在一定的时间范围内用户属性数据的变化区域;关联规则步骤300:依据用户群属性数据库所包含的用户属性数据形成关联规则,并将所述关联规则存放于用户行为规则库,所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势;漂移检测步骤400:对不同时间段内所产生的关联规则进行检测,生成最终的用户行为规则,并将所生成的用户行为规则作为数据流聚类方法。2.根据权利要求1所述的融入簇存在强度的数据流聚类方法,其特征在于,还包括以下具体步骤:双区聚...

【专利技术属性】
技术研发人员:琚春华鲍福光肖亮魏建良
申请(专利权)人:浙江工商大学
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1