融入簇存在强度的数据流聚类方法技术

技术编号：10515540 阅读：189 留言：0更新日期：2014-10-08 15:07

本发明专利技术涉及web技术领域，公开了一种融入簇存在强度的数据流聚类方法，包括以下的具体步骤：预处理步骤，对特定用户的信息进行预处理并保存至用户属性数据库中；用户聚类步骤，对用户属性技能型聚类，关联规则步骤，形成基于用户属性数据的关联规则，漂移检测步骤，实时地对关联规则进行检测，以保证关联规则的有效性。本发明专利技术的优点在于，解决了簇的存在强度对于聚类的影响，确实可以将荣誉距离、簇存在概率以及簇存在强度三重因素的不确定数据流聚类方法。

全部详细技术资料下载

【技术实现步骤摘要】
融入簇存在强度的数据流聚类方法
本专利技术涉及web
，特别涉及一种融入簇存在强度的数据流聚类方法。
技术介绍
在电子商务推荐系统中，用户信息的获取通常来源于用户提交的注册信息显示信息和用户搜索关键词、浏览时间、购买行为等隐式信息，但是用户和电子商务网站之间往往存在两难问题：用户出于对个人隐私信息的保护，不愿意将个人信息提供给系统，调查显示80％的用户在填写调查问卷是可以提供性别、年龄、教育背景、地域的信息，但是对于收入水平、职业等更为隐私的信息是不希望透露的；同时网站运营商，非常渴望获取用户的更多信息，从而更好的挖掘客户，掌握客户需求，以此来提高推荐系统的质量。目前多数网站运营商采取隐式方法观察用户的兴趣，然而由于处理技术、获取方式等原因，使得获取的用户信息多数是有残缺值的、不完全的，即数据元组不一定符合客观事实，是具有一定的概率的。但是，目前国内外关于Web用户分析是针对确定型数据的，因此本专利技术针对此类问题，将不确定数据模型引入到用户分析中，提出了融入不确定性的Web用户分析方法；同时针对现有的不确定数据流的研究中并没有考虑到簇的存在强度对聚类的影响问题，本专利技术提出了簇存在强度的概念，研究融入距离、簇存在概率及簇存在强度三重因素的不确定数据流聚类方法。
技术实现思路
本专利技术针对现有技术无法充分发挥簇的存在强度对于聚类的影响的缺点，提供了一种融入簇存在强度的数据流聚类方法，可以实现应用簇的存在强度调整数据流聚类的问题。为实现上述目的，本专利技术可采取下述技术方案：一种融入簇存在强度的数据流聚类方法，包括以下的具体步骤：预处理步骤：对特定用户...

【技术保护点】
一种融入簇存在强度的数据流聚类方法，其特征在于，包括以下的具体步骤：预处理步骤(100)：对特定用户的用户特征信息进行处理以形成用户属性数据库，所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据，所述用户属性数据库用于存放所述用户属性数据；用户聚类步骤(200)：将至少两个用户的用户属性数据集合形成用户群属性库，其中，用于形成用户群属性库的用户属性数据包括用户不确定性数据流，所述用户不确定性数据流由至少两个元组组成，所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率，所述存在概率通过赋予所述用户属性数据以一个随机变量得到，所述随机变量是指在一定的给定区域上符合概率分布的随机量，所述给定区域是指在一定的时间范围内用户属性数据的变化区域；关联规则步骤(300)：依据用户群属性数据库所包含的用户属性数据形成关联规则，并将所述关联规则存放于用户行为规则库，所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势；漂移检测步骤(400)：对不同时间段内所产...

【技术特征摘要】
1.一种融入簇存在强度的数据流聚类方法，其特征在于，包括以下的具体步骤：预处理步骤100：对特定用户的用户特征信息进行处理以形成用户属性数据库，所述用户特征信息是指包括用户背景信息以及用户行为信息的可以用人机交互界面或者人机交互装置进行数据采集并可以转化为可以用特定长度和格式的数据串进行表征的用户属性数据，所述用户属性数据库用于存放所述用户属性数据；用户聚类步骤200：将至少两个用户的用户属性数据集合形成用户群属性库，其中，用于形成用户群属性库的用户属性数据包括用户不确定性数据流，所述用户不确定性数据流由至少两个元组组成，所述元组包括用户属性数据以及表征所述用户属性数据的出现的不确定性的存在概率，所述存在概率通过赋予所述用户属性数据以一个随机变量得到，所述随机变量是指在一定的给定区域上符合概率分布的随机量，所述给定区域是指在一定的时间范围内用户属性数据的变化区域；关联规则步骤300：依据用户群属性数据库所包含的用户属性数据形成关联规则，并将所述关联规则存放于用户行为规则库，所述关联规则是指用户属性数据的可以用初等函数进行表示的变化趋势；漂移检测步骤400：对不同时间段内所产生的关联规则进行检测，生成最终的用户行为规则，并将所生成的用户行为规则作为数据流聚类方法。2.根据权利要求1所述的融入簇存在强度的数据流聚类方法，其特征在于，还包括以下具体步骤：双区聚...

【专利技术属性】
技术研发人员：琚春华，鲍福光，肖亮，魏建良，
申请(专利权)人：浙江工商大学，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人