本发明专利技术涉及一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,主要从以下三方面进行设计,1)构建复杂网络模型,2)确定节点重要性指标,3)神经网络聚类;本方法将复杂网络模型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘。
【技术实现步骤摘要】
本专利技术涉及挖掘用户兴趣的方法,尤其涉及一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,从用户使用软件的行为日志中挖掘用户感兴趣的软件,属于人工智能领域。
技术介绍
随着互联网技术的迅猛发展,软件技术作为信息产业的一种,其发展也不可小觑,各种新产品、新应用层出不穷,已经成为生产和生活的重要组成部分。在电子产品如此泛滥的时代,如何抓住用户的兴趣、提高用户对于产品的忠实度和兴趣感,成为提升企业核心竞争力的一个强有力的方案。由于用户使用电子产品(PC或者手机)的过程都是使用各种各样软件的过程,所以对用户使用软件的行为日志进行分析,挖掘用户感兴趣的软件,获取用户的兴趣集,使得产品开发商可以根据获取的用户兴趣集提供个性化的信息服务,开展增值业务,提高产品综合价值。近年来,机器学习领域吸引了越来越多的关注和研究,随着信息科技的进步、人类行为学的发展,国内外的研究学者已经将用户行为分析挖掘的理论进行了实践研究,并逐步转入商业应用的阶段,取得了良好的成效。大量的研究表明根据用户行为日志挖掘用户兴趣是具有一定研究意义和应用价值的。其中Ford等人采用AprioriAll序列规则挖掘算法对用户访问站点的日志进行研究分析,获取用户的访问兴趣,并根据用户的兴趣设置广告投放,提高了网站的商业价值,但是AprioriAll算法只适用于挖掘用户感兴趣的关联序列,不适用于挖掘用户兴趣的排列顺序。李建廷等人提出了基于用户浏览动作分析用户兴趣度的计算方法,充分考虑了用户访问次数、访问动作、访问速度三种访问模式下的用户兴趣度的计算方式,并利用BP神经网络将这三种模式下的用户兴趣度进行融合,取得了良好的实验效果,这对神经网络算法研究用户兴趣度的融合以及聚类提供了思想,但是BP神经网络对于网络的初始权重十分敏感,不同的初始化值往往会造成不同的训练结果,这很容易造成偏差。王微微等人提出了一种基于用户行为日志挖掘用户兴趣的模型,结合用户的浏览内容和行为模式建立用户兴趣向量,再根据期望最大化的计算方法实现用户聚类,建立最终的用户兴趣模型,该模型虽然可以识别用户的购买兴趣,却没有充分考虑用户行为之间的顺序,即行为的前后序列关系。王梓等人提出了一种基于复合关键词向量空间的方法,最大限度将用户感兴趣的关键词建立关联关系,但其选用的关键词是基于产品属性的,其方法不具有普遍通用性。复杂网络技术是大数据处理技术的一种,是从复杂性科学角度出发,探索隐藏在大数据中真正的数据价值。复杂网络主要是依靠一切事务都具有相互作用的表现(例如WWW中网页之间的链接关系、文章之间的引用关系和超市中啤酒尿布的关联关系),利用网络的视角建立数据模型,挖掘数据规则,并通过复杂网络的小世界效应和无标度特性计算网络中节点的重要性,形成网络节点的重要性序列。聚类是数据挖掘中的一个重要组成部分,是通过度量样本间的相似性,发现隐藏在底层的关联性数据的又一个常见方法。为了从用户使用软件的行为日志中获取用户感兴趣的软件,本方法应用复杂网络中的理论知识以及神经网络聚类的方法,先形成用户的兴趣软件集,然后再应用神经网络算法对兴趣软件集中的软件进行聚类,实现这两种方法的结合,计算用户兴趣软件集。首先根据用户行为间的相互作用建立复杂网络模型,将软件看作复杂网络中的节点,按照软件使用的顺序构建边,充分考虑了用户使用软件之间的关联关系。然后根据复杂网络模型的统计指标和行为本身的概率特性,计算网络节点的重要性序列,形成用户兴趣节点社区。最后利用word2vec工具形成软件的向量,根据向量之间的余弦距离衡量软件的相似性,实现用户兴趣社区聚类,合并聚类形成最终的用户感兴趣的软件集合。
技术实现思路
为了挖掘用户的兴趣软件和软件之间的关联性,本方法将复杂网络模型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘。为实现上述目的,本专利技术采用的技术方案为一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,主要从以下三方面进行设计。1)构建复杂网络模型。用户使用软件的先后顺序具有一定的相关性,如用户先使用Windows照片查看器,然后使用Photoshop,接着使用PowerPoint,这些软件体现了用户使用图片形成文档的过程,在所有软件的使用序列中形成小世界效应,所以按照软件使用的顺序,使得共同出现在一个窗口内的软件形成共现关系,构建复杂网络拓扑结构。利用PageRank的思想,以节点之间的连接度作为边的权重。2)确定节点重要性指标。针对节点重要性排序的指标特性的计算方法,形成用户兴趣社区;其中,节点的度表示该节点的邻居数,有大量邻居数的节点具有更大的影响力和号召力。3)神经网络聚类。利用CBOW和Skip-gram模型对用户兴趣社区中的软件依据上下文序列中的关联形成软件词向量,并利用向量的距离进行聚类,合并聚类,确定最终的用户兴趣软件集。第一、构建复杂网络模型用户在同一个开关机会话中使用软件的先后顺序具有很强的相关性。换言之,相邻软件都是相关联的,所以采用K近邻的共现情况构成复杂网络中的边集,而研究发现K=2时节点之间的联系最强,此时具有明显的小世界特性。复杂网络G=(V,E)是由|V|=N个节点和|E|=M条边连接所组成的一个有向网络,其中,V为复杂网络G的节点集,由用户软件行为日志中的候选软件组成,且In(vi)={vj|<vj,vi>∈E本文档来自技高网...
【技术保护点】
一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,本方法将复杂网络模型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣进行挖掘;其特征在于:该方法主要从以下三方面进行设计;1)构建复杂网络模型;用户使用软件的先后顺序具有一定的相关性,如用户先使用Windows照片查看器,然后使用Photoshop,接着使用PowerPoint,这些软件体现了用户使用图片形成文档的过程,在所有软件的使用序列中形成小世界效应,所以按照软件使用的顺序,使得共同出现在一个窗口内的软件形成共现关系,构建复杂网络拓扑结构;利用PageRank的思想,以节点之间的连接度作为边的权重;2)确定节点重要性指标;针对节点重要性排序的指标特性的计算方法,形成用户兴趣社区;其中,节点的度表示该节点的邻居数,有大量邻居数的节点具有更大的影响力和号召力;3)神经网络聚类;利用CBOW和Skip‑gram模型对用户兴趣社区中的软件依据上下文序列中的关联形成软件词向量,并利用向量的距离进行聚类,合并聚类,确定最终的用户兴趣软件集;第一、构建复杂网络模型用户在同一个开关机会话中使用软件的先后顺序具有很强的相关性;换言之,相邻软件都是相关联的,所以采用K近邻的共现情况构成复杂网络中的边集,而研究发现K=2时节点之间的联系最强,此时具有明显的小世界特性;复杂网络G=(V,E)是由|V|=N个节点和|E|=M条边连接所组成的一个有向网络,其中,V为复杂网络G的节点集,由用户软件行为日志中的候选软件组成,且In(vi)={vj|<vj,vi>∈E},Out(vi)={vj|<vi,vj>∈E}E为G的边集,由软件的共现关系形成且对于vi+1∈V,如果vi,vi+1符合K近邻的共现情况,则有<vi,vi+1>∈E,边的权重可写成strength(vi,vj)=1Σ|posi-posj|---(1)]]>weight(vi,vj)=Ti*strength(vi,vj) (2)其中,strength(vi,vj)表示节点vi,vj之间的连接强度,|posi‑posj|表示节点vi,vj在共现窗口内的距离,weight(vi,vj)表示边<vi,vj>的权重,Ti表示软件节点vi的使用时长;i,j为整数且0≤i<N(本方法中的下标取值均如此),i≠j;第二、节点重要性统计特性在本方法的用户软件行为日志中,用户使用软件的时长能够反映软件的重要性,只需要将复杂网络中节点的重要性对其进行修正即可;根据传播动力学的知识衡量网络中节点的重要性,将网络中的节点作为传播源,通过计算目标节点的传播范围来衡量节点在传播过程中的影响力以及号召力;在一个网络中,节点删除前后网络图联通性的变化能够充分说明该节点是否有足够的能力破坏网络,体现了节点的重要性;所以综合考虑复杂网络特性、实用性以及行为数据本身的特性,选取节点聚集系数、节点介数和节点度数作为评价节点重要性的指标特性;1)节点聚集系数节点vi的聚集系数是与该节点相邻的结点之间的连接数和它们之间所有可能存在的连接数的比值,表示了所有相邻结点形成一个小团簇的紧密程度;节点的聚集系数写成clu(vi)=|{ejk}|ki(ki-1)---(4)]]>其中,ki表示与节点vi相邻的节点个数,这些邻接点之间可能存在ki(ki‑1)条边,|ejk|表示vi邻接点之间实际存在的边数且ejk∈E;2)节点介数节点Vi的介数是任意两个节点的最短路径中经过节点vi的路径数与最短路径的总数形成的比值,反映该节点在网络中的影响力;计算公式写成bet(vk)=Σk≠i≠jnd(ijk)nd(ij)---(5)]]>其中,nd(ij)表示vi和vj之间最短路径的数目,nd(ijk)表示vi和vj经过vk的最短路径的数目;3)节点度数节点的度数表示与该节点相连接的边的个数,度的大小直接反映了该节点对于复杂网络中其他节点的影响力,计算公式写成gre(vi)=Σ<vi,vj>∈Eaij---(6)]]>aij=1<vi,vj>∈E0<vi,vj>∉E]]>IMP(vi)=βTi-1nΣTi1nΣ(Ti-1nΣTj)2+(1-β)gi-1nΣgi1n&S...
【技术特征摘要】
1.一种基于复杂网络特性及神经网络聚类挖掘用户兴趣的方法,本方法将复杂网络模
型应用到用户软件兴趣的挖掘中,建立用户使用软件的复杂网络,并使用节点的度、聚集系
数、节点介数和节点的概率特性指标确定节点的重要性排序,形成用户兴趣集,再利用神经
网络模型挖掘兴趣集的聚类,确定用户最终兴趣集,为挖掘用户兴趣模型提供了一种新的
方法,并且将用户软件兴趣的挖掘精确性大幅提高,同时这种方法可以对用户的多种兴趣
进行挖掘;
其特征在于:该方法主要从以下三方面进行设计;
1)构建复杂网络模型;用户使用软件的先后顺序具有一定的相关性,如用户先使用
Windows照片查看器,然后使用Photoshop,接着使用PowerPoint,这些软件体现了用户使用
图片形成文档的过程,在所有软件的使用序列中形成小世界效应,所以按照软件使用的顺
序,使得共同出现在一个窗口内的软件形成共现关系,构建复杂网络拓扑结构;利用
PageRank的思想,以节...
【专利技术属性】
技术研发人员:张兴兰,刘炀,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。