本发明专利技术公开了一种基于作者频繁模式的科技文献推荐方法,包括:在Fp‑growth算法中增加处理文献ID(文献唯一编号)的功能,构造出作者频繁模式及其对应的文献集、作者发表的文献和关键字对应的文献集,并去除用户已经浏览过的文献构建出文献推荐候选集。并构建一种计分系统,按照得分从高到底对候选集进行排序,选出得分最高的10篇论文推荐给用户。
【技术实现步骤摘要】
一种基于作者频繁模式的科技文献推荐方法
本专利技术属于推荐系统领域,涉及一种基于作者频繁模式的科技文献推荐方法。
技术介绍
互联网的出现和普及给用户带来了大量的信息,但随着网络的迅速发展而带来的网上信息量的大幅增长,使得用户在面对大量信息时无法从中获得对自己真正有用的那部分信息,对信息的使用效率反而降低了,这就是所谓的信息超载问题。解决信息超载问题一个非常有潜力的办法是推荐系统,它是根据用户的信息需求、兴趣等,将用户感兴趣的信息、产品等推荐给用户的个性化信息推荐系统。关联规则最初提出的动机是针对购物篮分析问题提出的。假设分店经理想更多的了解顾客的购物习惯。特别是,想知道哪些商品顾客可能会在一次购物时同时购买?为回答该问题,可以对商店的顾客事物零售数量进行购物篮分析。该过程通过发现顾客放入“购物篮”中的不同商品之间的关联,分析顾客的购物习惯。这种关联的发现可以帮助零售商了解哪些商品频繁的被顾客同时购买,从而帮助他们开发更好的营销策略。1993年,Agrawal等人首先提出关联规则的概念,同时给出了相应的挖掘算法AIS,但是性能较差。1994年,他们建立了项目集格空间理论,并依据上述两个定理,提出了著名的Apriori算法。至今Apriori仍然作为关联规则挖掘的经典算法被广泛讨论,以后诸多的研究人员对关联规则的挖掘问题进行了大量的研究。Apriori算法是一种挖掘关联规则的频繁项集算法,其核心思想是通过候选集生成和情节的向下封闭检测两个阶段来挖掘频繁项集。而且算法已经被广泛的应用到商业、网络安全等各个领域。其核心是基于两阶段的频集思想的递推算法。该关联规则在分类上属于单维、单层、布尔关联规则。在这里,所有支持度大于最小支持度的项集称为频繁项集,简称频集。众所周知,Apriori算法在产生频繁模式前需要对数据库进行多次扫描,同时产生大量的候选频繁集,这就使Apriori算法时间和空间复杂度较大。而且Apriori算法中有一个很重要的性质:频繁项集的所有非空子集都必须也是频繁的。这个性质导致Apriori算法在挖掘长频繁模式的时候性能低下。为了提高性能,JiaweiHan提出了FP-Growth算法,Fp-growth算法在挖掘频繁模式的时候性能提高10倍以上。FP-growth算法使用了一种紧缩的数据结构来存储找频繁项集所需要的全部信息。Fp-growth方法将发现长频繁模式的问题转换成在较小的条件数据库中递归地搜索一些较短的模式,然后连接后缀。它使用最不频繁的项作后缀,提供较好的选择性。该方法显著地降低了搜索开销。FP-growth算法中涉及到一些概念:项(事物表示的单位)的集合称为项集。包含k个项的项集成为k项集。集合{computer,software}是一个2项集。项集的出现频度称为支持度,如果项集I支持度满足预定义的最小支持度阈值,则I是频繁项集。本专利技术研究的是在新构建的科技文献检索系统上如何实现推荐系统。常见的推荐方法有基于用户的协同过滤和基于内容的协同过滤等。但是对于新构建的文献检索系统来讲,在没有丰富的用户行为数据的情况下,利用协同过滤的方式进行推荐效果不会太好。本专利技术提出利用文献的作者信息来构建频繁集从而进行文献推荐。如果直接利用作者项集进行计算频繁模式的话会有一些问题,比如有三个作者项集:{李其,王磊,李龙},{李其,王磊,宋佳}和{王磊,杨志,张敏},当设置置信度为2时,我们能得到{李其,王磊}这个频繁项,我们要想得到这个项集对应的文献,就不得不去扫描全部的文献,虽然可以通过一些索引技术来减少扫描的时间复杂度。但是也会增加空间开销和维护的成本。因此本专利技术在Fp-growth算法中增加了处理文献ID(文献的唯一编号)的功能,在得到频繁项集时同时也会得到该频繁项集对应的文献,从而提高效率减少维护成本。另外,本专利技术还利用作者发表的其他文献和关键词发表的文献,构建了一种基于作者频繁模式的科技文献推荐方法。
技术实现思路
本专利技术在新构建文献检索系统的特殊情况下,提出了一种基于作者频繁模式的科技文献推荐方法。通过在FP-growth算法中增加处理文献ID的功能构建作者频繁项集及其对应的文献集、统计作者发表的文献和统计关键字所代表的文献集,去除用户已经浏览过的文献构建出文献推荐候选集。本专利技术还构建一种打分系统,按照得分从高到底对候选集进行排序,选出得分最高的10篇论文推荐给用户。一种基于作者频繁模式的科技文献推荐方法,其步骤为:步骤1、收集并整理科技文献,解析成结构化的数据并存储在数据库D表中,其中该表字段包括:ID(文献唯一编号)、author(文献的作者)、keyword(关键字)和title(文献的名称)等;在数据库中建立存储作者频繁项集及其对应的文献ID集的T_fp表,该表字段为:ID(表唯一编号)、authors(作者频繁项集)和papers(文献唯一编号ID集,其中每个编号以“,”作为分隔符);设置最小支持度为n,n通常为3,计算作者频繁项集,过程如下:步骤1.1、构建作者FP表L:其中L的数据结构为{作者,文献编号ID集(ID之间以“,”分隔),支持度计数,结点链},其中每行称为作者记录,扫描文献数据库D表一次,统计每个作者发表的文献总数存入作者记录的支持度计数列中,且作者发表的文献编号ID集以“,”为分隔存入作者记录的文献编号ID集列中,按照支持度计数对L中的作者记录降序排序,去除小于最小支持度的作者记录;步骤1.2、构建作者FP树T:其中T中结点的数据结构形式是{作者#文献ID集:支持度计数,结点链指针};创建T的根节点,以“null”标记它,对数据库D表中每篇文献作者集按L中的次序排序并过滤掉在L中不存在的作者,排序结果为:A{A1,A2…An};按照A中Ai的次序构建一条路径,如果此路径与已有的路径有相同的前缀,则可以利用已有的路径,对于已有路径重合部分上的结点计数增加1,追加此文献ID并以“,”隔开。而对于后面不同的部分创建新的路径,该新路径链接在已有重合路径上的最后结点上,如果T中没有路径的前缀和该新路径有重合的部分,将该新路径链接到T的根节点上;该新路径上结点计数设置为1,并记录文献ID;对于新插入的所有结点通过节点链结构将其连接到其他具有相同作者的结点上;步骤1.3、根据作者FP树T构建作者频繁项集并存入T_fp表:步骤1.3.1、记a为已产生的后缀模式,其初始值为空;步骤1.3.2、如果T包含单个路径P,则对路径P中结点(P为{P1,P2...Pn},如果n大于10,则只保留前十个结点)的每个组合{Pi1,Pi2...Pir}(其中ir大于0且小于n)记为b,循环产生模式bUa,该模式的支持度计数等于b中结点的最小支持度计数,且该模式对应的文献编号ID集为b中具有最小支持度计数结点的文献编号ID集;如果上述产生的模式(作者频繁项集)中作者数大于等于2,则将该模式及其对应文献ID集存入T_fp表中;步骤1.3.3、如果T包含多个路径,则对L中的每条作者记录ai(ai按照L中支持度计数从小到大的次序产生)产生一个模式b=aiUa,其支持度等于ai的支持度,该模式对应的文献编号ID集等于ai中的文献编号ID集;如果b中作者数大于等于2,则将该模式(作者频繁项集)及其本文档来自技高网...
【技术保护点】
一种基于作者频繁模式的科技文献推荐方法,其特征在于:该步骤如下,步骤1、收集并整理科技文献,解析成结构化的数据并存储在数据库D表中,其中该表字段包括:ID(文献唯一编号)、author(文献的作者)、keyword(关键字)和title(文献的名称)等;在数据库中建立存储作者频繁项集及其对应的文献ID集的T_fp表,该表字段为:ID(表唯一编号)、authors(作者频繁项集)和papers(文献唯一编号ID集,其中每个编号以“,”作为分隔符);设置最小支持度为n,n通常为3,计算作者频繁项集,过程如下:步骤1.1、构建作者FP表L:其中L的数据结构为{作者,文献编号ID集(ID之间以“,”分隔),支持度计数,结点链},其中每行称为作者记录,扫描文献数据库D表一次,统计每个作者发表的文献总数存入作者记录的支持度计数列中,且作者发表的文献编号ID集以“,”为分隔存入作者记录的文献编号ID集列中,按照支持度计数对L中的作者记录降序排序,去除小于最小支持度的作者记录;步骤1.2、构建作者FP树T:其中T中结点的数据结构形式是{作者#文献ID集:支持度计数,结点链指针};创建T的根节点,以“null”标记它,对数据库D表中每篇文献作者集按L中的次序排序并过滤掉在L中不存在的作者,排序结果为:A{A1,A2…An};按照A中Ai的次序构建一条路径,如果此路径与已有的路径有相同的前缀,则可以利用已有的路径,对于已有路径重合部分上的结点计数增加1,追加此文献ID并以“,”隔开。而对于后面不同的部分创建新的路径,该新路径链接在已有重合路径上的最后结点上,如果T中没有路径的前缀和该新路径有重合的部分,将该新路径链接到T的根节点上;该新路径上结点计数设置为1,并记录文献ID;对于新插入的所有结点通过节点链结构将其连接到其他具有相同作者的结点上;步骤1.3、根据作者FP树T构建作者频繁项集并存入T_fp表:步骤1.3.1、记a为已产生的后缀模式,其初始值为空;步骤1.3.2、如果T包含单个路径P,则对路径P中结点(P为{P1,P2...Pn},如果n大于10,则只保留前十个结点)的每个组合{Pi1,Pi2...Pir}(其中ir大于0且小于n)记为b,循环产生模式bUa,该模式的支持度计数等于b中结点的最小支持度计数,且该模式对应的文献编号ID集为b中具有最小支持度计数结点的文献编号ID集;如果上述产生的模式(作者频繁项集)中作者数大于等于2,则将该模式及其对应文献ID集存入T_fp表中;步骤1.3.3、如果T包含多个路径,则对L中的每条作者记录ai(ai按照L中支持度计数从小到大的次序产生)产生一个模式b=aiUa,其支持度等于ai的支持度,该模式对应的文献编号ID集等于ai中的文献编号ID集;如果b中作者数大于等于2,则将该模式(作者频繁项集)及其对应文献ID集存入T_fp表中;步骤1.3.4、在T中找到b的所有前缀,其中每个前缀中所包含的作者集称为b的条件模式基,b的条件模式基的集合记为B,使用步骤1.1至步骤1.2的方法,对B构造条件FP树记为TB;步骤1.3.5、如果TB不等于空集,令a等于b,回到步骤1.3.2递归产生B的作者频繁项集;步骤2、根据用户正在浏览或者点击的兴趣文献计算推荐集S过程如下:步骤2.1、依据文献数据库D表离线统计每个作者发表的文献,保存到数据库T_ap表中,该表字段为:ID(数据库表唯一编号)、author(作者姓名)和paperIds(作者发表的文献的唯一编号,其中每篇文献唯一编号以“,”隔开);依据文献数据库D表离线计算每个关键词的所有文献,并保存记录到T_kp表中,该表字段为:ID(数据库表唯一编号)、keyword(关键字)和paperIds(关键字对应的所有文献唯一编号,其中每篇文献唯一编号以“,”分割);步骤2.2、通过查询T_ap表找出每个作者所有的文献集,并根据作者在兴趣献中的次序对于该作者发表的其他文献给定不同的分值,其中第一作者的文献计1分,第二作者的文献计0.5分,第三作者的文献计0.2分,其他作者的文献计0.1分,将选出的文献及其对应的分数存入文献推荐候选集中,如果候选集合中已经存在该文献则对该文献累加计分;步骤2.3、判定兴趣文献的每位作者是否在作者频繁项集(查询T_fp表)中存在,若存在,则根据该作者在兴趣文献中出现次序对频繁项集对应的文献计分,其中第一作者的文献计2分,第二作者的文献计1分,第三作者的文献计0.5分,其他作者的文献计0.2分,将选出的文献存入文献推荐候选集中,如果候选集合中已经存在该文献则对该文献累加计分;步骤2.4、通过查询T_kp表得到兴趣文献中的每个关键词对应的所有论文集合将所有的文献计0.8分,将选出的文献存入文献推荐候选集中,如果候选集合中已经存在该文献则对...
【技术特征摘要】
1.一种基于作者频繁模式的科技文献推荐方法,其特征在于:步骤如下,步骤1、收集并整理科技文献,解析成结构化的数据并存储在数据库D表中,其中表中的字段包括:ID文献唯一编号、author文献的作者、keyword关键字和title文献的名称;在数据库中建立存储作者频繁项集及其对应的文献ID集的T_fp表,该表字段为:ID表唯一编号、authors作者频繁项集和papers文献唯一编号ID集,其中每个编号以“,”作为分隔符;设置最小支持度为n,n通常为3,计算作者频繁项集,过程如下:步骤1.1、构建作者FP表L:其中L的数据结构为{作者,文献编号ID集,ID之间以“,”分隔,支持度计数,结点链},其中每行称为作者记录,扫描文献数据库D表一次,统计每个作者发表的文献总数存入作者记录的支持度计数列中,且作者发表的文献编号ID集以“,”为分隔存入作者记录的文献编号ID集列中,按照支持度计数对L中的作者记录降序排序,去除小于最小支持度的作者记录;步骤1.2、构建作者FP树T:其中T中结点的数据结构形式是{作者#文献ID集:支持度计数,结点链指针};创建T的根节点,以“null”标记它,对数据库D表中每篇文献作者集按L中的次序排序并过滤掉在L中不存在的作者,排序结果为:A{A1,A2…An};按照A中Ai的次序构建一条路径,如果此路径与已有的路径有相同的前缀,则可以利用已有的路径,对于已有路径重合部分上的结点计数增加1,追加此文献ID,并以“,”隔开;而对于后面不同的部分创建新的路径,新路径链接在已有重合路径上的最后结点上,如果T中没有路径的前缀和该新路径有重合的部分,将该新路径链接到T的根节点上;该新路径上结点计数设置为1,并记录文献ID;对于新插入的所有结点通过节点链结构将其连接到其他具有相同作者的结点上;步骤1.3、根据作者FP树T构建作者频繁项集并存入T_fp表:步骤1.3.1、记a为已产生的后缀模式,其初始值为空;步骤1.3.2、如果T包含单个路径P,则对路径P中结点的每个组合{Pi1,Pi2...Pir}记为b,其中ir大于0且小于n,P为{P1,P2...Pn},如果n大于10,则只保留前十个结点;循环产生模式bUa,该模式的支持度计数等于b中结点的最小支持度计数,且该模式对应的文献编号ID集为b中具有最小支持度计数结点的文献编号ID集;如果上述产生的模式作者频繁项集中作者数大于等于2,则将该模式及其对...
【专利技术属性】
技术研发人员:李玉鑑,杨凯文,
申请(专利权)人:北京工业大学,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。