本发明专利技术涉及数据检索领域,公开了一种基于用户潜在需求的资源推荐方法及系统。该方法包括步骤:利用文本聚类和主题挖掘算法对资源进行聚类和主题抽取;基于聚类结果,计算每个主题下的主题词,得到对应领域的主题词表;利用主题词表对资源进行自动标引,计算出每个独立资源包含的主题词;结合用户对独立资源的操作记录以及用户属性,计算用户对某个主题的关注度;建立用户需求模型并计算用户之间的主题相似度;利用独立资源中数据间的关系计算指定信息对主题的权威度;根据用户需求模型筛选资源,将匹配度较高的资源推荐给用户。本发明专利技术利用用户的潜在情报需求和自己的专业领域密切相关性,可以更精准地向用户推荐和用户需求相匹配的情报资源。
【技术实现步骤摘要】
基于用户潜在需求的资源推荐方法及系统
本专利技术涉及数据检索领域,尤其是涉及一种基于用户潜在需求的资源推荐方法及系统。
技术介绍
随着Web2.0技术的不断发展,通过Internet这种快捷、方便的信息载体,人们每天都会创造出成千上万的信息,因此它已经成为了人们在日常生活中获取信息的重要平台之一。但是,信息量快速膨胀之后随之而来的问题是信息泛滥问题,无数重复的数据通过Internet呈现在用户面前,使得人们想通过网络查找自己感兴趣的信息变得非常困难和耗时,这种现象称为“信息过载”。面对这样的挑战,基于互联网的搜索引擎应运而生。人们通常会利用搜索网站来查找自己想要的数据,但通用的搜索引擎仅仅只是通过用户输入的关键词来匹配相关的信息并将之返回给用户,不同用户输入相同检测条件时返回的内容完全相同,并没有考虑到用户个人兴趣进行差异化设计。因此,搜索引擎所能提供的信息筛选能力有限,不能从根本上解决信息过载的问题。此外,搜索引擎的另外一个显著特点就是采用信息拉取方式,即用户根据自己的信息需求,从互联网将信息“拉取”到用户面前。但如果用户无法准确描述自己的信息需求而输入了不恰当的检索词,将会拉取回来大量的和自己的需求并不匹配的信息资源。这些问题到导致现有的搜索引擎难以全面地体现不同用户的需求差异,搜索效率、精确度和用户满意度很难达到理想的状态。
技术实现思路
针对现有技术中存在的上述缺陷,本专利技术所要解决的技术问题是如何针对不同用户的差异提供精确的信息。为解决上述技术问题,一方面,本专利技术提供了一种基于用户潜在需求的资源推荐方法,该方法包括步骤:SI,利用文本聚类和主题挖掘算法对资源进行聚类和主题抽取;S2,基于聚类结果,计算每个主题下的主题词,得到对应领域的主题词表;S3,利用主题词表对资源进行自动标引,计算出每个独立资源包含的主题词;S4,结合用户对独立资源的操作记录以及用户属性,计算用户对某个主题的关注度,建立用户需求模型并计算用户之间的主题相似度;利用独立资源中数据间的关系计算指定信息对主题的权威度;S5,根据用户需求模型筛选资源,将匹配度较高的资源推荐给用户。优选地,所述步骤SI中,采用改进的层次化主题抽取模型hLDA进行所述聚类和主题抽取。优选地,所述步骤S4中,用户U和V之间的主题相似度计算步骤为:首先建立用户u和V各自的需求模型Mu和Mv ;同时记Mu和Mv各自的主题集合为根据MdPMv中包含的主题建立主题集合 = M^} + Mf} = [TllT2,...,Tn]^为Mu和Mv各自包含的主题个数之和;VTi e ,分别计算用户U和V对的Ti的关注度S(u,Ti)和S(v,Ti);在主题空间IT1, T2, , TJ上分别建立用户U、V的主题关注度向量U和V:U={S(u,T1),S(u,T2),...,S(u,Tn)}以及 V= (S(Vj1), S(v,T2),...,S(v,Tn)};计算向量 U和V的夹角的余弦值作为u和V之间的主题相似度。 优选地,所述步骤S5中,根据用户需求模型Mu筛选资源包括步骤:对于Mu包含的每个主题,将该主题下的规范主题词及其相应的辅助词放入词表Dic ;当所有主题处理完毕后,词表Dic包含了模型Mu中所有的规范主题词和辅助词;对于Mu包含的每个主题T,得到包含该主题的所有文档,将这些文档放入集合Docs ;当所有主题处理完毕后,集合Docs为所有包含了 Mu中至少一个主题的文档集合;对集合Docs中的每个文档,统计词表Dic中的词在该文档中出现次数之和TFmc ;当集合Docs中所有文档统计完毕后,根据每个文档的TFm。进行排序,将最靠前的若干个文档推荐给用户。优选地,对于用户U,其用户需求模型Mu表示为:MU=(AU,TU),其中Au是用户u属性集合,A={a1;a2,...,an},属性%是与需求相关联的属性,Tu是用户u所关注的主题的集合,Tu被表示为用户u所关注的主题Ti的集合,i = 1,2,..., η。优选地,所述步骤S2中,利用互相信息进行主题词计算:计算每个候选主题词与对应主题的互信息后,按照互信息的值由大到小进行排序;最终取互信息值最大的前若干个候选词作为该主题的主题词。优选地,所述步骤S2中,计算出主题词之后:还采用人工干预的办法对计算出来的主题词进行审核,审核通过的主题词进入规范主题词表;同时,利用主题词之间的层次关系建立规范主题词表中主题词之间的上、下位关系;以及利用HowNet作为同义词词典,计算出规范主题词表中的每个主题词的同义ο优选地,所述步骤S5中,还根据所述用户之间的主题相似度,利用相似度最高的用户的需求模型对目标用户进行相似推荐;和/或根据所述指定信息对主题的权威度对用户进行权威推荐。另一方面,本专利技术还同时提供了一种基于用户潜在需求的资源推荐系统,该系统包括:预处理模块,用于利用文本聚类和主题挖掘算法对资源进行聚类和主题抽取;主题词表模块,用于基于聚类结果,计算每个主题下的主题词,得到对应领域的主题词表;标引模块,用于利用主题词表对资源进行自动标引,计算出每个独立资源包含的主题词;计算模块,用于结合用户对独立资源的操作记录以及用户属性,计算用户对某个主题的关注度;建立用户需求模型并计算用户之间的主题相似度;利用独立资源中数据间的关系计算指定信息对主题的权威度;推荐模块,用于根据用户需求模型筛选资源,将匹配度较高的资源推荐给用户。本专利技术提供了一种基于用户潜在需求的资源推荐方法及系统,利用用户的潜在情报需求和自己的专业领域密切相关性,通过挖掘基于专业领域的用户潜在情报需求,可以更精准地向用户推荐和用户需求相匹配的情报资源。【附图说明】图1为本专利技术的一个实施例中基于用户潜在需求的资源推荐方法的流程示意图;图2为本专利技术的一个优选实施例中文档聚类和主题抽取模型示意图;图3为本专利技术的一个优选实施例中主题词计算过程流程示意图;图4为本专利技术的一个优选实施例中自动标引过程流程示意图;图5为本专利技术的一个优选实施例中作者、研究机构权威度计算过程流程示意图;图6为本专利技术的一个典型应用场景中作者、研究机构的主题权威度模型框架图。【具体实施方式】下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述。显然,所描述的实施例为实施本专利技术的较佳实施方式,所述描述是以说明本专利技术的一般原则为目的,并非用以限定本专利技术的范围。本专利技术的保护范围应当以权利要求所界定者为准,基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动的前提下所获得的所有其他实施例,都属于本专利技术保护的范围。现有的搜索引擎信息筛选能力有限且相对较为被动,为了解决上述问题,出现了个性化化推荐技术:即在信息资源服务端通过分析用户的需求,将用户可能感兴趣的信息主动推送给用户。推荐系统的主要特点为它是一个主动推送的过程,而推荐系统的这种主动推送方式则正好克服了传统搜索引擎信息拉取模式的缺陷:用户往往并不清楚如何准确表达自己的信息需求,或者并不清楚自己的信息需求,也就无法用搜索引擎来获取有价值的信息了。个性化推荐技术的核心就是如何分析挖掘出用户潜在的信息需求,比如利用用户的操作日志(如对图书、歌曲、电影等资源的浏览记录等)分析出用户的个人偏好、地理位置信息等,并以本文档来自技高网...
【技术保护点】
一种基于用户潜在需求的资源推荐方法,其特征在于,所述方法包括步骤:S1,利用文本聚类和主题挖掘算法对资源进行聚类和主题抽取;S2,基于聚类结果,计算每个主题下的主题词,得到对应领域的主题词表;S3,利用主题词表对资源进行自动标引,计算出每个独立资源包含的主题词;S4,结合用户对独立资源的操作记录以及用户属性,计算用户对某个主题的关注度;建立用户需求模型并计算用户之间的主题相似度;利用独立资源中数据间的关系计算指定信息对主题的权威度;S5,根据用户需求模型筛选资源,将匹配度较高的资源推荐给用户。
【技术特征摘要】
1.一种基于用户潜在需求的资源推荐方法,其特征在于,所述方法包括步骤: Si,利用文本聚类和主题挖掘算法对资源进行聚类和主题抽取; S2,基于聚类结果,计算每个主题下的主题词,得到对应领域的主题词表; S3,利用主题词表对资源进行自动标引,计算出每个独立资源包含的主题词; S4,结合用户对独立资源的操作记录以及用户属性,计算用户对某个主题的关注度;建立用户需求模型并计算用户之间的主题相似度;利用独立资源中数据间的关系计算指定信息对主题的权威度; S5,根据用户需求模型筛选资源,将匹配度较高的资源推荐给用户。2.根据权利要求1所述的方法,其特征在于,所述步骤SI中,采用改进的层次化主题抽取模型hLDA进行所述聚类和主题抽取。3.根据权利要求1所述的方法,其特征在于,所述步骤S4中,用户u和V之间的主题相似度计算步骤为: 首先建立用户U和V各自的需求模型Mu和Mv ;同时记Mu和Mv各自的主题集合为Mf}和 Mf}; 根据仏和Mv中包含的主题建立主题集合 4.根据权利要求1所述的方法,其特征在于,所述步骤S5中,根据用户需求模型Mu筛选资源包括步骤: 对于Mu包含的每个主题,将该主题下的规范主题词及其相应的辅助词放入词表Dic ;当所有主题处理完毕后,词表Dic包含了模型Mu中所有的规范主题词和辅助词; 对于Mu包含的每个主题T,得到包含该主题的所有文档,将这些文档放入集合Docs ;当所有主题处理完毕后,集合Docs为所有包含了 Mu中至少一个主题的文档集合; 对集合Docs中的每个文档,统计词表Dic中的词在该文档中出现次数之和TFDi。;当集合Docs中所有文档统计完毕后,根据每个文档的TFm。进行排序,将最靠前的若干个文档推荐给用户。5.根据权利要求3或4所述的方法,其特征在于,对于用户U,其用...
【专利技术属性】
技术研发人员:王庆红,李鹏,周育忠,陶秀洁,龚婷,陈传夫,王平,王晓光,冉从敬,
申请(专利权)人:南方电网科学研究院有限责任公司,武汉大学,
类型:发明
国别省市: