一种基于用户查看和收录提升检索精准度的方法及系统技术方案

技术编号:26170935 阅读:19 留言:0更新日期:2020-10-31 13:40
本发明专利技术公开了一种基于用户查看和收录提升检索精准度的方法及系统。所述方法及系统包括,识别用户检索请求,获取检索结果;根据资源命中标签相关度对检索结果中的资源进行排序;记录用户日志行为;根据日志行为调整资源命中标签相关度,获得调整后的第一资源标签;将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;将第一资源标签和第二资源标签索引同步到索引库,得到新索引库;根据新索引库进行检索。本发明专利技术可根据用户查看、收录信息资源的次数,即根据信息资源的热度来统计优化资源命中标签的相关度,提升了资源检索精准度。

【技术实现步骤摘要】
一种基于用户查看和收录提升检索精准度的方法及系统
本专利技术涉及信息检索
,特别是涉及一种基于用户查看和收录提升检索精准度的方法及系统。
技术介绍
信息检索(InformationRetrieval)是人们进行信息查询和获取的主要方式。信息检索技术起源于图书馆书籍管理,对书籍进行分类,然后根据需求到特定的类别里去查找书籍,这就是最简单的信息检索方法。随着互联网的兴起,计算机里的文档成为了信息的主要载体,自然而然地,分类方法在一开始也被应用到了互联网文档(主要是HTML文档)的检索上,在互联网初期也是非常有用的。但随着互联网内容的爆炸性增长,分类方法也逐渐失效了。由此催生了全文检索方法。更准确地说,是建立索引,用索引来做检索的方法。目前,在互联网上进行信息检索的方式主要有两种,即基于分类方法的按目录浏览方式和基于全文检索的搜索引擎。按目录浏览的方式,用户根据自己的需求按目录一层一层的查找自己需要的信息,这种方式便于用户查找某一类的聚合信息,但是精确定位能力不足,无法直接定位到用户想找的信息,只能一层一层去查找。基于全文检索的搜索引擎是目前最典型的信息检索方式,用户只需输入需要查找的关键字,搜索引擎就会把检索到的结果按关键字相关度进行排序返回给用户。但是基于全文检索的搜索引擎,搜索结果是按关键字相关度进行排序的,相关度排序算法的优劣往往会影响检索结果的质量。
技术实现思路
本专利技术的目的是提供一种基于用户查看和收录提升检索精准度的方法及系统,提升了资源检索精准度。为实现上述目的,本专利技术提供了如下方案:一种基于用户查看和收录提升检索精准度的方法,包括:识别用户检索请求,获取检索结果;根据资源命中标签相关度对所述检索结果中的资源进行排序;记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为;根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签;将所述检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库;根据所述新索引库进行检索。可选的,所述根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签,具体包括:判断用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和是否大于或者等于第一预设阈值,得到第一判断结果;若所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和大于或者等于第一预设阈值,则清除超过预设时间阈值的行为记录和检索标签相同的行为记录;判断剩余行为记录数量是否大于或者等于第二预设阈值,得到第二判断结果;若所述第二判断结果为剩余行为记录数量大于或者等于第二预设阈值,则从所述剩余行为记录中,取出与所述第二预设阈值数量相同条数的行为记录并统计其中的用户点击次数和用户收录次数;根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度。可选的,若所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和小于第一预设阈值,则执行步骤:将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;若所述第二判断结果为所述剩余行为记录数量小于第二预设阈值,则执行步骤:将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签。可选的,所述根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度,具体为:根据公式调整所述资源命中标签相关度,其中Δw为相关度提升值,Ws为检索查看权值,Ws=0.2,Sh为用户点击次数,x为第二阈值,WI为收录权值,WI=0.3,Ih为用户收录次数。可选的,所述预设时间阈值为24小时。一种基于用户查看和收录提升检索精准度的系统,其特征在于,包括:检索结果获取模块,用于识别用户检索请求,获取检索结果;资源排序模块,用于根据资源命中标签相关度对所述检索结果中的资源进行排序;行为记录模块,用于记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为;第一资源标签获取模块,用于根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签;第二资源标签获取模块,用于将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;索引库建立模块,用于将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库;检索模块,用于根据所述新索引库进行检索。可选的,所述第一资源获取模块具体包括:第一判断单元,用于判断用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和是否大于或者等于第一预设阈值,得到第一判断结果;第二判断单元,用于当所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和大于或者等于第一预设阈值时,清除超过预设时间阈值的行为记录和检索标签相同的行为记录;第二判断单元还用于判断剩余行为记录数量是否大于或者等于第二预设阈值,得到第二判断结果;行为次数记录模块,用于当所述第二判断结果为所述剩余行为记录数量大于或者等于第二预设阈值时,从所述剩余行为记录中,取出与所述第二预设阈值数量相同条数的行为记录并统计其中的用户点击次数和用户收录次数;调整单元,用于根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度。可选的,所述调整单元包括计算子单元,其所述计算子单元用于根据公式调整所述资源命中标签相关度,其中Δw为相关度提升值,Ws为检索查看权值,Ws=0.2,Sh为用户点击次数,x为第二阈值,WI为收录权值,WI=0.3,Ih为用户收录次数。根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:本专利技术公开了一种基于用户查看和收录提升检索精准度的方法及系统。所述方法及系统包括,识别用户检索请求,获取检索结果;根据资源命中标签相关度对所述检索结果中的资源进行排序;记录用户日志行为;根据日志行为调整资源命中标签相关度,获得调整后的第一资源标签;将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;将第一资源标签和第二资源标签索引同步到索引库,得到新索引库;根据新索引库进行检索。本专利技术可根据用户查看、收录信息资源的次数,即根据信息资源的热度来统计优化资源命中标签的相关度,提升了资源检索精准度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,本文档来自技高网...

【技术保护点】
1.一种基于用户查看和收录提升检索精准度的方法,其特征在于,包括:/n识别用户检索请求,获取检索结果;/n根据资源命中标签相关度对所述检索结果中的资源进行排序;/n记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为;/n根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签;/n将所述检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;/n将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库;/n根据所述新索引库进行检索。/n

【技术特征摘要】
1.一种基于用户查看和收录提升检索精准度的方法,其特征在于,包括:
识别用户检索请求,获取检索结果;
根据资源命中标签相关度对所述检索结果中的资源进行排序;
记录用户日志行为;所述日志行为包括用户点击检索结果中的资源的行为和用户收录检索结果中的资源的行为;
根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签;
将所述检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;
将所述第一资源标签和所述第二资源标签索引同步到索引库,得到新索引库;
根据所述新索引库进行检索。


2.根据权利要求1所述的基于用户查看和收录提升检索精准度的方法,其特征在于,所述根据所述日志行为调整所述资源命中标签相关度,获得调整后的第一资源标签,具体包括:
判断用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和是否大于或者等于第一预设阈值,得到第一判断结果;
若所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和大于或者等于第一预设阈值,则清除超过预设时间阈值的行为记录和检索标签相同的行为记录;判断剩余行为记录数量是否大于或者等于第二预设阈值,得到第二判断结果;
若所述第二判断结果为剩余行为记录数量大于或者等于第二预设阈值,则从所述剩余行为记录中,取出与所述第二预设阈值数量相同条数的行为记录并统计其中的用户点击次数和用户收录次数;
根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度。


3.根据权利要求2所述的基于用户查看和收录提升检索精准度的方法,其特征在于,若所述第一判断结果为用户点击检索结果中的资源的行为记录数量和用户收录检索结果中的资源的行为记录数量之和小于第一预设阈值,则执行步骤:将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签;
若所述第二判断结果为所述剩余行为记录数量小于第二预设阈值,则执行步骤:将检索结果中未被用户点击且未被用户收录的资源进行衰减调整,获得调整后的第二资源标签。


4.根据权利要求2所述的基于用户查看和收录提升检索精准度的方法,其特征在于,所述根据所述用户点击次数和所述用户收录次数调整所述资源命中标签相关度,具体为:
根据公式调整所述资源命中标签相关度,其中Δw为相关度提升值,Ws为检索查看权值,Ws=0...

【专利技术属性】
技术研发人员:蓝建敏李观春
申请(专利权)人:京华信息科技股份有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1