本发明专利技术提供了一种关注度的计算方法及系统,该方法为:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量;在预设的关键词库中获取待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度;利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。本方案中,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度。通过利用待分析关键词出现的词频、待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。
A calculation method and system of degree of concern
【技术实现步骤摘要】
一种关注度的计算方法及系统
本专利技术涉及数据处理
,具体涉及一种关注度的计算方法及系统。
技术介绍
随着互联网的发展,用户在阅读新闻和期刊等文章时会产生大量的阅读数据,通过分析大量的阅读数据可以得到用户对指定行业的特定内容的关注度。目前分析阅读数据的方式为:提取用户所阅读的文章中的关键词,根据各个关键词出现的频率确定用户对指定行业的特定内容的关注度。但是某一行业的关键词可能出现在不同领域的文章中,该关键词在不同领域中的影响有所不同,因此目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度。
技术实现思路
有鉴于此,本专利技术实施例提供一种关注度的计算方法及系统,以解决目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度的问题。为实现上述目的,本专利技术实施例提供如下技术方案:本专利技术实施例第一方面公开一种关注度的计算方法,所述方法包括:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。优选的,构建所述关键词库的过程包括:获取每一行业对应的预设的关键词词典;针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;将权重大于阈值的所述关键词存储至关键词库中。优选的,计算每一篇文章对应的作者的影响度的过程包括:获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。本专利技术实施例第二方面公开一种关注度的计算系统,所述系统包括:第一获取单元,用于获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;第二获取单元,用于在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;第三获取单元,用于获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;计算单元,用于利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。优选的,还包括:构建所述关键词库的预构建单元,所述预构建单元包括:获取模块,用于获取每一行业对应的预设的关键词词典;处理模块,用于针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;存储模块,用于将权重大于阈值的所述关键词存储至关键词库中。优选的,所述第三获取单元包括:获取模块,用于获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;确定模块,用于针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;计算模块,用于利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。基于上述本专利技术实施例提供的一种关注度的计算方法及系统,该方法为:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量;在预设的关键词库中获取待分析关键词在每一篇文章中的权重;获取每一篇文章对应的作者的影响度;利用待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对待分析关键词的关注度。本方案中,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度。通过利用待分析关键词出现的词频、待分析关键词在不同文章中的权重和文章作者的影响度,提高计算用户对待分析关键词的关注度的准确度。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。图1为本专利技术实施例提供的一种关注度的计算方法的流程图;图2为本专利技术实施例提供的构建关键词库的流程图;图3为本专利技术实施例提供的计算作者的影响度的过程;图4为本专利技术实施例提供的一种关注度的计算系统的结构框图;图5为本专利技术实施例提供的一种关注度的计算系统的另一结构框图;图6为本专利技术实施例提供的一种关注度的计算系统的又一结构框图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本申请中,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。由
技术介绍
可知,目前分析阅读数据的方式通常以关键词出现的频率确定用户对各行业的关注度。但是,某一行业的关键词可能出现在不同领域的文章中,该关键词在不同领域中的影响有所不同,因此目前分析阅读数据的方式无法准确计算用户对指定行业的特定内容的关注度。因此本专利技术实施例提供一种关注度的计算方法及系统,利用包含待分析关键词的每一篇文章的阅读量和作者的影响度,结合待分析关键词在每一篇文章中的权重,计算用户对待分析关键词的关注度,以提高计算准确度。参见图1,示出了本专利技术实施例提供的一种关注度的计算方法的流程图,该计算方法包括以下步骤:步骤S101:获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量。在具体实现步骤S101的过程中,确定待分析关键词并获取包含该待分析关键本文档来自技高网...
【技术保护点】
1.一种关注度的计算方法,其特征在于,所述方法包括:/n获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;/n在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;/n获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;/n利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。/n
【技术特征摘要】
1.一种关注度的计算方法,其特征在于,所述方法包括:
获取包含待分析关键词的j篇文章,以及获取每一篇文章对应的作者和阅读量,j为大于0的整数;
在预设的关键词库中获取所述待分析关键词在每一篇文章中的权重;
获取每一篇文章对应的作者的影响度,每一作者的影响度为预先基于所述作者所发表文章的数据信息计算得到;
利用所述待分析关键词在每一篇文章中的权重、每一篇文章对应的作者的影响度和每一篇文章的阅读量,计算用户对所述待分析关键词的关注度。
2.根据权利要求1所述的方法,其特征在于,构建所述关键词库的过程包括:
获取每一行业对应的预设的关键词词典;
针对每一所述行业,利用所述行业对应的关键词词典,对所述行业的每一篇样本文章进行分词处理,得到每一篇样本文章的关键词和所述关键词的权重;
将权重大于阈值的所述关键词存储至关键词库中。
3.根据权利要求1所述的方法,其特征在于,计算每一篇文章对应的作者的影响度的过程包括:
获取作者在预设时间段内不同文章类型对应的发文数量、平均文章阅读量和平均文章分享比;
针对每一文章类型,利用其他作者发表的所述文章类型的文章的数据信息,确定所述文章类型对应的发文中位数、阅读量中位数和分享比中位数;
利用每一文章类型对应的所述发文数量、所述平均文章阅读量、所述平均文章分享比、所述发文中位数、所述阅读量中位数和所述分享比中位数,计算所述作者的影响度。
4.一种关注度的计算系统,其特征在于,所述系统包括:
第一获取...
【专利技术属性】
技术研发人员:黄粲然,于潇潇,郭琪琪,
申请(专利权)人:北京搜狐新媒体信息技术有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。