一种计算信息热度值的方法和设备技术

技术编号:11510538 阅读:92 留言:0更新日期:2015-05-27 15:40
本发明专利技术的实施方式提供了一种计算信息热度值的方法。该方法包括:获取新闻信息的新闻特征;依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。通过,本发明专利技术的方法使得新发布的新闻信息也可以预测出相应的热度值,从而显著地降低了新发布的新闻信息无法更为合理的排序或排版的可能性,还可以根据热度值来提前为用户推送可能的热门新闻信息,为用户带来了更好的体验。此外,本发明专利技术的实施方式提供了一种计算信息热度值的设备。

【技术实现步骤摘要】
一种计算信息热度值的方法和设备
本专利技术的实施方式涉及互联网信息技术处理领域,更具体地,本专利技术的实施方式涉及一种计算信息热度值的方法和设备。
技术介绍
本部分旨在为权利要求书中陈述的本专利技术的实施方式提供背景或上下文。此处的描述不因为包括在本部分中就承认是现有技术。目前,随着信息量的日复一日的爆炸性增多,各大门户新闻网站或者应用都有向用户展示新闻信息的方式,尤其是展示热门新闻来吸引用户阅读。
技术实现思路
但是,如何对新闻信息进行排序、排版或者向用户推送都是重要的问题,如通常会以新闻的热门程度作为考虑因素,等到新闻信息发布一段时间之后,根据用户和媒体对该新闻信息的反馈数据统计得到热门程度。但这样会导致新闻信息的初始排序或者初始排版不够合理,以及向用户推送热门的新闻信息的时机不够及时。特别是针对第一次发布或者刚刚发布较短时间内的新闻信息,无法参考热门程度来对新闻信息进行准确的排序、排版或者向用户推送等。因此不可避免的是,按照现有技术对新闻信息进行排序、排版或者向用户推送新闻信息,可能就会使得排序、排版结果和推送结果不够及时和全面。为此,非常需要一种改进的计算并预测信息热度值的方法,以使得对第一次发布或者较短时间内发布的新闻信息进行更为合理准确的排序和排版成为可能,以及使得向用户推送更及时和更符合用户需求的新闻信息成为可能。在本上下文中,本专利技术的实施方式期望提供一种计算信息热度值的方法和设备。在本专利技术实施方式的第一方面中,提供了一种计算信息热度值的方法,包括:获取新闻信息的新闻特征;依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。在本专利技术实施方式的第二方面中,提供了一种计算信息热度值的设备,包括:获取模块,配置用于获取新闻信息的新闻特征;确定模块,配置用于依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;计算模块,配置用于依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。根据本专利技术实施方式的计算信息推送度的方法和计算信息推送度的设备,可以在新闻信息缺乏用户和/或媒体的反馈数据时,就能够预测出新闻信息未来可能的热度值,从而可以及时挖掘出潜在的热门新闻信息。基于此,可以为新闻信息的热度排序提供了一个较为合理的参考,将本专利技术实施方式应用于新闻产品的新闻排版时,就可以改善用户对新闻信息的阅读体验,并且还可以及时甚至较早地将热门新闻信息进行推荐,特别是对于新闻媒体、门户网站等服务商,可以有效减轻人力编辑的工作量,提高生产效率,减少资源消耗。而且能够在相对有限的时间内评估海量的新闻热度,完成一些短时间内人力所不能完成的事情。附图说明通过参考附图阅读下文的详细描述,本专利技术示例性实施方式的上述以及其他目的、特征和优点将变得易于理解。在附图中,以示例性而非限制性的方式示出了本专利技术的若干实施方式,其中:图1示意性地示出了根据本专利技术实施方式的应用场景示意图;图2示意性地示出了根据本专利技术计算信息热度值方法实施例的流程图;图3示意性地示出了根据本专利技术计算信息热度值设备实施例的结构框图;在附图中,相同或对应的标号表示相同或对应的部分。具体实施方式下面将参考若干示例性实施方式来描述本专利技术的原理和精神。应当理解,给出这些实施方式仅仅是为了使本领域技术人员能够更好地理解进而实现本专利技术,而并非以任何方式限制本专利技术的范围。相反,提供这些实施方式是为了使本公开更加透彻和完整,并且能够将本公开的范围完整地传达给本领域的技术人员。本领域技术人员知道,本专利技术的实施方式可以实现为一种系统、装置、设备、方法或计算机程序产品。因此,本公开可以具体实现为以下形式,即:完全的硬件、完全的软件(包括固件、驻留软件、微代码等),或者硬件和软件结合的形式。根据本专利技术的实施方式,提出了一种计算信息热度值的方法和设备。在本文中,需要理解的是,附图中的任何元素数量均用于示例而非限制,以及任何命名都仅用于区分,而不具有任何限制含义。下面参考本专利技术的若干代表性实施方式,详细阐释本专利技术的原理和精神。专利技术概述本专利技术人发现,现有技术中因为新闻信息的热度值需要依靠用户和/或媒体的反馈数据才能得到,所以对于发布时间较短的新闻信息来讲,可能由于其热度值无法准确获取而使得用户无法及时获取到热门新闻信息,不仅如此,新闻产品的各个栏目在对新的新闻信息进行排序或者排版时也无法参考新闻信息的热度值进行。而如果能够采用合理预测的方式,对第一次发布或者发布时间较短的新闻信息也能够预测出其未来可能的热度,那么就可以参考其预测的热度值来进行初始排序或初始排版,从而也可以确定新发布的新闻信息是否需要向用户推送。在介绍了本专利技术的基本原理之后,下面具体介绍本专利技术的各种非限制性实施方式。应用场景总览首先参考图1所示的应用场景,用户可以在互联网设备102上浏览各种新闻信息,该互联网设备102可以是台式电脑或者手持的智能设备等,只要该互联网设备102能够通过互联网连接服务器101,就可以接收到服务器101发送的新闻信息以供用户浏览。而互联网设备102上还可以安装各种新闻类软件,例如“网易新闻”等,用户也可以通过新闻类软件来与服务器101交互并浏览各种新闻信息。示例性方法下面结合图1的应用场景,参考图2来描述根据本专利技术示例性实施方式的用于计算信息热度值的方法。需要注意的是,上述应用场景仅是为了便于理解本专利技术的精神和原理而示出,本专利技术的实施方式在此方面不受任何限制。相反,本专利技术的实施方式可以应用于适用的任何场景。步骤201:获取新闻信息的新闻特征。在本实施方式中,新闻信息可以为互联网上的新闻文章。对于新闻信息的新闻特征,可以包括新闻标题、新闻正文、新闻附图和新闻类别等。新闻信息可通过用户输入或机器抓取的方式输入,对于新闻信息中包含html标签的文本内容,则可以将去除html标签的文本内容作为新闻正文。本步骤需要把新闻信息转化为适用于计算模型的新闻特征,具体的,新闻特征可以包括文本特征、附图特征和新闻类别,则获取新闻信息的新闻特征具体可以包括:步骤A1:获取新闻信息的新闻标题、新闻正文、标题附图、正文附图和新闻类别。首先,获取新闻信息的新闻标题和新闻正文,以及标题附图和正文附图,还有新闻类别。新闻类别指的是新闻信息属于哪一类,例如新闻信息属于“娱乐”类别,还是“体育”类别等。步骤A2:对所述新闻标题和新闻正文进行预处理以得到所述新闻信息的文本特征。其中,文本特征主要有新闻标题特征和新闻正文特征。具体的可以对新闻信息的新闻标题及新闻正文进行分词、提取关键词、构建文本特征向量、统计新闻附图信息和统计文本长度等一系列操作。在获取新闻标题特征时,首先可以对新闻标题进行分词,并过滤掉标点符号、代词及介词等,去除噪声,从而得到新闻标题特征。其中,对于分词方法来讲,现有的分词方法可以分为三大类:基于字符串匹配的分词方法、基于理解的分词方法和基于统计的分词方法。而按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与标注相结合的一体化方法。在本申请实施方式中,可以选择现有的任意分词方法进行分词,分词方法的选择并不会影响本实施方式的实现。而新闻正文特征获取时,优选的,可以基于TextRank和T本文档来自技高网...

【技术保护点】
一种计算信息热度值的方法,包括:获取新闻信息的新闻特征;依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值;依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。

【技术特征摘要】
1.一种计算信息热度值的方法,包括:获取新闻信息的新闻特征;依据所述新闻特征确定所述新闻信息的初始热度值、热度矫正值和内容矫正值,其中,所述初始热度值通过疑似热度预测模型进行预测得到,用于表征对所述新闻信息预测的疑似热度;所述热度矫正值用于矫正所述新闻信息的所述初始热度值的时效性;所述内容矫正值用于检测新闻信息的结构,使得矫正后的初始热度值表征一定程度的内容充实性;依据所述初始热度值、热度矫正值和内容矫正值计算所述新闻信息的目标热度值。2.根据权利要求1所述的方法,还包括:依据新闻信息的目标热度值向用户推送满足预设热度阈值的推荐新闻信息。3.根据权利要求1所述的方法,还包括:依据新闻信息的目标热度值确定新闻产品各个栏目中的新闻信息的初始排序,所述初始排序表示新闻信息展示给用户的先后顺序。4.根据权利要求1所述的方法,所述新闻特征包括文本特征、附图特征和新闻类别,所述获取新闻信息的新闻特征包括:获取新闻信息的新闻标题、新闻正文、标题附图、正文附图和新闻类别;对所述新闻标题和新闻正文进行预处理以得到所述新闻信息的文本特征;统计所述标题附图和正文附图的数量作为附图特征。5.根据权利要求4所述的方法,所述依据所述新闻特征确定所述新闻信息的初始热度值,包括:依据新闻热度标签数据从所述新闻特征中提取文本特征向量;所述新闻热度标签数据对应用户和/或媒体对所述新闻信息的反馈情况,所述新闻热度标签数据包括:所述新闻信息的用户点击数、用户评论数、用户转发数、用户点赞数、用户收藏数、用户浏览时间、媒体报道位置和媒体报道数;依据所述新闻信息的新闻类别选取相对应的初始热度预测模型;所述初始热度预测模型与新闻类别相对应且表示文本特征向量和初始热度值之间的函数关系;将所述文本特征向量作为选取的初始热度预测模型的输入,计算得到所述初始热度预测模型的输出作为所述初始热度值。6.根据权利要求4所述的方法,所述依据所述新闻特征确定所述新闻信息的热度矫正值,包括:从量化热词库中查找...

【专利技术属性】
技术研发人员:陈起进潘照明周森
申请(专利权)人:杭州朗和科技有限公司
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1