用于网站的信息聚合方法及装置制造方法及图纸

技术编号:22000382 阅读:27 留言:0更新日期:2019-08-31 05:26
本发明专利技术实施例提供一种用于网站的信息聚合方法,属于信息聚合领域。所述方法包括针对存储的专题词中的每个专题词,执行以下步骤:在搜索引擎中搜索所述专题词,以在搜索结果中获取与所述专题词相关且属于所述网站的前第一数量的资源;获取所述网站内与所述专题词相关的资源中按照最新回复排名的前第二数量的资源;获取所述网站内与所述专题词相关的资源中按照热度排名的前第三数量的资源;以及使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面。其可以使得网站对搜索引擎更友好,从而提高网站的页面权重及排名。

Information Aggregation Method and Device for Website

【技术实现步骤摘要】
用于网站的信息聚合方法及装置
本专利技术涉及信息聚合领域,具体地,涉及用于网站的信息聚合方法及装置。
技术介绍
目前网站的聚合页面虽然具有“分类”、“栏目”、“专题”等聚合页面,但是其内容归类较宽泛、数目较少且分类都比较固定。另外,聚合页面多是由运营人员人工配置生成,生成的聚合页面内容比较固定,且不能实时契合当前时间段的热搜词。
技术实现思路
本专利技术实施例的目的是提供一种用于网站的信息聚合方法及装置,其能够动态地自动生成聚合页面。为了实现上述目的,本专利技术实施例提供一种用于网站的信息聚合方法,所述方法包括针对存储的专题词中的每个专题词,执行以下步骤:在搜索引擎中搜索所述专题词,以在搜索结果中获取与所述专题词相关且属于所述网站的前第一数量的资源;获取所述网站内与所述专题词相关的资源中按照最新回复排名的前第二数量的资源;获取所述网站内与所述专题词相关的资源中按照热度排名的前第三数量的资源;以及使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面。可选的,所述方法还包括针对所述存储的专题词中的所述每个专题词,还执行以下步骤:获取与所述专题词的相关度大于预设相关度的第四数量的专题词;以及获取与所述第四数量的专题词中每一个专题词相关联的聚合页面;使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面包括:对所述第一数量的资源、所述第二数量的资源、所述第三数量的资源、以及与所述第四数量的专题词中每一个专题词相关联的聚合页面中资源进行聚合以得到与所述专题词关联的聚合页面。可选的,所述方法还包括针对所述存储的专题词中的所述每个专题词,还执行以下步骤:将所述专题词作为关键词、将与所述专题词关联的聚合页面作为与所述关键词对应的页面而提交至所述搜索引擎。可选的,根据以下步骤获取所述存储的专题词:每隔预设周期获取所述搜索引擎中的热搜词,其中所述热搜词是指在所述搜索引擎中输入次数排名在前预设名次的词语或短语;对所述热搜词进行分词;过滤分出的词中的敏感词、违禁词以得到专题词;以及对得到的专题词进行存储。可选的,根据以下中的一者或多者来确定所述热度:浏览量、点赞量、回复量、以及转发量。可选的,所述网站是社区网站。相应的,本专利技术实施例还提供一种用于网站的信息聚合装置,针对存储的专题词中的每个专题词,所述装置包括:第一获取模块,用于在搜索引擎中搜索所述专题词,以在搜索结果中获取与所述专题词相关且属于所述网站的前第一数量的资源;第二获取模块,用于获取所述网站内与所述专题词相关的资源中按照最新回复排名的前第二数量的资源;第三获取模块,用于获取所述网站内与所述专题词相关的资源中按照热度排名的前第三数量的资源;以及聚合模块,使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面。可选的,针对存储的专题词中的每个专题词,所述装置还包括:第四获取模块,用于:获取与所述专题词的相关度大于预设相关度的第四数量的专题词;以及获取与所述第四数量的专题词中每一个专题词相关联的聚合页面;所述聚合模块用于对所述第一数量的资源、所述第二数量的资源、所述第三数量的资源、以及与所述第四数量的专题词中每一个专题词相关联的聚合页面中资源进行聚合以得到与所述专题词关联的聚合页面。可选的,针对所述存储的专题词中的所述每个专题词,所述装置还包括:提交模块,用于将所述专题词作为关键词、将与所述专题词关联的聚合页面作为与所述关键词对应的页面而提交至所述搜索引擎。可选的,所述装置还包括:第五获取模块,用于每隔预设周期获取所述搜索引擎中的热搜词,其中所述热搜词是指在所述搜索引擎中输入次数排名在前预设名次的词语或短语;分词模块,用于对所述热搜词进行分词;过滤模块,用于过滤分出的词中的敏感词、违禁词以得到专题词;以及存储模块,用于对得到的专题词进行存储。可选的,根据以下中的一者或多者来确定所述热度:浏览量、点赞量、回复量、以及转发量。可选的,所述网站是社区网站。相应的,本专利技术实施例还提供一种处理器,用于运行程序,其中,所述程序被运行时用于执行:上述的用于网站的信息聚合方法。相应的,本专利技术实施例还提供一种机器可读存储介质,该机器可读存储介质上存储有指令,该指令用于使得机器能够执行:上述的用于网站的信息聚合方法。通过上述技术方案,使用获取的与所述专题词相关且属于所述网站的前第一数量的资源、所述网站内与所述专题词相关的资源中具有最新回复的第二数量的资源、所述网站内与所述专题词相关的资源中热度最高的第三数量的资源动态得到网站中与专题词相关联的聚合页面,使得聚合页面的生成更加方便、快捷。本专利技术实施例的其它特征和优点将在随后的具体实施方式部分予以详细说明。附图说明附图是用来提供对本专利技术实施例的进一步理解,并且构成说明书的一部分,与下面的具体实施方式一起用于解释本专利技术实施例,但并不构成对本专利技术实施例的限制。在附图中:图1示出了根据本专利技术一实施例的用于网站的信息聚合方法的流程示意图;图2示出了根据本专利技术另一实施例的用于社区网站的信息聚合方法的流程示意图;以及图3示出了根据本专利技术一实施例的用于网站的信息聚合装置的结构框图。具体实施方式以下结合附图对本专利技术实施例的具体实施方式进行详细说明。应当理解的是,此处所描述的具体实施方式仅用于说明和解释本专利技术实施例,并不用于限制本专利技术实施例。图1示出了根据本专利技术一实施例的用于网站的信息聚合方法的流程示意图。如图1所示,本专利技术实施例提供一种用于网站的信息聚合方法,所述网站可以是社区网站和门户类型网站、内容服务类型的网站等,所述社区网站例如可以是微博、贴吧、博客等任意的社区网站,所述门户类型网站为搜狐网站等,内容服务类型的网站可以是各种新闻类型的网站等。所述方法包括针对存储的专题词中的每个专题词,执行步骤S110至步骤S140。所述存储的专题词可以通过以下方式获取:首先每隔预设周期获取搜索引擎中的热搜词,热搜词为用户原始输入的词,其是指搜索引擎中输入次数排名在前预设名次的词语或短语,所述预设名次例如可以设置为10、20或30,或其它任何合适的值。所述预设周期例如可以是12小时、1天或2天,或其它任何合适的值。所述热搜词可以包括在PC端搜索的词语,也可以包括在移动端搜索的词语。之后,可以对获取到的热搜词进行分词,分词的目的是将一个长词划分成若干个短词。例如,热搜词为“春晚直播”,则使用分词技术分出的词可以是“春晚”、“春晚直播”等。所使用的分词技术例如可以是字符串匹配的分词方法、语义分词法、统计分词法等任意一种分词技术。进一步,可以对分出词进行过滤,例如过滤出敏感词、违禁词等,从而得到专题词。所使用的过滤算法可以是DFA算法、前缀树算法等等。最后,对得到的专题词进行存储即可获得所述存储的专题词。然后可对存储的专题词中的每个专题词执行步骤S110至步骤S140。在步骤S110,在搜索引擎中搜索所述专题词,以在搜索结果中获取与所述专题词相关且属于所述网站的前第一数量的资源。也就是说,步骤S110是获取搜索引擎中被召回的网站内的前第一数量的资源。可选的在执行步骤S110时,也可以在搜索引擎中同时搜索所述专题词和所述网站,以便快速地从搜索结果中获取前第本文档来自技高网...

【技术保护点】
1.一种用于网站的信息聚合方法,其特征在于,所述方法包括针对存储的专题词中的每个专题词,执行以下步骤:在搜索引擎中搜索所述专题词,以在搜索结果中获取与所述专题词相关且属于所述网站的前第一数量的资源;获取所述网站内与所述专题词相关的资源中按照最新回复排名的前第二数量的资源;获取所述网站内与所述专题词相关的资源中按照热度排名的前第三数量的资源;以及使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面。

【技术特征摘要】
1.一种用于网站的信息聚合方法,其特征在于,所述方法包括针对存储的专题词中的每个专题词,执行以下步骤:在搜索引擎中搜索所述专题词,以在搜索结果中获取与所述专题词相关且属于所述网站的前第一数量的资源;获取所述网站内与所述专题词相关的资源中按照最新回复排名的前第二数量的资源;获取所述网站内与所述专题词相关的资源中按照热度排名的前第三数量的资源;以及使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面。2.根据权利要求1所述的方法,其特征在于,所述方法还包括针对所述存储的专题词中的所述每个专题词,还执行以下步骤:获取与所述专题词的相关度大于预设相关度的第四数量的专题词;以及获取与所述第四数量的专题词中每一个专题词相关联的聚合页面;使用所述第一数量的资源、所述第二数量的资源、以及所述第三数量的资源得到与所述专题词关联的聚合页面包括:对所述第一数量的资源、所述第二数量的资源、所述第三数量的资源、以及与所述第四数量的专题词中每一个专题词相关联的聚合页面中资源进行聚合以得到与所述专题词关联的聚合页面。3.根据权利要求1或2所述的方法,其特征在于,所述方法还包括针对所述存储的专题词中的所述每个专题词,还执行以下步骤:将所述专题词作为关键词、将与所述专题词关联的聚合页面作为与所述关键词对应的页面而提交至所述搜索引擎。4.根据权利要求1所述的方法,其特征在于,根据以下步骤获取所述存储的专题词:每隔预设周期获取所述搜索引擎中的热搜词,其中所述热搜词是指在所述搜索引擎中输入次数排名在前预设名次的词语或短语;对所述热搜词进行分词;过滤分出的词中的敏感词、违禁词以得到专题词;以及对得到的专题词进行存储。5.根据权利要求1所述的方法,其特征在于,根据以下中的一者或多者来确定所述热度:浏览量、点赞量、回复量、以及转发量。6.根据权利要求1所述的方法,其特征在于,所述网站是社区网站。7.一种用于网站的信息聚合装置,其特征在于,针对存储的专题词中的每个专题词,所述装置包括:第一获取模块,用于在搜索引擎中搜索所述专题词,以在搜索结果中...

【专利技术属性】
技术研发人员:王全想
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1