一种扩充数据来源网站的方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:34565544 阅读:21 留言:0更新日期:2022-08-17 12:55
本发明专利技术公开一种扩充数据来源网站的方法、装置、计算机设备和存储介质,采用正向和/或反向扩充数据来源网站;所述正向扩充为先提取与现有数据来源网站的特征相似度高的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中;所述反向扩充为根据目标资讯的内容搜索刊登了相同资讯和/或相似资讯的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中。本发明专利技术技术方案采用正向扩充和/或反向扩充的方式,能够更快的查找到更多的目标数据来源网站,扩充数据来源网站的数量。扩充数据来源网站的数量。扩充数据来源网站的数量。

【技术实现步骤摘要】
一种扩充数据来源网站的方法、装置、计算机设备和存储介质


[0001]本专利技术涉及互联网
,特别涉及多一种扩充数据来源网站的方法、装置、计算机设备和存储介质。

技术介绍

[0002]资讯抓取平台在互联网上抓取资讯的过程中,数据来源网站的数量决定了获取资讯的数量。数据来源网站之间存在相关性,例如均关注商机方面的资讯;从多个相关的数据来源网站抓取资讯,有利于获取相关主题的最新资讯。目前,缺乏一种扩展数据来源的方法和装置,帮助资讯抓取平台在抓取资讯时,可以快速的、有效的扩展数据来源网站。

技术实现思路

[0003]为解决上述技术问题,本专利技术提供一种扩充数据来源网站的方法,能够快速的、有效的查找到更多目标数据来源网站。
[0004]本专利技术为一种扩充数据来源网站的方法,采用正向和/或反向扩充所述目标数据来源网站;正向扩充为先提取与现有数据来源网站的特征相似度高的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中;反向扩充为为根据目标资讯的内容搜索刊登了相同资讯和/或相似资讯的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中。
[0005]进一步的,所述正向扩充具体为:根据需要扩充数据来源的特征主题,在现有数据来源网站中确定若干符合所述特征主题的参考数据来源网站;将所述符合特征主题的参考数据来源网站输入推荐同类网站的工具型网站,筛选重合率或相似度达到预设百分比以上的网站作为潜在的目标数据来源网站;对所述潜在的目标数据来源网站进行判断,将符合标准的潜在目标数据来源网站添加到现有数据来源网站的列表中。
[0006]进一步的,对所述潜在的目标数据来源网站进行判断,具体包括:判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题强相关;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站;或者判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题中等相关;如果满足,判断所述潜在目标数据来源中与所述特征主题资讯相关的栏目每日能更新的资讯数量是否大于预设数量;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站。
[0007]进一步的,所述反向扩充具体为:
根据选定的特征主题确定目标资讯和参考数据来源网站,在搜索引擎中搜索目标资讯,获取刊登了相同资讯和/或相似资讯的网站清单,得到潜在目标数据来源网站;对所述潜在的目标数据来源网站进行判断,将符合标准的潜在目标数据来源加入现有数据来源网站的列表中。
[0008]进一步的,对所述潜在目标数据来源的质量进行评判,具体包括:判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题强相关;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站;或者判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题中等相关;如果满足,判断所述潜在目标数据来源中与所述特征主题资讯相关的栏目每日能更新的资讯数量是否大于预设数量;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站。
[0009]本申请还提供一种扩充数据来源网站的装置,包括:正向扩充模块和/或反向扩充模块,所述正向扩充模块和/或反向扩充模块用于扩充目标数据来源网站;所述正向扩充模块为先提取与现有数据来源网站的特征相似度高的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中;所述反向扩充模块为为根据目标资讯的内容搜索刊登了相同资讯和/或相似资讯的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中。
[0010]进一步的,所述正向扩充模块包括:第一查找单元,所述第一查找单元根据需要扩充数据来源的特征主题,在现有数据来源网站中确定若干符合所述特征主题的参考数据来源网站;潜在目标数据来源网站查找单元,所述潜在目标数据来源网站查找单元将所述符合特征主题的参考数据来源网站输入推荐同类网站的工具型网站,筛选重合率或相似度达到预设百分比以上的网站作为潜在的目标数据来源网站;质量评判单元,所述质量评判单元对所述潜在的目标数据来源网站进行判断,将符合标准的潜在目标数据来源网站添加到现有数据来源网站的列表中。
[0011]进一步的,所述质量评判单元对所述潜在的目标数据来源网站进行判断,具体包括:判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题强相关;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站;或者判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题中等相关;如果满足,判断所述潜在目标数据来源中与所述特征主题资讯相关的栏目每日能更新的资讯数量是否大于预设数量;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站。
[0012]进一步的,所述反向扩充模块包括:
刊登平台查找单元,所述刊登平台查找单元根据选定的特征主题确定目标资讯和参考数据来源网站,在搜索引擎中搜索目标资讯,获取刊登了相同资讯和/或相似资讯的网站清单,得到潜在目标数据来源网站;质量评判单元,所述质量评判单元对所述潜在的目标数据来源网站进行判断,将符合标准的潜在目标数据来源加入现有数据来源网站的列表中。
[0013]进一步的,所述质量评判单元对所述潜在的目标数据来源网站进行判断,具体包括:判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题强相关;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站;或者判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题中等相关;如果满足,判断所述潜在目标数据来源中与所述特征主题资讯相关的栏目每日能更新的资讯数量是否大于预设数量;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源为符合要求的目标数据来源网站。
[0014]本申请还提供一种计算机可读存储介质,所述计算机可读存储介质包括存储的计算机程序;其中,所述计算机程序在运行时控制所述计算机可读存储介质所在的设备执行上述扩充数据来源网站的方法。
[0015]本申请还提供一种终端设备,包括处理器、存储器以及存储在所述存储器中且被配置为由所述处理器执行的计算机程序,所述处理器在执行所述计算机程序时实现上述扩充数据来源网站的方法。
[0016]本专利技术具备如下有益效果:本专利技术技术方案采用正向扩充和/或反向扩充的方式,能够更快的查找到更多的目本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种扩充数据来源网站的方法,其特征在于,采用正向和/或反向扩充所述数据来源网站;所述正向扩充为先提取与现有数据来源网站的特征相似度高的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中;所述反向扩充为根据目标资讯的内容搜索刊登了相同资讯和/或相似资讯的网站作为潜在的目标数据来源网站,再从中筛选出高质量的目标数据来源网站,添加到现有数据来源网站列表中。2.根据权利要求1所述的一种扩充数据来源网站的方法,其特征在于,所述正向扩充具体为:根据需要扩充数据来源的特征主题,在现有数据来源网站中确定若干符合所述特征主题的参考数据来源网站;将所述符合特征主题的参考数据来源网站输入推荐同类网站的工具型网站,筛选重合率或相似度达到预设百分比以上的网站作为潜在的目标数据来源网站;对所述潜在的目标数据来源网站进行判断,将符合标准的潜在目标数据来源网站添加到现有数据来源网站的列表中。3.根据权利要求1所述的一种扩充数据来源网站的方法,其特征在于,判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题强相关;如果满足,判断所述潜在目标数据来源的日均访问量是否达到预设人次;如果满足,则判定该潜在目标数据来源网站为符合要求的目标数据来源网站;或者判断所述潜在目标数据来源网站中资讯的主题是否与所述特征主题中等相关;如果满足,判断所述潜在目标数据来源网站中与所述特征主题资讯相关的栏目每日能更新的资讯数量是否大于预设数量;如果满足,判断所述潜在目标数据来源网站的日均访问量是否达到预设人次,如果满足,则判定该潜在目标数据来源网站为符合要求的目标数据来源网站。4.根据权利要求1所述的一种扩充数据来源网站的方法,其特征在于,所述反向扩充具体为:根据选定的特征主题确定目标资讯和参考数据来源网站,在搜索引擎中搜索目标资讯,获取刊登了相同资讯和/或相似资讯的网站清单,得到潜在目标数据来源网站;对所述潜在的目标数据来源网站进行判断,将符合标准的潜在目标数据来源网站加入现有数据来源网站的列表中。5.根据权利要求4所述的一种扩充数据来源网站的方法,其特征在于,所述对所述潜在的目标数据来源网站进行判断如权利要求3中判定过程。6.一种扩充数据来源网站的...

【专利技术属性】
技术研发人员:夏正新王东传邓鹏李鹏
申请(专利权)人:南京一盏神灯网络信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1