当前位置: 首页 > 专利查询>吉林大学专利>正文

基于Word2Vec的主题爬虫系统和方法技术方案

技术编号:19215723 阅读:30 留言:0更新日期:2018-10-20 06:43
基于Word2Vec的主题爬虫系统和方法。本发明专利技术公开了一种基于Word2Vec的主题爬虫系统抓取信息的方法,具体步骤包括:步骤1:通过种子配置模块上传种子链接,然后利用关键词模块进行关键词的交互与筛选,之后启动爬虫;步骤2:通过下载模块下载待抓取的URL链接,下载后利用解析模块对网页内容进行解析,包括提取网页正文,全部链接,全部代码,网页类型;步骤3:根据评分模块,利用解析的内容进行页面的主题相关度计算,并给出各个子链接的相关性评分预测。本发明专利技术让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。

【技术实现步骤摘要】
基于Word2Vec的主题爬虫系统和方法
本专利技术涉及互联网
,更具体的说是涉及基于Word2Vec的主题爬虫系统和方法。
技术介绍
近年来,互联网在全球范围快速发展,截至2017年6月,全球网民总数达38.9亿,普及率为51.7%。中国网民规模达7.51亿,互联网普及率为54.3%,中国网站总数达506万个,“.CN”下网站为270万个。互联网的快速发展和Web页面的爆炸式增长一方面让信息能够更加迅速便捷的传播,另一方面也造成了信息过载现象——信息的过于丰富远远超过了个人能够处理的范围,大量无关、冗余的数据直接影响了用户查找目标数据的体验。如何让用户从海量Web页面中迅速获取目标数据正变的愈发重要。在互联网发展初期,以Yahoo为代表的分类目录网站通过人工梳理的方法,将Web上众多优秀网站归类到各个目录中,用户可以通过层层点击的方法查找相关信息。这种方式的优点是能够为用户访问互联网起到导航作用,满足一部分用户宽泛的检索需求,向用户提供数量有限的相关信息。但是对于检索要求更高的用户来说,分类目录网站能够提供的有效检索信息少得可怜,而且由于采用人工分类,分类标准差异性很大,这对用户的检索体验也有很大影响。为了追求更好的检索体验,提高检索质量,通用搜索引擎应运而生。通用搜索引擎利用爬虫程序对互联网网站进行检索,当发现未处理过的网页之后,爬虫系统会尝试提取网页信息并存储到数据库中。用户通过提交查询词进行检索,搜索引擎会将数据库中的网页信息和用户提交的查询词进行比对,将相关度高的信息反馈给用户。通用搜索引擎检索的全面性,准确性和实时性相比于分类目录网站提高了很多。但是针对某一具体主题,通用搜索引擎存在检索目标过大,检索结果中充满了噪音,检索效率极低等问题,无法满足用户在特定领域的检索需求。这些问题主要是由于通用搜索引擎使用的爬虫技术只是简单地将网页爬取下来,在爬行过程中并不关心网页的主题,是泛泛地爬行。面对互联网中无数的网页,爬虫最终爬取到的页面和用户想要了解主题之间相关的概率极低,甚至可能为零。因此,如何提供一种围绕指定主题,尽量避免无关网页的下载,高效精准的爬虫系统和方法是本领域技术人员亟需解决的问题。
技术实现思路
有鉴于此,本专利技术提供了一种基于Word2Vec的主题爬虫系统和方法,让关键词集合之间通过Word2Vec训练出的向量进行相关度比较,有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。为了实现上述目的,本专利技术提供如下技术方案:基于Word2Vec的主题爬虫系统,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;其中,所述种子配置模块依靠人工选取种子链接,将所述种子链接上传至服务器;所述关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;所述下载模块,进行网页下载,并设置超时时间,响应时间大于所述超时间放弃所述网页的下载,然后将下载的所述网页封装成Html对象;所述解析模块,从封装的网页提取信息,并将所述信息赋值给所述Html对象的各个属性;所述评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对链接进行预测评分以便排序;网页被判断为主题相关后会进入所述存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;所述存储模块,有选择的存储网页的ID、链接、标题和正文。需要了解的是:ID是根据网页的下载顺序生成的,每篇网页使用唯一ID进行标识,链接和正文是主题爬虫通常需要存储的内容,存储标题是为了方便后期进行人工判断。进一步,近义词深度等级得选择指选择近义词个数,比如我们想要抓取NBA主题,科比是关键词,设置近义词深度等级为1时,可能推荐的是“湖人队”,二者非常相关,但是当推荐到100的时候,可能是毫不相关的词汇了,比如“手机”之类的,当关键词推荐的越多,其相关度也随之减小,所以这里的近义词深度等级就是近义词个数。优选的,在上述的基于Word2Vec的主题爬虫系统中,所述种子配置模块按行保存种子链接,利用PHP语言,通过POST方式将种子文件上传至服务器;上传后所述服务器判断文件类型,成功上传种子文件继续操作。进一步,上述的种子文件格式包括:txt、excel格式等。通过上述技术方案,本专利技术的技术效果是:为自动的抓取万维网信息的程序或者脚本做准备工作。优选的,在上述的基于Word2Vec的主题爬虫系统中,所述种子文件上传成功后,新的所述种子文件替代所述服务器上原有的种子文件。通过上述技术方案,本专利技术的技术效果是:不同主题的爬虫种子链接有所不同,在每次上传成功后,新的种子文件会替换掉服务器上原有的种子文件。优选的,在上述的基于Word2Vec的主题爬虫系统中,所述关键词模块利用脚本语言获取用户输入的关键词,交给PHP程序后通过SOCKET通信发送给处理程序进行处理,处理程序作为服务端始终处于监听状态,收到前台发送的关键词后,利用Word2Vec对关键词进行扩展,去重后重新发送给PHP程序,并再次利用脚本脚本将其显示在下方的文本域中。进一步,处理程序可以使用多种语言编写,例如Python,Java,C,C++等。通过上述技术方案,本专利技术的技术效果是:扩展关键词能够使完全无关的两个关键词产生联系,便于计算关键词之间的相关度。需要了解的是:扩展后的关键词也可以直接在文本域中进行修改和添加,而且扩展关键词的过程是可以重复的,即用户可以一直对关键词进行修改和扩展操作,直到用户满意为止。优选的,在上述的基于Word2Vec的主题爬虫系统中,所述下载模块利用处理的chardet模块以及urllib模块中的getparam方法判断网页的编码方式,将下载网页统一为utf-8编码方式,下载后的页面封装成自定义的Html类的对象以便后续解析。优选的,在上述的基于Word2Vec的主题爬虫系统中,所述Html对象的各个属性包括:page、content、type和links;其中page用于存储网页的全部代码,content用于存储解析出的网页正文,type用于存储网页类型即主题型或目录型,links存储页面中提取出的全部链接。一种TRCW模型,包括:TRCW模型的具体公式如下:该公式主要用于计算某文档和主题的相关度,具体是通过主题关键词和文档提取出的关键词进行比较计算而得的。其中sim(Kd,Kt)用于计算文档D中某关键词和主题T中某关键词的相关度,ki是文档中第i个关键词的影响因子,需要根据关键词的不同权值设定。公式的思想是将文档的某个关键词分别和主题所有的关键词进行相关度比较,取最大的一个,然后乘以文档的该关键词的影响因子之后求和而得。通过上述技术方案,本专利技术的技术效果是:本专利技术提出的TRCW模型进行文本相关度比较,TRCW模型不需要关键词的完全匹配,所有的词汇之间都利用训练出的词向量计算相关度,得到比较合理的相关度计算结果,由此可以判断文档和主题的相关度。相关度的准确计算有利于主题爬虫在爬行过程中更加精准地获取主题相关页面,进而保持较高的爬行准确率。需要了解的是:所述文档D由一组词条(K1,d,K2,d,…Km,d)构成,对任一词条Ki,d,设定权值wi,d,所述本文档来自技高网
...

【技术保护点】
1.基于Word2Vec的主题爬虫系统,其特征在于,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;其中,所述种子配置模块依靠人工选取种子链接,将所述种子链接上传至服务器;所述关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;所述下载模块,进行网页下载,并设置超时时间,响应时间大于所述超时间放弃所述网页的下载,然后将下载的所述网页封装成Html对象;所述解析模块,从封装的网页提取信息,并将所述信息赋值给所述Html对象的各个属性;所述评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对链接进行预测评分以便排序;网页被判断为主题相关后会进入所述存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;所述存储模块,有选择的存储网页的ID、链接、标题和正文。

【技术特征摘要】
1.基于Word2Vec的主题爬虫系统,其特征在于,包括:种子配置模块、关键词模块、下载模块、解析模块、评分模块和存储模块;其中,所述种子配置模块依靠人工选取种子链接,将所述种子链接上传至服务器;所述关键词模块在浏览器中输入用于描述主题的关键词,然后进行近义词深度等级选择,进行关键词扩展;所述下载模块,进行网页下载,并设置超时时间,响应时间大于所述超时间放弃所述网页的下载,然后将下载的所述网页封装成Html对象;所述解析模块,从封装的网页提取信息,并将所述信息赋值给所述Html对象的各个属性;所述评分模块,用于一是对网页与主题的相关性给予评分以便筛选网页,二是对链接进行预测评分以便排序;网页被判断为主题相关后会进入所述存储模块,若网页被判断为主题无关则直接丢弃;而链接在评分之后会作为待抓取URL等待下一轮的下载;所述存储模块,有选择的存储网页的ID、链接、标题和正文。2.根据权利要求1所述的基于Word2Vec的主题爬虫系统,其特征在于,所述种子配置模块按行保存种子链接,利用PHP语言,通过POST方式将种子文件上传至服务器;上传后所述服务器判断文件类型,成功上传种子文件继续操作。3.根据权利要求2所述的基于Word2Vec的主题爬虫系统,其特征在于,所述种子文件上传成功后,新的所述种子文件替代所述服务器上原有的种子文件。4.根据权利要求1所述的基于Word2Vec的主题爬虫系统,其特征在于,所述关键词模块利用脚本语言获取用户输入的关键词,交给PHP程序后通过SOCKET通信发送给处理程序进行处理,处理程序作为服务端始终处于监听状态,收到前台发送的关键词后,利用Word2Ve...

【专利技术属性】
技术研发人员:彭涛包铁宋健赫枫龄周世奇
申请(专利权)人:吉林大学
类型:发明
国别省市:吉林,22

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1