一种基于网络爬虫的学术机构地理位置信息抽取方法技术

技术编号:26730737 阅读:40 留言:0更新日期:2020-12-15 14:31
本发明专利技术公开了一种基于网络爬虫的学术机构地理位置信息提取方法,涉及数据挖掘领域,包括搜索引擎搜索学术机构名称;获取学术机构官网以及维基百科页面;分析官网域名;解析维基百科页面;地名字典查询。本发明专利技术采用的模版规则可以快速抽取海量数据中的机构‑地理位置的实体关系,同时保持较为均衡的准确率和召回率,进一步提供准确有效的学术机构统计数据。

【技术实现步骤摘要】
一种基于网络爬虫的学术机构地理位置信息抽取方法
本专利技术涉及数据挖掘领域,尤其涉及一种基于网络爬虫的学术机构地理位置信息抽取方法。
技术介绍
近年来,越来越多基于学术网络的应用和产品出现。学术机构是学术网络中重要的实体之一,与论文作者伴随出现,可以由此分析学术机构的实力、合作关系以及国家和地区间学术力量的对比。从海量的论文数据中可以建立作者、文章之间的联系,但是并不包括学术机构本身的层级结构、地理位置、创建时间等信息,给很多统计工作带来了麻烦。当前构建学术网络的方法主要通过综合各个出版社所公开的学术论文数据,包括论文数据中论文标题、简介、作者及所属机构、发表会议或期刊、发布时间、引用关系等。其中对于学术机构的信息较少,尤其是随着国际化的发展,很难通过作者名得知学术机构所属国家甚至城市,严重影响了许多重要的统计结果。而各类综合学术机构信息的网站往往只能覆盖一部分学术机构,因此通过网络爬虫直接获取相关信息更加可靠。在抽取非结构性文本中的地理位置信息这一问题上已经有了诸多研究和实用方法。一般而言,抽取工作主要分为两个阶段:从文本中选出可能是地名的候选词,然后通过外部地理词典进行查询。针对某一对象为了更准确地提取其地理信息,需要进行实体之间的关系提取。关系提取通过分析句子成分、获取句子中每个组分之间的依赖关系,主要使用动词表达两个或多个实体之间的关系。因此,本领域的技术人员致力于开发一种基于网络爬虫的学术机构地理位置信息抽取方法。
技术实现思路
有鉴于现有技术的上述缺陷,本专利技术所要解决的技术问题是如何有效补足在构建学术网络时出现的学术机构信息缺失问题,如何快速抽取海量数据中的机构-地理位置的实体关系,同时保持较为均衡的准确率和召回率。为实现上述目的,本专利技术提供了一种基于网络爬虫的学术机构地理位置信息抽取方法,包括如下步骤:步骤1、搜索引擎搜索学术机构名称;步骤2、获取学术机构官网以及维基百科页面;步骤3、分析官网域名;步骤4、解析维基百科页面;步骤5、地名字典查询。进一步地,所述步骤1中使用爬虫技术获取谷歌搜索api和维基百科搜索api结果。进一步地,所述步骤4中使用关系抽取方法获得机构地理位置信息。进一步地,所述步骤5中使用geonames的数据构建地名词典,包括所属国家、所属行政区域划分和类别,并判断出现的复数地名是包含关系还是并列关系。进一步地,所述步骤4中使用的关系抽取方法还包括以下步骤:4.1、对文本进行分句并识别句子中的实体;4.2、计算句子成分的语法依赖树;4.3、获得关系二元组;4.4、利用模版规则进行模式匹配,获得关系三元组;4.5、综合关系三元组和关系二元组,得到机构地理位置。进一步地,所述步骤4.1中使用spaCy进行分句和实体识别。进一步地,所述步骤4.2中通过spaCy识别语法成分之间的依赖关系,通过计算语法成分构成的图中最短路径获得实体间的依赖关系。进一步地,所述步骤4.3中通过实体间的依赖关系获得关系二元组。进一步地,所述步骤4.4中通过人工确定的基于词法和正则表达式的规则进行模版匹配。进一步地,所述步骤4.5中优先使用关系三元组表达的地理位置信息,当缺失关系三元组时使用关系二元组信息。技术效果:1、本专利技术能有效补足在构建学术网络时出现的学术机构信息缺失问题,并可以进一步提供准确有效的学术机构统计数据。2、本专利技术采用的模版规则可以快速抽取海量数据中的机构-地理位置的实体关系,同时保持较为均衡的准确率和召回率。以下将结合附图对本专利技术的构思、具体结构及产生的技术效果作进一步说明,以充分地了解本专利技术的目的、特征和效果。附图说明图1是本专利技术的一个较佳实施例的地理位置信息抽取总流程图;图2是本专利技术的一个较佳实施例的语句实体关系抽取流程图。具体实施方式以下参考说明书附图介绍本专利技术的优选实施例,使其
技术实现思路
更加清楚和便于理解。本专利技术可以通过许多不同形式的实施例来得以体现,本专利技术的保护范围并非仅限于文中提到的实施例。如图1所示,基于网络爬虫的学术机构地理位置信息提取框架,包括如下步骤:步骤1,搜索引擎搜索学术机构名称;步骤2,获取学术机构官网以及维基百科页面;步骤3,分析官网域名;步骤4,解析维基百科页面;步骤5,地名字典查询。其中,步骤1中使用爬虫获取谷歌搜索api和维基百科搜索api结果。对于单一ip,谷歌搜索对查询数量和间隔时间都有限制,而维基百科api无限制。谷歌搜索一般可以在前几个搜索结果中找到机构官方网站或者维基百科界面,有可能会有一些机构介绍网站、房地产网站、爬虫钓鱼网站混入,一定程度上可以通过分析网址模式过滤。对于维基百科,如果没有机构名称对应的页面则需要用搜索功能,在返回结果中找到与机构名称最接近的标题页面。对于比较有名的机构,维基页面侧边会有INFObox简要描述了机构的地理位置、创建日期、所在地址等结构化信息,不过模版并不统一。维基搜索的页面中的外部链接部分也可能有机构官网网址的引用。对于搜索不到官网或者维基百科页面的机构,采用搜索“Address+机构名”的方法从搜索引擎返回结果的网页描述中获取包含机构位置信息的文本待处理。步骤2中使用xml解析器得到页面结构和非结构文本信息。步骤3中使用GeoIP查询官网域名所在国家信息。部分官网网址使用的是国家及地区顶级域名(如.cn,.au等)或者二级域名(如.co.uk,.co.jp等),以此判断机构所在国家。对于使用通用顶级域(如.gov,.edu,.com)的官网网址,可以获取通过geoip等工具可以将官网域名解析成ip后推断大致地理位置,不过由于许多机构会选择将网站建立在可靠的网页托管服务平台上,这些平台常常不在本国(如美国、英国、荷兰等地),因此以此获得的地理位置信息较不准确。步骤4中使用关系抽取方法获得机构地理位置信息步骤5中使用geonames的数据构建地名词典,包括所属国家、所属一级或二级行政区域划分、类别(如城市、乡镇、人口聚集区、行政区域等)。地名常常被表示成层次结构,如Toyota,Aichi,Japan或者inthegroundsofBouchoutCastleinthetownofMeise,justnorthofBrusselsintheprovinceofFlemishBrabant,通过对同一句中相邻的地理实体的国家、所在一二级行政区域以及地理层级查找,判断是并列关系还是包含关系,并对具有包含关系的地理实体进行合并,可以得到准确的地点。例如WhiteCity在美国是常见人口聚集区的名字,但WhiteCity,WestLondon就可以确定是英国首都伦敦的一个地区。如图2所示,步骤4中关系抽取方法包括以下步骤:子步骤1,对文本进行分句并识别句子中的实体;子本文档来自技高网
...

【技术保护点】
1.一种基于网络爬虫的学术机构地理位置信息提取方法,其特征在于,所述方法包括以下步骤:/n步骤1、搜索引擎搜索学术机构名称;/n步骤2、获取学术机构官网以及维基百科页面;/n步骤3、分析官网域名;/n步骤4、解析维基百科页面;/n步骤5、地名字典查询。/n

【技术特征摘要】
1.一种基于网络爬虫的学术机构地理位置信息提取方法,其特征在于,所述方法包括以下步骤:
步骤1、搜索引擎搜索学术机构名称;
步骤2、获取学术机构官网以及维基百科页面;
步骤3、分析官网域名;
步骤4、解析维基百科页面;
步骤5、地名字典查询。


2.如权利要求1所述的基于网络爬虫的学术机构地理位置信息提取方法,其特征在于,所述步骤1中使用爬虫技术获取谷歌搜索api和维基百科搜索api结果。


3.如权利要求1所述的基于网络爬虫的学术机构地理位置信息提取方法,其特征在于,所述步骤4中使用关系抽取方法获得机构地理位置信息。


4.如权利要求1所述的基于网络爬虫的学术机构地理位置信息提取方法,其特征在于,所述步骤5中使用geonames的数据构建地名词典,包括所属国家、所属行政区域划分和类别,并判断出现的复数地名是包含关系还是并列关系。


5.如权利要求3所述的基于网络爬虫的学术机构地理位置信息提取方法,其特征在于,所述步骤4中使用的关系抽取方法包括以下步骤:
4.1、对文本进行分句并识别句子中的实体;
4.2、计算句子成分...

【专利技术属性】
技术研发人员:沈雪乔陈贵海
申请(专利权)人:上海交通大学
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1