一种基于网络爬虫的学术机构地理位置信息抽取方法技术

技术编号：26730737 阅读：47 留言：0更新日期：2020-12-15 14:31

本发明专利技术公开了一种基于网络爬虫的学术机构地理位置信息提取方法，涉及数据挖掘领域，包括搜索引擎搜索学术机构名称；获取学术机构官网以及维基百科页面；分析官网域名；解析维基百科页面；地名字典查询。本发明专利技术采用的模版规则可以快速抽取海量数据中的机构‑地理位置的实体关系，同时保持较为均衡的准确率和召回率，进一步提供准确有效的学术机构统计数据。

全部详细技术资料下载

【技术实现步骤摘要】
一种基于网络爬虫的学术机构地理位置信息抽取方法
本专利技术涉及数据挖掘领域，尤其涉及一种基于网络爬虫的学术机构地理位置信息抽取方法。
技术介绍
近年来，越来越多基于学术网络的应用和产品出现。学术机构是学术网络中重要的实体之一，与论文作者伴随出现，可以由此分析学术机构的实力、合作关系以及国家和地区间学术力量的对比。从海量的论文数据中可以建立作者、文章之间的联系，但是并不包括学术机构本身的层级结构、地理位置、创建时间等信息，给很多统计工作带来了麻烦。当前构建学术网络的方法主要通过综合各个出版社所公开的学术论文数据，包括论文数据中论文标题、简介、作者及所属机构、发表会议或期刊、发布时间、引用关系等。其中对于学术机构的信息较少，尤其是随着国际化的发展，很难通过作者名得知学术机构所属国家甚至城市，严重影响了许多重要的统计结果。而各类综合学术机构信息的网站往往只能覆盖一部分学术机构，因此通过网络爬虫直接获取相关信息更加可靠。在抽取非结构性文本中的地理位置信息这一问题上已经有了诸多研究和实用方法。一般而言，抽取工作主要分为两个阶段：从文本中选出可能是地名的候选词，然后通过外部地理词典进行查询。针对某一对象为了更准确地提取其地理信息，需要进行实体之间的关系提取。关系提取通过分析句子成分、获取句子中每个组分之间的依赖关系，主要使用动词表达两个或多个实体之间的关系。因此，本领域的技术人员致力于开发一种基于网络爬虫的学术机构地理位置信息抽取方法。
技术实现思路
有鉴于现有技术的上述缺陷，本专利技...

【技术保护点】
1.一种基于网络爬虫的学术机构地理位置信息提取方法，其特征在于，所述方法包括以下步骤：/n步骤1、搜索引擎搜索学术机构名称；/n步骤2、获取学术机构官网以及维基百科页面；/n步骤3、分析官网域名；/n步骤4、解析维基百科页面；/n步骤5、地名字典查询。/n

【技术特征摘要】
1.一种基于网络爬虫的学术机构地理位置信息提取方法，其特征在于，所述方法包括以下步骤：
步骤1、搜索引擎搜索学术机构名称；
步骤2、获取学术机构官网以及维基百科页面；
步骤3、分析官网域名；
步骤4、解析维基百科页面；
步骤5、地名字典查询。

2.如权利要求1所述的基于网络爬虫的学术机构地理位置信息提取方法，其特征在于，所述步骤1中使用爬虫技术获取谷歌搜索api和维基百科搜索api结果。

3.如权利要求1所述的基于网络爬虫的学术机构地理位置信息提取方法，其特征在于，所述步骤4中使用关系抽取方法获得机构地理位置信息。

4.如权利要求1所述的基于网络爬虫的学术机构地理位置信息提取方法，其特征在于，所述步骤5中使用geonames的数据构建地名词典，包括所属国家、所属行政区域划分和类别，并判断出现的复数地名是包含关系还是并列关系。

5.如权利要求3所述的基于网络爬虫的学术机构地理位置信息提取方法，其特征在于，所述步骤4中使用的关系抽取方法包括以下步骤：
4.1、对文本进行分句并识别句子中的实体；
4.2、计算句子成分...

【专利技术属性】
技术研发人员：沈雪乔，陈贵海，
申请(专利权)人：上海交通大学，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人