一种互联网文本蕴含地理实体关系的抽取方法技术

技术编号:16233218 阅读:143 留言:0更新日期:2017-09-19 14:44
本发明专利技术公开了一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理、文档向量化、权值计算、关键词提取、关系元组构建;输入包含地理实体的网络文本,经过数据预处理抽取地理实体间的空间关系或语义关系,得到网页纯文本和候选关键词;采用词语级别的向量空间模型对文本进行向量化,建立word‑context矩阵;设计了新型的权值计算方法对地理实体进行权值计算;从语境向量中选择权值最大的词语作为关键词,构建关系元组,最后完成地理实体抽取。本发明专利技术提供了基于语义的检索方式,改变了传统依赖关键词的搜索技术;在缺乏大规模标注语料和地理知识库的前提下,能快速抽取地理关系描述词,提高运行效率,大大的降低人工成本。

Method for extracting geographic entity relation contained in Internet text

The invention discloses a geographic entity relationship contains the Internet text extraction method, which comprises the following steps: data preprocessing, document vectorization, weight calculation, keyword extraction and relation tuple construction; network text input contains geographic entities, after data preprocessing of spatial relations and semantic relation extraction between geographical entities, are \pure text and candidate keywords; vector space model is used for text to word level quantization, the establishment of word context matrix; design and calculation method of the new weight calculation of geographical entity; choose the maximum weight words from the context vector as keywords, constructing the relationship between tuples, finally complete the geographical entity extraction. The invention provides a semantic retrieval method based on the change of traditional reliance on keyword search technology; large scale geographic knowledge base and premise of corpus annotation in the absence of rapid extraction, geographical relationship description, improve operational efficiency, reduce labor costs.

【技术实现步骤摘要】
一种互联网文本蕴含地理实体关系的抽取方法
本专利技术涉及一种互联网文本抽取方法,尤其涉及一种互联网文本蕴含地理实体关系的抽取方法。
技术介绍
实体关系抽取研究核心是自动从互联网文本数据中抽取命名实体之间的联系,形成网状关系网络,方便用户查询实体各方面信息。例如“中国大陆阿里巴巴集团董事局主席马云”,可以抽取实体“阿里巴巴”与“马云”是雇佣关系。地理实体关系抽取研究是实体关系研究的子集,目的是从互联网网络文本中抽取地理实体之间的关系。例如:从“遥感所位于地理所的北面”中可以抽取实体“地理所”与“遥感所”,存在方位关系“北面”。地理实体关系通常可以分为空间关系与语义关系。空间关系表示两个空间实体之间的在地理场景中的各种绝对与相对的位置关系,例如“附近”、“相邻”、“远近”等。部分地理实体之间的位置关系是可计算的,例如北京距离济南为500公里,但是不能描述所有的定性的空间关系描述,例如“远近”。如果要准备获取地理实体的实体关系,需要通过文本中进行抽取。地理实体关系抽取是构建地理知识图的研究基础,识别并抽取地理实体间的空间和语义关系,构建铰链的地图数据库,是改善基于位置服务的用户体验的关键。地理信息泛化已成为新地理信息时代重要的发展趋势之一。泛化地理信息更加关注地理实体之间复杂的动态关系,如时变空间关系和语义关系等。而目前国内各大地图数据服务提供商(如四维图新、天地图、百度、高德等)提供的地图数据缺乏地理实体之间的关系描述,千万级的地理实体存储“扁平化”。地理实体存储“扁平化”,地理实体关系描述欠缺,导致地理信息检索依赖于关键词,不能有效发挥基于实体关系的内容搜索的优势。如何快速识别并抽取地理实体间的空间和语义关系,是地理空间信息服务产业发展面临的难题。目前,国内外针对解决实体关系抽取的传统技术方法主要有模式匹配法,监督学习法和频率统计法。模式匹配法需要对关系语料库进行深入分析,人工抽取组织关系模式,这种方法虽然准确性较高,但是需要耗费大量的人力物力,并且不适用于文本大范围关系的抽取;监督学习法在提取速度及准确率上都有所提升,但是该方法需要大规模的人工标注语料,开放文本涉及的文本繁杂,长文本、短文本、网络用语等增加了语料库构建难度,并且人工定义的有限关系类型难以适应文本的快速增长和变化;频率统计法要求表征关系的词语频繁出现,难以适用于稀疏分布的地理实体关系实例。
技术实现思路
为了解决上述技术所存在的不足之处,本专利技术提供了一种互联网文本蕴含地理实体关系的抽取方法。为了解决以上技术问题,本专利技术采用的技术方案是:一种互联网文本蕴含地理实体关系的抽取方法,包括以下步骤:数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;(1)(2)其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;TermFrequency-InverseDocumentFrequency方法记作TF-IDF;PositivePointwiseMutualInformation方法记作PPMI;观察语料得出以下结论:词语的词性、长度和位置在一定程度上反映了它在句中的重要性;描述地理实体间空间和语义关系的词语大多是简短的名词,例如“东边”、“北部”、“别名”,很少使用3个字以上的词语;关系词大多位于句子尾部,部分位于两个地理实体之间,很少位于句首;基于上述特征,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)-(6);(3)(4)(5)(6)其中,为词语词性的权值,词语词性记作;为由词性和长度联合作用的影响因子,为词语wi的长度,、、分别为entityA、entityB、wi在句中的位置编号,为由和位置联合作用的影响因子,为值的绝对值,为Frequency、TF-IDF或PPMI中任意一种权值,为词语wi在语境cj中的权值;关键词提取:经过上述权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应单词在当前语境中的重要性,直接从语境向量中选择权值最大的词语作为关键词,作为每个语境的关系名称;由于每个语境与地理实体对绑定,关键词提取后,即可得到地理实体对的关系;关系元组构建:每个句子提取关键词之后,首先将它与句中的一对地理实体组成一个关系三元组,如公式(7);其中,为句子k存在的关系,和为句子k中的一对地理实体;该三元组的形式将语义关系实例作为属性表达式,用于描述地理实体指定类型的属性值;再采用自适应多元组,将空间关系实例作为位置表达式,描述地理实体间的空间关系和语义关系:若句中存在数量词,且位于entityB右边的3个窗口内,则提取该数量词和单位;根据关键词在句中的位置,按照句子原始的逻辑调整元组中各元素的顺序,并自适应地确定关系的维度以自动补齐数量词,如公式(8);为句子k中描述地理实体关系的数量词;当表示非度量关系时,该元素省去。(7)(8)数据预处理的步骤包括:网页爬取、正文提取、分句、中文分词和词性标注、地理实体识别、语境构建;网页爬取:获取包含地理实体的网络文本,从网络文本中抽取两个地理实体间的空间关系或语义关系;以现有地名数据库中的元素为地理实体,以地理实体为关键词,逐一在搜索引擎中查询相关HTML网页,爬取HTML网页内容作为地理实体关系抽取的原始语料;正文提取:将上述爬取到的HTML网页找到相应的网页正文,对网页正文所在的位置进行处理,提取出网页正文纯文本;分句:将网页正文纯文本拆分成句子,然后以逗号“,”、分号“;”、句号“。”、省略号“…”做为分割点将句子分割成多个子句,并采用简单的规则自动补齐句子中被省略或者替代的主语;对于没有查询词条的句子,若句首是“它”或者“她”,则将其替换成查询的词条,否则在句首添加查询的词条;中文分词和词性标注:采用StanfodCoreNLP集成套件对纯文本进行中文分词和词性标注;过滤掉与语义表达无关的停用词,包括标点、字符和虚词;地理实体识别:对纯文本进行中文分词和词性标注之后,使用StanfodCoreNLP集成套件识别命名句子中的地理实体,再将标签LOC、GPE和ORG替换为GEO,最后合并多个连续的GEO为一个地理实体;语境构建:过滤停用词之后,将句中除地理实体对以外的所有名词、动词和介词作为语境,语境中的词语称为候选关键词本文档来自技高网
...
一种互联网文本蕴含地理实体关系的抽取方法

【技术保护点】
一种互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述抽取方法包括以下步骤:数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)‑(2)计算方法建立词语‑语境矩阵,即word‑context矩阵;

【技术特征摘要】
1.一种互联网文本蕴含地理实体关系的抽取方法,其特征在于:所述抽取方法包括以下步骤:数据预处理:输入包含地理实体的网络文本,抽取地理实体间的空间关系或语义关系,得到原始语料,进一步得到原始语料对应的网页正文文本;对上述网页正文文本进行预处理得到候选关键词;文档向量化:上述网页正文文本进行预处理之后,对文本进行相关的数学计算;采用词语级别的向量空间模型对文本进行向量化,按照下述公式(1)-(2)计算方法建立词语-语境矩阵,即word-context矩阵;(1)(2)其中,C为所有语境的集合,语境的总数为N;语境是一系列词汇的集合;cj为词汇集合W的向量(j=1,2,…,N),向量cj中的元素wij为第i个词语wi在第j个语境中的权值(i=1,2,…,v);权值计算:将输入的网络文本中的地理实体与句子中的其它地理实体组成一对,记作entityA和entityB;假设一对地理实体间隔越远语义越弱,当一对地理实体之间的词语个数大于5时,两者没有关系,不予处理;常用权值计算方法有三种,统计wi在cj中出现的次数方法,记作Frequency;TermFrequency-InverseDocumentFrequency方法记作TF-IDF;PositivePointwiseMutualInformation方法记作PPMI;观察语料得出以下结论:词语的词性、长度和位置在一定程度上反映了它在句中的重要性;描述地理实体间空间和语义关系的词语大多是简短的名词,例如“东边”、“北部”、“别名”,很少使用3个字以上的词语;关系词大多位于句子尾部,部分位于两个地理实体之间,很少位于句首;基于上述特征,提出以下假设:名词的权值更大;词语越短,权值越大;词语距离entityB越远,权值越大;基于以上假设,设计了新的权值计算方法,如公式(3)-(6);(3)(4)(5)(6)其中,为词语词性的权值,词语词性记作;为由词性和长度联合作用的影响因子,为词语wi的长度,、、分别为entityA、entityB、wi在句中的位置编号,为由和位置联合作用的影响因子,为值的绝对值,为Frequency、TF-IDF或PPMI中任意一种权值,为词语wi在语境cj中的权值;关键词提取:经过上述权值计算得到word-context权值矩阵;每个语境向量中的数字,即矩阵里的行中的数字体现了对应...

【专利技术属性】
技术研发人员:陆锋余丽张恒才彭澎仇培元牟乃夏
申请(专利权)人:中国科学院地理科学与资源研究所
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1