一种互联网文本蕴含地理实体关系的抽取方法技术

技术编号：16233218 阅读：143 留言：0更新日期：2017-09-19 14:44

本发明专利技术公开了一种互联网文本蕴含地理实体关系的抽取方法，包括以下步骤：数据预处理、文档向量化、权值计算、关键词提取、关系元组构建；输入包含地理实体的网络文本，经过数据预处理抽取地理实体间的空间关系或语义关系，得到网页纯文本和候选关键词；采用词语级别的向量空间模型对文本进行向量化，建立word‑context矩阵；设计了新型的权值计算方法对地理实体进行权值计算；从语境向量中选择权值最大的词语作为关键词，构建关系元组，最后完成地理实体抽取。本发明专利技术提供了基于语义的检索方式，改变了传统依赖关键词的搜索技术；在缺乏大规模标注语料和地理知识库的前提下，能快速抽取地理关系描述词，提高运行效率，大大的降低人工成本。

Method for extracting geographic entity relation contained in Internet text

The invention discloses a geographic entity relationship contains the Internet text extraction method, which comprises the following steps: data preprocessing, document vectorization, weight calculation, keyword extraction and relation tuple construction; network text input contains geographic entities, after data preprocessing of spatial relations and semantic relation extraction between geographical entities, are \pure text and candidate keywords; vector space model is used for text to word level quantization, the establishment of word context matrix; design and calculation method of the new weight calculation of geographical entity; choose the maximum weight words from the context vector as keywords, constructing the relationship between tuples, finally complete the geographical entity extraction. The invention provides a semantic retrieval method based on the change of traditional reliance on keyword search technology; large scale geographic knowledge base and premise of corpus annotation in the absence of rapid extraction, geographical relationship description, improve operational efficiency, reduce labor costs.

全部详细技术资料下载

【技术实现步骤摘要】
一种互联网文本蕴含地理实体关系的抽取方法
本专利技术涉及一种互联网文本抽取方法，尤其涉及一种互联网文本蕴含地理实体关系的抽取方法。
技术介绍
实体关系抽取研究核心是自动从互联网文本数据中抽取命名实体之间的联系，形成网状关系网络，方便用户查询实体各方面信息。例如“中国大陆阿里巴巴集团董事局主席马云”，可以抽取实体“阿里巴巴”与“马云”是雇佣关系。地理实体关系抽取研究是实体关系研究的子集，目的是从互联网网络文本中抽取地理实体之间的关系。例如：从“遥感所位于地理所的北面”中可以抽取实体“地理所”与“遥感所”，存在方位关系“北面”。地理实体关系通常可以分为空间关系与语义关系。空间关系表示两个空间实体之间的在地理场景中的各种绝对与相对的位置关系，例如“附近”、“相邻”、“远近”等。部分地理实体之间的位置关系是可计算的，例如北京距离济南为500公里，但是不能描述所有的定性的空间关系描述，例如“远近”。如果要准备获取地理实体的实体关系，需要通过文本中进行抽取。地理实体关系抽取是构建地理知识图的研究基础，识别并抽取地理实体间的空间和语义关系，构建铰链的地图数据库，是改善基于位置服务的用户体验的关键。地理信息泛化已成为新地理信息时代重要的发展趋势之一。泛化地理信息更加关注地理实体之间复杂的动态关系，如时变空间关系和语义关系等。而目前国内各大地图数据服务提供商（如四维图新、天地图、百度、高德等）提供的地图数据缺乏地理实体之间的关系描述，千万级的地理实体存储“扁平化”。地理实体存储“扁平化”，地理实体关系描述欠缺，导致地理信息检索依赖于关键词，不能有效发挥基于实体关系的内容搜索...
一种互联网文本蕴含地理实体关系的抽取方法

【技术保护点】
一种互联网文本蕴含地理实体关系的抽取方法，其特征在于：所述抽取方法包括以下步骤：数据预处理：输入包含地理实体的网络文本，抽取地理实体间的空间关系或语义关系，得到原始语料，进一步得到原始语料对应的网页正文文本；对上述网页正文文本进行预处理得到候选关键词；文档向量化：上述网页正文文本进行预处理之后，对文本进行相关的数学计算；采用词语级别的向量空间模型对文本进行向量化，按照下述公式（1）‑（2）计算方法建立词语‑语境矩阵，即word‑context矩阵；

【技术特征摘要】
1.一种互联网文本蕴含地理实体关系的抽取方法，其特征在于：所述抽取方法包括以下步骤：数据预处理：输入包含地理实体的网络文本，抽取地理实体间的空间关系或语义关系，得到原始语料，进一步得到原始语料对应的网页正文文本；对上述网页正文文本进行预处理得到候选关键词；文档向量化：上述网页正文文本进行预处理之后，对文本进行相关的数学计算；采用词语级别的向量空间模型对文本进行向量化，按照下述公式（1）-（2）计算方法建立词语-语境矩阵，即word-context矩阵；(1)(2)其中，C为所有语境的集合，语境的总数为N；语境是一系列词汇的集合；cj为词汇集合W的向量（j=1，2，…，N），向量cj中的元素wij为第i个词语wi在第j个语境中的权值（i=1，2，…，v）；权值计算：将输入的网络文本中的地理实体与句子中的其它地理实体组成一对，记作entityA和entityB；假设一对地理实体间隔越远语义越弱，当一对地理实体之间的词语个数大于5时，两者没有关系，不予处理；常用权值计算方法有三种，统计wi在cj中出现的次数方法，记作Frequency；TermFrequency-InverseDocumentFrequency方法记作TF-IDF；PositivePointwiseMutualInformation方法记作PPMI；观察语料得出以下结论：词语的词性、长度和位置在一定程度上反映了它在句中的重要性；描述地理实体间空间和语义关系的词语大多是简短的名词，例如“东边”、“北部”、“别名”，很少使用3个字以上的词语；关系词大多位于句子尾部，部分位于两个地理实体之间，很少位于句首；基于上述特征，提出以下假设：名词的权值更大；词语越短，权值越大；词语距离entityB越远，权值越大；基于以上假设，设计了新的权值计算方法，如公式（3）-（6）；（3）（4）（5）（6）其中，为词语词性的权值，词语词性记作；为由词性和长度联合作用的影响因子，为词语wi的长度，、、分别为entityA、entityB、wi在句中的位置编号，为由和位置联合作用的影响因子，为值的绝对值，为Frequency、TF-IDF或PPMI中任意一种权值，为词语wi在语境cj中的权值；关键词提取：经过上述权值计算得到word-context权值矩阵；每个语境向量中的数字，即矩阵里的行中的数字体现了对应...

【专利技术属性】
技术研发人员：陆锋，余丽，张恒才，彭澎，仇培元，牟乃夏，
申请(专利权)人：中国科学院地理科学与资源研究所，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人