一种实体信息图谱生成方法及装置制造方法及图纸

技术编号：13124604 阅读：106 留言：0更新日期：2016-04-06 12:16

本发明专利技术公开了一种实体信息图谱生成方法及装置，所述方法包括：采集文本文件；根据预先定义的类别名和关系字，从各文本文件中分别抽取与各个类别名相关的命名实体，以及与各个关系字相关的命名实体的属性；根据所述命名实体的属性，对所采集的各文本文件中的命名实体分别进行关联性处理，得到各个命名实体之间的实体关系；根据预定义事件名，查找与其有关的命名实体，并将预定义事件名与查找到的命名实体进行绑定；以所述预定义事件名为线索，根据所抽取的命名实体以及所述实体关系，通过将分散在所述各个文本文件中相关信息建立映射，使其聚合在一起，形成实体信息图谱。本发明专利技术能够将非结构化文本数据转化为结构化数据，实现多维复杂的知识图谱。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理技术，特别涉及一种实体信息图谱生成方法及相关的装置。
技术介绍
随着互联网的快速发展，人们面临着信息爆炸，海量信息分散在互联网上，具有碎片化，多语言和国际化的性质。互联网实际上就像是一个巨大的图书馆，每台连接在网络上的机算机就像一个个书柜，这个图书馆是没有目录，是动态的，飞速增加的。目前搜索引擎所作的工作仅仅是按照用户的关键词给出包含用户所查询的关键词相关书本的位置，找出图书馆中书本的位置，人们往往被淹没在信息的海洋之中。由于网络的飞速发展使得互联网信息的传播速度呈现几何增长，现有的信息搜集手段不能满足对于信息的需要。传统的搜索引擎大致可以分为两大类：全文搜索引擎和分类目录。全文搜索引擎通过Spider/crawlers的软件，自动分析网络上的各种链接并获取网页信息内容，按规则加以分析整理，记入数据库。谷歌、百度就是比较典型的全文搜索引擎系统。分类目录则是通过人工的方式收集整理网站资料形成数据库的，比如雅虎中国以及国内的搜狐、新浪、网易分类目录。全文搜索引擎的使用以关键词和一定的语法为特点，而分类目录则通过建立多级目录对网站进行分类。全文搜索引擎因为依靠网络机器人搜集数据，所以数据库的容量非常庞大，但是，它的查询结果往往不够准确；分类目录依靠人工收集和整理网站，能够提供更为准确的查询结果，但收集的内容却非常有限，更新慢。具体地，现有的互联网信息搜索技术（例如百度和谷歌）存在着以下不足： 1.搜索引擎召回的相关信息太多，用户很难定位到所需要的信息； 2.以关键词为基础的搜索，匹配算法尽管...

【技术保护点】
一种实体信息图谱生成方法，其特征在于，包括：从本地和/或网络中采集文本文件；根据预先定义的类别名和关系字，从所采集的各文本文件中分别抽取与各个类别名相关的命名实体，以及与各个关系字相关的命名实体的属性；根据命名实体的属性，对所采集的各文本文件中的命名实体分别进行关联性处理，得到各个命名实体之间的实体关系；根据预定义事件名，查找与其有关的命名实体，并将预定义事件名与查找到的命名实体进行绑定；以所述预定义事件名为线索，根据所抽取的命名实体以及所述实体关系，通过将分散在所述各个文本文件中相关信息建立映射，使其聚合在一起，形成实体信息图谱。

【技术特征摘要】

【专利技术属性】
技术研发人员：李晓戈，李宗海，高剑凌，
申请(专利权)人：济南中林信息科技有限公司，
类型：发明
国别省市：山东;37

全部详细技术资料下载我是这个专利的主人