本发明专利技术公开了一种实体信息图谱生成方法及装置,所述方法包括:采集文本文件;根据预先定义的类别名和关系字,从各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;根据所述命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。本发明专利技术能够将非结构化文本数据转化为结构化数据,实现多维复杂的知识图谱。
【技术实现步骤摘要】
本专利技术涉及自然语言处理技术,特别涉及一种实体信息图谱生成方法及相关的装 置。
技术介绍
随着互联网的快速发展,人们面临着信息爆炸,海量信息分散在互联网上,具有碎 片化,多语言和国际化的性质。互联网实际上就像是一个巨大的图书馆,每台连接在网络上 的机算机就像一个个书柜,这个图书馆是没有目录,是动态的,飞速增加的。目前搜索引擎 所作的工作仅仅是按照用户的关键词给出包含用户所查询的关键词相关书本的位置,找出 图书馆中书本的位置,人们往往被淹没在信息的海洋之中。 由于网络的飞速发展使得互联网信息的传播速度呈现几何增长,现有的信息搜集 手段不能满足对于信息的需要。传统的搜索引擎大致可以分为两大类:全文搜索引擎和分 类目录。全文搜索引擎通过Spider/crawlers的软件,自动分析网络上的各种链接并获取 网页信息内容,按规则加以分析整理,记入数据库。谷歌、百度就是比较典型的全文搜索引 擎系统。分类目录则是通过人工的方式收集整理网站资料形成数据库的,比如雅虎中国以 及国内的搜狐、新浪、网易分类目录。 全文搜索引擎的使用以关键词和一定的语法为特点,而分类目录则通过建立多级 目录对网站进行分类。全文搜索引擎因为依靠网络机器人搜集数据,所以数据库的容量非 常庞大,但是,它的查询结果往往不够准确;分类目录依靠人工收集和整理网站,能够提供 更为准确的查询结果,但收集的内容却非常有限,更新慢。 具体地,现有的互联网信息搜索技术(例如百度和谷歌)存在着以下不足: 1.搜索引擎召回的相关信息太多,用户很难定位到所需要的信息; 2.以关键词为基础的搜索,匹配算法尽管简单易行,但停留在语言的表层,没有触 及语义,很难以几个关键词的逻辑组合来表达清楚用户的检索意图; 3.既使得到了正确的结果,也仅仅是各个独立的文章链接,需要用户一一浏览; 4.不能提供文章之间的实体事物关联以及时间关联性,揭示事物内部联系和关 系。 互联网的发展已经成为一个巨大的知识库,可是由于多数信息都是以非结构化数 据存在,人们无法组织利用这一知识成果,所以空拥有信息,没有知识。 随着信息化的飞速发展和互联网接入终端的大规模普及,大量非结构化的文本数 据充斥着互联网,如何从海量信息源中挖掘出有价值的信息是一个巨大的挑战。
技术实现思路
本专利技术的目的在于提供一种实体信息图谱生成方法及装置,能更好地通过挖掘有 用信息从而形成实体信息图谱。 根据本专利技术的一个方面,提供了一种实体信息图谱生成方法,包括: 从本地和/或网络中采集文本文件; 根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别 名相关的命名实体,以及与各个关系字相关的命名实体的属性; 根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处 理,得到各个命名实体之间的实体关系; 根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命 名实体进行绑定; 以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将 分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。 优选地,所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分别 抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤包 括: 通过对从本地和/或网络中采集的文本文件进行分解,得到文本文件的分词及其 词性; 根据所得到的分词及其词性,从所得到的分词中确定与预先定义的各个类别名相 关的命名实体,并确定与预先定义的各个关系字相关的所述命名实体的关系属性; 提取所确定的命名实体,以及命名实体的关系属性。 优选地,在所述的根据预先定义的类别名和关系字,从所采集的各文本文件中分 别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性的步骤之 后,还包括: 将各文本文件中分别抽取的与时间相关的命名实体进行归一化处理,得到时间归 一化的命名实体; 将各文本文件中分别抽取的与地点相关的命名实体进行归一化处理,得到地点归 一化的命名实体。 优选地,所述的根据命名实体的属性,对所采集的各文本文件中的命名实体分别 进行关联性处理,得到各个命名实体之间的实体关系的步骤包括: 在所采集的各文本文件中,确定命名实体及其关系属性在文本文件中的位置; 利用所确定的命名实体及其关系属性在文本文件中的位置,将邻近的命名实体进 行关联,从而得到相关联的命名实体之间的实体关系。 优选地,所述的根据预定义事件名,查找与其有关的命名实体的步骤包括: 在所采集的各文本文件中,确定预定义事件名在文本文件中的位置; 利用所述预定义事件名在文本文件中的位置,从已抽取的命名实体中查找与所述 预定义事件名有关的命名实体。 优选地,所述的以预定义事件名为线索,根据所抽取的命名实体以及所述实体关 系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息 图谱的步骤包括: 根据抽取的命名实体、命名实体之间的实体关系、与命名实体绑定的预定义事件 名,将分散在同一文本文件中的相应信息建立映射,形成同一文本文件的具有不同命名的 各个实体概览; 通过对各个文本文件的实体概览进行消歧处理,将各个文本文件中的具有相同命 名的实体概览进行合并,从而将分散在各个文本文件中的相关信息建立映射,形成跨文本 的各个全局实体概览; 利用所形成的跨文本的各个全局实体概览,形成实体信息图谱。 优选地,所述实体概览包括事件类概览和命名实体类概览,在同一文本文件中,利 用预定义事件名与所找到的命名实体的绑定关系,形成事件类概览,利用所述命名实体及 相应的实体关系,形成命名实体类概览。 优选地,通过确定具有相同命名的实体概览的相似度,对各个文本文件的实体概 览进行消歧处理。 优选地,通过将各个全局实体概览的命名实体作为节点,将各个全局实体概览的 实体关系作为边,形成所述实体信息图谱。 根据本专利技术的另一方面,提供了一种实体信息图谱生成装置,包括: 采集模块,用于从本地和/或网络中采集文本文件; 抽取模块,用于根据预先定义的类别名和关系字,从所采集的各文本文件中分别 抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性; 关联模块,用于根据命名实体的属性,对所采集的各文本文件中的命名实体分别 进行关联性处理,得到各个命名实体之间的实体关系; 绑定模块,用于根据预定义事件名,查找与其有关的命名实体,并将预定义事件名 与查找到的命名实体进行绑定; 聚合模块,用于以所述预定义事件名为线索,根据所抽取的命名实体以及所述实 体关系,通过将所分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实 体信息图谱。 与现有技术相比较,本专利技术的有益效果在于: 本专利技术能够将非结构化文本数据转化为结构化数据,及时、大量、准确的获取用户 需当前第1页1 2 3 4 5 本文档来自技高网...
【技术保护点】
一种实体信息图谱生成方法,其特征在于,包括:从本地和/或网络中采集文本文件;根据预先定义的类别名和关系字,从所采集的各文本文件中分别抽取与各个类别名相关的命名实体,以及与各个关系字相关的命名实体的属性;根据命名实体的属性,对所采集的各文本文件中的命名实体分别进行关联性处理,得到各个命名实体之间的实体关系;根据预定义事件名,查找与其有关的命名实体,并将预定义事件名与查找到的命名实体进行绑定;以所述预定义事件名为线索,根据所抽取的命名实体以及所述实体关系,通过将分散在所述各个文本文件中相关信息建立映射,使其聚合在一起,形成实体信息图谱。
【技术特征摘要】
【专利技术属性】
技术研发人员:李晓戈,李宗海,高剑凌,
申请(专利权)人:济南中林信息科技有限公司,
类型:发明
国别省市:山东;37
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。