基于命名实体库的在线知识地图制造技术

技术编号:15727666 阅读:89 留言:0更新日期:2017-06-30 15:31
本发明专利技术公开了基于命名实体库的在线知识地图,包括以下步骤:步骤1)爬取网页,向整个互联网爬取网页信息,得到互联网数据集;步骤2)抽取命名实体;步骤3)寻找属性词,遍历步骤1中的互联网数据集,建立命名实体与属性词关系集合;步骤4)量化信息,量化属性集合中属性词与命名实体之间的关联关系;步骤5)建立知识地图,通过命名实体关联的属性词集之间的关系,建立命名实体与命名实体之间的拓扑结构,形成知识地图;步骤6)更新。本发明专利技术从海量新增网页文本信息中抽取命名实体,自动地建立实体节点与节点之间的关联关系,根据知识节点及其之间的关联关系建立知识地图,并能高效地实现知识地图的更新。

【技术实现步骤摘要】
基于命名实体库的在线知识地图
本专利技术涉及一种制作知识地图的方法,具体涉及一种基于命名实体库的在线知识地图。
技术介绍
知识地图最早由英国情报学家B·C·布鲁克斯在《情报学基础》中提出情报学的真正任务是组织、加工和整理客官知识,绘制以各个知识单元为节点的知识地图。随着知识管理研究的发展,知识地步作为一种组织和管理的重要工具得到了广泛地研究,被应用于知识审计、知识组织、知识门户、知识评价、知识体系等诸多方面。目前国内外在知识地图的生成技术方面主要有以下几个方面:迪吉科技有限公司的贺嘉生在2002提出了一种“知识地图的建立、编辑、检索与对应网络上信息内容的编辑方法”【CN1448863A】,依据不同的知识范畴,建立一套向现有知识地图中新增知识节点名称、描述、父节点、型态识别码的方法,接住输入节点识别码修改或删除知识地图中的节点名称及节点描述,最终利用知识地图进行搜寻、分类、编辑、检索,使所汇集的知识、信息图书馆化。T.H.Ong等人在2005年提出了“Newsmap:一种在线新闻的知识地图(Newsmap:Aknowledgemapforonlinenews)”(DecisionSupportSystem,Vol.39,pp.583-597,Apr.2005),通过生成层次化知识地图的可视化技术成功的展示了商业和医疗的新闻知识。Duen-RenLiu等人在2008年提出一种“复合电子服务的知识地图:一种基于挖掘与建议耦合的系统平台(Knowledgemapsforcompositee-services:AMining-basedsystemplatformcouplingwithrecommendations)”(ExpertSystemwithApplication,34,pp.700-716,2008)使用系统记录中抽取知识模式,辅以数据挖掘技术构建知识地图。上海交通大学的王英林等人在2011年提出了一种“基于本体的知识地图绘制系统”【CN102184194A】包括本体知识库、知识地图标示层和知识地图管理层。该技术以本体数据库的图形结构作为基本数据结构,通过对知识概念和知识关联的抽取表达来实现对不同知识地图的创建需求,并以XML形式输出到知识地图显示系统中。其中本体知识库存储通用知识及知识见的关系,知识地图表示层和本体知识库项链,并用抽象的知识节点代替知识库中的具体知识概念,知识关联引入复合运算,知识地图管理层与知识地图标示层项链管理抽象知识和复合知识关联的定义并存储到独立的数据库中实现知识地图的生成。华中科技大学的金海教授等人在2012年提出了“一种基于维基百科构建概念型知识地图的方法”【CN102609449A】从维基百科全文数据中抽取知识文档并分析其知识信息存入数据库,以知识节点格式描述将数据库中的知识转化为概念知识节点和类别知识节点,并建立索引提供基于关键字的知识检索。铭传大学的卢阳正等人在2012年提出的“制作知识地图的方法”【CN103106232A】以词汇为中心,知识地图包含词汇(t)、多个关联词汇(s)及相互间权重(w),通过建立关联知识集{(t,s,w)}提供查询服务。通过词汇关联和知识集筛选,用K-mouns算法将关联词汇分组,输出知识地图。这些知识地图的生成技术需要一个特定的文档集或者关系数据库中抽取出特定方面的信息,每次构建知识地图时需要重新收集和挖掘必要的信息,面对快速发展的互联网信息很难达到高效地添加新知识,实现高效地知识地图的更新。
技术实现思路
本专利技术的目的在于克服现有技术存在的以上问题,提供一种一种基于命名实体库的在线知识地图,本专利技术从海量新增网页文本信息中抽取命名实体,自动地建立实体节点与节点之间的关联关系,根据知识节点及其之间的关联关系建立知识地图,并能高效地实现知识地图的更新。为实现上述技术目的,达到上述技术效果,本专利技术通过以下技术方案实现:基于命名实体库的在线知识地图的生成方法,包括以下步骤:步骤1)爬取网页,向整个互联网爬取网页信息,得到互联网数据集;步骤2)抽取命名实体,对互联网数据集的内容进行识别和抽取,得到命名实体;步骤3)寻找属性词,遍历步骤1中的互联网数据集,寻找命名实体与属性对,建立与命名实体相关的属性集合;步骤4)量化信息,量化属性集合中属性词与命名实体之间的关联关系,使命名实体关联属性词集;步骤5)建立知识地图,通过命名实体关联的属性词集之间的关系,建立命名实体与命名实体之间的拓扑结构,形成知识地图。步骤6)更新,在固定周期内对拓补结构进行更新。2、进一步的,所述互联网数据集的内容包括结构化信息、半结构化与非结构化信息。进一步的,遍历所述步骤2中互联网数据集的文档,对每个文档标签中的关键字进行判别,如果为是则存储至本地,否则忽略继续判别。进一步的,所述步骤3包括以下过程:(a1)遍历互联网数据集,以命名实体为中心,寻找出与命名实体相关联的属性词;(a2)建立属性词与命名实体间的关联关系,形成一个命名实体对应一个属性集合。进一步的,所述步骤4的量化信息具体为将不同命名实体对应的不同属性集合之间相同的部分进行整合并关联,建立不同属性集合之间的关联关系。进一步的,所述步骤6包括以下过程:(b1)重新爬取网页,向整个互联网爬取网页信息,得到最新的互联网数据集;(b2)抽取命名实体,对最新的互联网数据集的内容进行识别并抽取,得到命名实体;(b3)寻找属性词,遍历最新的互联网数据集,寻找命名实体与属性对,建立新的命名实体与属性集合;(b4)对步骤5中的拓扑结构进行更新,将新的命名实体与属性集合和步骤3中命名实体与属性集合进行对比,首先对比命名实体,一致则对比属性集合,不一致则将新的命名实体加入知识地图中并存储至本地,属性集合对比一致则继续对比,不一致则将新的属性集合加入知识地图中关联与之相对应的命名实体并保存至本地;(b5)量化信息,量化更新后的属性集合中属性词的与命名实体之间的关联关系,使命名实体关联属性词集,完成更新。本专利技术的有益效果是:本专利技术知识地图的节点来自于命名实体,命名实体间的关系来自于命名实体的属性,通过建立属性间的关联关系,将建立实体与实体之间的关系和权重,最终建立知识地图,其中本专利技术完全基于一个开放的互联网信息平台,通过分析知识节点的属性之间的集合关系建立知识节点之间的关联关系和层次关系,通过分析知识节点间的关系频率和空间位置来制定传递函数。该专利技术可以更好地实现新知识地图的生成、知识地图内新节点的衔接、知识节点内容的更新等操作。上述说明仅是本专利技术技术方案的概述,为了能够更清楚了解本专利技术的技术手段,并可依照说明书的内容予以实施,以下以本专利技术的较佳实施例并配合附图详细说明如后。本专利技术的具体实施方式由以下实施例及其附图详细给出。附图说明此处所说明的附图用来提供对本专利技术的进一步理解,构成本申请的一部分,本专利技术的示意性实施例及其说明用于解释本专利技术,并不构成对本专利技术的不当限定。在附图中:图1是本专利技术的整体结构流程示意图;图2是本专利技术的实施例的拓补结构示意图。具体实施方式下面将参考附图并结合实施例,来详细说明本专利技术。参照图1所示,基于命名实体库的在线知识地图,本实施例主要面向医疗数据方面,医疗体系的命名实体包括疾病、药品、医院、患者、医生等名本文档来自技高网
...
基于命名实体库的在线知识地图

【技术保护点】
基于命名实体库的在线知识地图的生成方法,其特征在于:包括以下步骤:步骤1:爬取网页,向整个互联网爬取网页信息,得到互联网数据集;步骤2:抽取命名实体,对互联网数据集的内容进行识别和抽取,得到命名实体;步骤3:寻找并建立集合,遍历步骤1中的互联网数据集,寻找命名实体与属性对,建立与命名实体相关的属性集合;步骤4:量化信息,量化属性集合中属性词与命名实体之间的关联关系,使命名实体关联属性词集;步骤5:建立知识地图,通过命名实体关联的属性词集之间的关系,建立命名实体与命名实体之间的拓扑结构,形成知识地图;步骤6:更新,在设定周期内对拓扑结构进行更新;所述步骤6包括以下过程:(b1)重新爬取网页,向整个互联网爬取网页信息,得到最新的互联网数据集;(b2)抽取命名实体,对最新的互联网数据集的内容进行识别并抽取,得到命名实体;(b3)寻找属性词,遍历最新的互联网数据集,寻找命名实体与属性对,建立新的命名实体与属性集合;(b4)对步骤5中的拓扑结构进行更新,将新的命名实体与属性集合和步骤3中命名实体与属性集合进行对比,首先对比命名实体,一致则对比属性集合,不一致则将新的命名实体加入知识地图中并存储至本地,属性集合对比一致则继续对比,不一致则将新的属性集合加入知识地图中关联与之相对应的命名实体并保存至本地;(b5)量化信息,量化更新后的属性集合中属性词与命名实体之间的关联关系,使命名实体关联属性词集,完成更新。...

【技术特征摘要】
1.基于命名实体库的在线知识地图的生成方法,其特征在于:包括以下步骤:步骤1:爬取网页,向整个互联网爬取网页信息,得到互联网数据集;步骤2:抽取命名实体,对互联网数据集的内容进行识别和抽取,得到命名实体;步骤3:寻找并建立集合,遍历步骤1中的互联网数据集,寻找命名实体与属性对,建立与命名实体相关的属性集合;步骤4:量化信息,量化属性集合中属性词与命名实体之间的关联关系,使命名实体关联属性词集;步骤5:建立知识地图,通过命名实体关联的属性词集之间的关系,建立命名实体与命名实体之间的拓扑结构,形成知识地图;步骤6:更新,在设定周期内对拓扑结构进行更新;所述步骤6包括以下过程:(b1)重新爬取网页,向整个互联网爬取网页信息,得到最新的互联网数据集;(b2)抽取命名实体,对最新的互联网数据集的内容进行识别并抽取,得到命名实体;(b3)寻找属性词,遍历最新的互联网数据集,寻找命名实体与属性对,建立新的命名实体与属性集合;(b4)对步骤5中的拓扑结构进行更新,将新的命名实体与属性集合和步骤3中命名实体与属性集合进行对比,首先对比命名实体,一致则对比属性集合,不一致则将新的命名实体加入...

【专利技术属性】
技术研发人员:李华康过敏意沈耀
申请(专利权)人:南京提坦信息科技有限公司
类型:发明
国别省市:江苏,32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1