本发明专利技术公开了一种知识网络节点间属性关系生成系统及生成方法。该生成系统包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库,其中首先将预定领域的非结构化文本通过去标签模块进行预处理,然后由分词引擎对处理后的文本进行分词处理,形成有确切语义的词汇;词汇输入规则引擎中,规则引擎调用规则库中的规则,对知识网络节点之间的属性关系进行判别,并将判别后的结果输入知识网络库中。利用本发明专利技术可以通过机器生成的方式获得知识网络节点间的属性关系,从而解决由人工生成预定领域的知识网络节点间属性关系存在的工作量大、更新不及时的问题。
【技术实现步骤摘要】
本专利技术涉及一种知识网络节点间属性关系的生成系统及生成方法,尤其涉及一种针对预定领域的知识网络,基于规则组合实现的知识网络节点间属性关系生成系统及生成方法,属于信息抽取
技术介绍
随着互联网的发展,一个典型的信息抽取应用是从无结构化或者半结构化的文本中,通过信息抽取技术提取人们所感兴趣的内容,并以结构化的形式,例如关系数据库形式或者XML形式保存下来。从应用的广泛程度以及研究的深入程度来看,信息抽取技术主要包含两个方面命名实体识别技术和实体关系抽取技术。命名实体识别技术的目标是识别文本中包含的各种命名实体,比如人名、地名、公司组织名和时间短语等等。而实体关系抽取技术的目标主要是发现和识别隐含在实体与实体之间的关系。目前,人们利用知识网络来研究人及企业间的知识传播、合作及创新行为,表示各类知识资源,分析个人及组织知识体系的结构、组成等。其中,知识网络节点是组成知识网络的基本单元,具有独立性、继承性、变异性、多维性等特点。知识网络节点可以多向成簇。即每一个知识网络节点都可同其他知识网络节点通过多种多样的形象、属性、关系相连,这种多维性来源于构成知识网络节点的知识单元内在构成元素、结构和外在形态的多元性。因此,在构建知识网络的过程中,生成并利用知识网络节点间的属性关系是一项十分重要的工作。但是,利用人工生成预定领域的知识网络节点间属性关系存在工作量大、更新不及时的问题,亟需采取技术措施加以解决。生成知识网络节点间属性关系的关键在于命名实体的关系挖掘,即上述的实体关系抽取技术。在这一领域内,目前有多种不同的技术方案。例如深圳腾讯公司在公开号为102129427A的中国专利技术专利申请中,公开了一种词关系挖掘方法和装置。该方法包括获取两个词条之间的候选关系、所述候选关系的频度以及所述词条的词频;根据所述候选关系、所述频度及所述词频获取互信息的统计值和对数似然比的统计值;根据所述互信息的统计值和所述对数似然比的统计值获取可信度归一值;根据所述可信度归一值进行排序,将符合预设阈值的候选关系作为词关系输出。该技术方案的实质是统计判别,即在指定两个词间的备选关系中判别,从而提高了挖掘的词关系的正确率,改善了用户的使用体验。目前,现有的实体关系抽取技术仍然面临着很多困难。例如成熟的信息抽取系统往往采用模式匹配的方法,因而只能局限于某些特定的实体类型和实体关系类型或者只能局限于某些特定的领域。而采用统计学习的信息抽取系统,往往局限于对文本浅层特征的利用以及依赖于少量特定领域的训练文本,使得它们的效果不尽如人意。
技术实现思路
本专利技术所要解决的技术问题在于提供一种知识网络节点间属性关系生成系统及生成方法。为实现上述的专利技术目的,本专利技术采用下述的技术方案一种知识网络节点间属性生成系统,包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库;所述非结构化文本库与所述去标签模块连接,所述去标签模块连接所述分词引擎,所述分词引擎与所述规则引擎连接,所述规则引擎分别与所述规则库和所述知识网络库连接;所述分词引擎向所述规则引擎提供有确切语义的词汇;所述规则引擎从所述规则库中获得进行属性关系判断的规则,对所述词汇生成知识网络节点间的属性关系,并将知识网络节点以及知识网络节点之间的属性关系存储在所述知识网络库中。其中较优地,所述知识网络节点间属性生成系统中还包括辅助概念树;所述辅助概念树与所述规则库连接,用于向所述规则库提供知识支持。其中较优地,在所述知识网络库中,所述知识网络节点拥有预定领域知识术语的词形及预定领域的类别属性。其中较优地,在所述知识网络库中,所述知识网络节点之间的属性关系通过节点之间的关系边表不。一种知识网络节点间属性生成方法,基于上述的知识网络节点间属性生成系统实现,其中首先将预定领域的非结构化文本通过去标签模块进行预处理,然后由分词引擎对处理后的文本进行分词处理,形成有确切语义的词汇;所述词汇输入规则引擎中,所述规则引擎调用规则库中的规则,对知识网络节点之间的属性关系进行判别,并将判别后的结果输入知识网络库中。其中较优地,在所述规则库中,利用规则组合的方式表达预定的逻辑判断。其中较优地,所述规则引擎选择所述规则库中需要激活的规则,并按照预定的顺序运行所激活的规则。利用本专利技术可以通过机器生成的方式获得知识网络节点间的属性关系,从而解决由人工生成预定领域的知识网络节点间属性关系存在的工作量大、更新不及时的问题,有效节省人工创建的时间、节约创建的成本。附图说明图1是本专利技术所提供的知识网络节点间属性关系生成系统的结构示意图;图2是一个医药领域的知识网络示例图;图3是图2所示的医药领域知识网络中,知识网络节点的示例图;图4是图2所示的医药领域知识网络中,知识网络节点间属性关系的生成界面示例图;图5是本知识网络节点间属性关系生成方法中,属性表达方式的示意图。具体实施例方式下面结合附图和具体实施例,对本专利技术所采用的技术方案做进一步的详细说明。本专利技术提供了一种针对预定领域的知识网络,基于规则组合的知识网络节点间属性关系生成系统,同时也提供了相应的知识网络节点间属性关系生成方法。如图1所示,该知识网络节点间属性关系生成系统包括非结构化文本库、去标签模块、分词引擎、规则库、辅助概念树、规则引擎和知识网络库等,其中非结构化文本库作为属性关系挖掘的训练集,可以从预定领域相关的网页上直接采集任意文本。去标签模块与非结构化文本库连接,从中接收非结构化的任意文本并完成相应的文本标签去除任务,形成整洁有意义的文本。分词引擎连接去标签模块,将经去标签模块预处理后的文本进行分词处理,生成有确切语义的词汇。该分词引擎连接规则引擎,规则引擎分别与规则库和知识网络库进行连接。规则库用于存储大量属性关系的判别规则,是规则引擎进行属性关系判断的支撑单元。该规则库与辅助概念树进行连接。辅助概念树是规则库的知识支持,用以构建灵活的规则组合。上述规则引擎是由通过分词处理的数据驱动的逻辑判断引擎。该规则引擎利用所激活的规则,实现高效的属性关系判断。知识网络库用于存储预定领域的知识网络节点以及由规则引擎识别出的知识网络节点之间的属性关系。上述去标签模块、分词引擎等可以采用计算机自然语言处理领域的成熟算法,以软件或者固件方式实现。非结构化文本库、规则库、辅助概念树和知识网络库等可以以非易失性存储器方式实现。这些是本领域技术人员都能掌握的惯用技术手段,在此就不详细说明了。生成知识网络节点间属性关系是通过规则形式表达,应用规则引擎实现的逻辑判断。在知识网络库中的初始内容中,知识网络节点是预定领域,例如医药领域、天文领域、环境领域等的知识点。这些知识网络节点拥有预定领域知识术语的词形及预定领域的类别属性。这些词形和类别属性是后续进行规则判断的必须部分。例如图2显示了一个医药领域的知识网络库示例,其中初始的知识网络节点是医药领域相关的类别名称节点,例如有检查项目、疾病症状、药品、疾病部位、病因、疾病名称等。每个类别名称节点下,又有各自的子节点,指向具体的子节点。图3是图2所示的医药领域知识网络中,知识网络节点的示例图。其中疾病类别节点下的子节点,指向各个具体的疾病名称。在生成知识网络节点间属性关系的过程中,首先将从预定领域相关的网页上直接采集的非结构化文本文档来自技高网...
【技术保护点】
一种知识网络节点间属性生成系统,其特征在于:所述知识网络节点间属性生成系统包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库;所述非结构化文本库与所述去标签模块连接,所述去标签模块连接所述分词引擎,所述分词引擎与所述规则引擎连接,所述规则引擎分别与所述规则库和所述知识网络库连接;所述分词引擎向所述规则引擎提供有确切语义的词汇;所述规则引擎从所述规则库中获得进行属性关系判断的规则,对所述词汇生成知识网络节点间的属性关系,并将知识网络节点以及知识网络节点之间的属性关系存储在所述知识网络库中。
【技术特征摘要】
1.一种知识网络节点间属性生成系统,其特征在于 所述知识网络节点间属性生成系统包括非结构化文本库、去标签模块、分词引擎、规则库、规则引擎和知识网络库; 所述非结构化文本库与所述去标签模块连接,所述去标签模块连接所述分词引擎,所述分词引擎与所述规则引擎连接,所述规则引擎分别与所述规则库和所述知识网络库连接; 所述分词引擎向所述规则引擎提供有确切语义的词汇; 所述规则引擎从所述规则库中获得进行属性关系判断的规则,对所述词汇生成知识网络节点间的属性关系,并将知识网络节点以及知识网络节点之间的属性关系存储在所述知识网络库中。2.如权利要求1所述的知识网络节点间属性生成系统,其特征在于 所述知识网络节点间属性生成系统中还包括辅助概念树;所述辅助概念树与所述规则库连接,用于向所述规则库提供知识支持。3.如权利要求1所述的知识网络节点间属性生成系统,其特征在于 在所述知识网络库中,所述知识网...
【专利技术属性】
技术研发人员:杨伟锋,宋传宝,张作职,
申请(专利权)人:北京海量融通软件技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。