知识获取方法、装置、电子设备及可读存储介质制造方法及图纸

技术编号:29054285 阅读:18 留言:0更新日期:2021-06-26 06:23
本公开公开了知识获取方法、装置、电子设备及可读存储介质,涉及知识图谱、自然语言处理、深度学习及智慧医疗等人工智能领域,其中的方法可包括:针对待抽取的类型的SPO知识,确定识别模式,所述识别模式包括:S、P和O的识别顺序,以及,S、P和O分别对应的识别方式;按照确定出的识别模式,从作为数据源的文本中抽取出所述类型的SPO知识。应用本公开所述方案,可节省人力和时间成本等。省人力和时间成本等。省人力和时间成本等。

【技术实现步骤摘要】
知识获取方法、装置、电子设备及可读存储介质


[0001]本公开涉及人工智能
,特别涉及知识图谱、自然语言处理、深度学习及智慧医疗等领域的知识获取方法、装置、电子设备及可读存储介质。

技术介绍

[0002]医疗知识图谱在智慧医疗的数值化以及智能化中起到了重要作用。其中,主谓宾(SPO,Subject Predicate Object)知识的获取(或称为抽取、挖掘等)作为医疗知识图谱构建的基础,直接关系到构建出的医疗知识图谱的质量。
[0003]在医疗领域中,数据源多是无结构化的,且面向较多的专业知识。目前,通常采用人工标注生成SPO知识的方式,但这种方式需要耗费较大的人力和时间成本等。

技术实现思路

[0004]本公开提供了知识获取方法、装置、电子设备及可读存储介质。
[0005]一种知识获取方法,包括:
[0006]针对待抽取的类型的主谓宾SPO知识,确定识别模式,所述识别模式包括:S、P和O的识别顺序,以及,S、P和O分别对应的识别方式;
[0007]按照所述识别模式,从作为数据源的文本中抽取出所述类型的SPO知识。
[0008]一种知识获取装置,包括:模式确定模块以及知识抽取模块;
[0009]所述模式确定模块,用于针对待抽取的类型的主谓宾SPO知识,确定识别模式,所述识别模式包括:S、P和O的识别顺序,以及,S、P和O分别对应的识别方式;
[0010]所述知识抽取模块,用于按照所述识别模式,从作为数据源的文本中抽取出所述类型的SPO知识。
[0011]一种电子设备,包括:
[0012]至少一个处理器;以及
[0013]与所述至少一个处理器通信连接的存储器;其中,
[0014]所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行如以上所述的方法。
[0015]一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使计算机执行如以上所述的方法。
[0016]一种计算机程序产品,包括计算机程序,所述计算机程序在被处理器执行时实现如以上所述的方法。
[0017]上述公开中的一个实施例具有如下优点或有益效果:可针对待抽取的类型的SPO知识,确定出识别模式,并可按照确定出的识别模式,从作为数据源的文本中抽取出所述类型的SPO知识,从而减少了人为操作,进而节省了人力和时间成本等。
[0018]应当理解,本部分所描述的内容并非旨在标识本公开的实施例的关键或重要特征,也不用于限制本公开的范围。本公开的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0019]附图用于更好地理解本方案,不构成对本公开的限定。其中:
[0020]图1为本公开所述知识获取方法实施例的流程图;
[0021]图2为本公开所述从文本中抽取SPO知识的过程示意图;
[0022]图3为本公开所述质量控制过程的示意图;
[0023]图4为本公开所述知识获取的整体过程示意图;
[0024]图5为本公开所述知识获取装置第一实施例50的组成结构示意图;
[0025]图6为本公开所述知识获取装置第二实施例60的组成结构示意图;
[0026]图7示出了可以用来实施本公开的实施例的示例电子设备700的示意性框图。
具体实施方式
[0027]以下结合附图对本公开的示范性实施例做出说明,其中包括本公开实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本公开的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0028]另外,应理解,本文中术语“和/或”,仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。
[0029]图1为本公开所述知识获取方法实施例的流程图。如图1所示,包括以下具体实现方式。
[0030]在步骤101中,针对待抽取的类型的SPO知识,确定识别模式,识别模式包括:主语(S,Subject)、谓语(P,Predicate)和宾语(O,Object)的识别顺序,以及,S、P和O分别对应的识别方式。
[0031]在步骤102中,按照确定出的识别模式,从作为数据源的文本中抽取出所述类型的SPO知识。
[0032]可以看出,上述方法实施例所述方案中,可针对待抽取的类型的SPO知识,确定出识别模式,并可按照确定出的识别模式,从作为数据源的文本中抽取出所述类型的SPO知识,从而减少了人为操作,进而节省了人力和时间成本,抽取出的SPO知识可用于进行知识图谱的构建,从而提升了图谱构建效率等。
[0033]优选地,所述知识图谱可为医疗知识图谱,相应地,所述SPO知识可为医疗领域的SPO知识。
[0034]本公开中对于如何获取作为数据源的文本不作限制。比如,作为数据源的文本可包括医学权威书籍和公开的医疗信息等。
[0035]对于作为数据源的文本,还可对其进行预处理,所述预处理可包括以下之一或全部:格式转换,层级解析。
[0036]在实际应用中,不同数据源的微小变化都可能会对后续的SPO知识获取造成较大的影响,为此,可对作为数据源的文本进行预处理,以简化后续处理逻辑及提升后续处理结果的准确性等。
[0037]比如,对于获取到的医疗信息,可对其进行格式转换,即转换为统一的格式,如统
一的结构化格式。再比如,对于医学权威书籍,可对其进行层级解析,书籍的标题等层级信息中包含了大量的语义信息,为了更合理地使用这些知识内容,可对书籍内容进行细粒度的层级解析,从而得到包含书籍中的各层级信息的文本数据。
[0038]上述仅为举例说明,并不用于限制本公开的技术方案,所述预处理具体包括哪些内容可根据实际需要而定,比如,还可对格式转换后的文本进行噪声数据清洗等。
[0039]基于上述预处理后的文本,可进行SPO知识的抽取,即针对待抽取的类型的SPO知识,可确定出识别模式,识别模式可包括:S、P和O的识别顺序及分别对应的识别方式等,并可按照确定出的识别模式,从文本中抽取出所述类型的SPO知识。
[0040]本公开中,可采用串行的元素识别方式,即按照识别顺序,分别从文本中识别出S、P和O,识别出各元素之后,可拼接成SPO三元组即SPO知识输出。
[0041]SPO知识的类型即指S、P和O三个元素的类型/内容,比如,S为疾病,P为症状,O为具体症状内容。对于某一条SPO知识,假设S为疾病A,P为症状,那么O则为疾病A的具体症状内容,如腹部疼痛等。
[0042]本公开所述方案中,针对待抽取的类型的SPO知识,可首先获取根据文本由人工标注生成的所述类本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种知识获取方法,包括:针对待抽取的类型的主谓宾SPO知识,确定识别模式,所述识别模式包括:主语S、谓语P和宾语O的识别顺序,以及,S、P和O分别对应的识别方式;按照所述识别模式,从作为数据源的文本中抽取出所述类型的SPO知识。2.根据权利要求1所述的方法,还包括:在从所述文本中抽取出所述类型的SPO知识之前,对所述文本进行预处理,所述预处理包括以下至少之一:格式转换,层级解析。3.根据权利要求1所述的方法,还包括:获取根据所述文本由人工标注生成的所述类型的M条SPO知识,M为大于一的正整数;其中,所述识别模式包括:根据所述M条SPO知识确定出的识别模式。4.根据权利要求3所述的方法,还包括:从抽取出的SPO知识中抽样出部分SPO知识;分别获取抽样出的各SPO知识的正确性评估结果;利用评估为正确的SPO知识对所述识别模式进行优化。5.根据权利要求1所述的方法,其中,所述识别方式包括以下至少之一:样式识别方式,多模匹配方式,命名实体识别方式,槽填充方式。6.根据权利要求1所述的方法,还包括:分别对抽取出的各SPO知识进行质量评估;将评估结果为高质量的SPO知识作为最终所抽取的SPO知识,所述评估结果包括:高质量和低质量。7.根据权利要求6所述的方法,其中,所述分别对抽取出的各SPO知识进行质量评估包括:针对抽取出的任一SPO知识,分别基于预先设定的评估规则,确定出所述SPO知识为高质量的SPO知识或低质量的SPO知识;或者,针对抽取出的任一SPO知识,分别利用预先训练得到的评估模型,对所述SPO知识进行评分,若所述评分大于预先设定的阈值,则确定所述SPO知识为高质量的SPO知识,否则,确定所述SPO知识为低质量的SPO知识。8.根据权利要求7所述的方法,还包括:对于任一低质量的SPO知识,分别获取人工对于所述SPO知识的评估结果,若为高质量,则将所述SPO知识作为最终所抽取的SPO知识。9.一种知识获取装置,包括:模式确定模块以及知识抽取模块;所述模式确定模块,用于针对待抽取的类型的主谓宾SPO知识,确定识别模式,所述识别模式包括:主语S、谓语P和宾语O的识别顺序,以及,S、P和O分别对应的识别方式;所述知识抽取模块,用于按照所述识别模式,从作为数据源的文本中抽取出所述类型的SPO知识。10.根据权利要求9所述的装置,还包括:预处理模块;所述预处理模块,用于...

【专利技术属性】
技术研发人员:李舰李千史亚冰蒋烨柴春光朱勇
申请(专利权)人:北京百度网讯科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1