System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于知识图谱嵌入与关键词的医疗实体检索方法及其系统技术方案_技高网

基于知识图谱嵌入与关键词的医疗实体检索方法及其系统技术方案

技术编号:40468837 阅读:17 留言:0更新日期:2024-02-22 23:23
本发明专利技术公开基于知识图谱嵌入与关键词的医疗实体检索方法及其系统,包括查询标记树生成、查询标记树筛选和查询结果排序。通过解析查询的自然语句生成对应的知识图谱嵌入检索算式,然后根据算式在向量化表示的知识图谱中计算结果,将检索结果保存至树型结构中。接着将无法被生成到知识图谱嵌入检索算式中的查询意图作为关键词,查找医疗知识图谱中该关键词的邻居,对查询标记树作进一步筛选。通过标记树中节点在向量化表示知识图谱中的空间距离对结果进行排序,返回检索结果。本方法使用关键词容器来保存部分无法直接生成检索式的词语信息,避免关键信息的丢失,并使用关键词容器中保存的关键词来筛选节点,可以减少返回的内容中的无用信息。

【技术实现步骤摘要】

本专利技术属于计算机应用,涉及一种基于知识图谱嵌入与关键词的医疗实体检索方法及其系统


技术介绍

1、知识图谱是一种图结构,用于表示和组织知识的关联性,使得计算机能够理解和推理关于实体之间关系的信息,能够为自然语言处理领域的问答、推荐、检索等应用提供更好的支持。知识图谱的基本概念包括:实体、属性、关系、节点、边、图、三元组等。其中,某个邻域内的多种实体可以统称为本体。属性是指实体的名称或描述等,关系是指两个实体间的具有方向性的联系。三元组用于表示知识图谱中的基本单元,由主体、谓词和客体组成。

2、知识图谱在医疗领域的应用可以将疾病、症状、药物、医生、患者作为实体,不同实体间的关系可以包括治疗、有症状、属于等。(疾病a,有症状,症状b)可以构成医疗领域知识图谱中的一个三元组。对比传统的知识库,使用知识图谱嵌入模型对医疗知识图谱进行向量化表示,能够整合、理解和应用大量的医学信息,让计算机通过向量间的计算高效的处理和分析知识,可以帮助医生更好地理解不同疾病和其症状之间的关系,支持临床决策和诊断,对于医学学生或病患及其家属而言,可以更快速地获取与他们所需的内容相关的医学实体信息,为用户提供更好的检索体验。

3、在向量化表示的医疗知识图谱上进行检索时,为了限定检索范围和明确检索目的,现有方法主要通过命名实体识别和关系抽取来理解用户的检索意图,即通常会在检索语句中添加多个约束。这可能会导致一些既不属于命名实体也不属于关系的约束无法被识别,因此在生成知识图谱嵌入的检索算式时,这些约束并没有被纳入其中,导致最终的检索结果可能无法满足用户的预期。为此,需要采取特殊策略来解决这种情况,以更好地满足用户的检索需求。


技术实现思路

1、针对现有技术的不足,本专利技术提出了一种基于知识图谱嵌入与关键词的医疗实体检索方法及其系统,能有效得应用于医学领域的知识图谱的检索。

2、第一方面,本专利技术提供一种基于知识图谱嵌入与关键词的医疗实体检索方法,包括查询标记树生成、查询标记树筛选和查询结果排序。

3、所述查询标记树生成通过解析查询的自然语句并按照解析的结果生成对应的知识图谱嵌入检索算式,然后根据算式在向量化表示的知识图谱中计算结果,将检索结果保存至树型结构中。查询标记树筛选将无法被生成到知识图谱嵌入检索算式中的查询意图作为关键词,通过医疗知识图谱中该关键词的邻居对查询标记树进行进一步筛选。结果生成排序通过标记树中节点在向量化表示知识图谱中的空间距离对结果进行排序。

4、具体步骤如下:

5、步骤1、输入问句分析

6、对于用户输入的自然语言问句,通过依存句法分析该自然语言问句中词语之间的依赖关系,得到不同的依存结构。首先针对“follow-dependency”类型中存在并列关系的两种成分,从其余依存结构中找到存在重合成分的依存结构,使用该依存结构中的关系,分别与“follow-dependency”类型中两种成分构建一个新的依存结构。对依存结构进行分类。遍历“subject”、“object”、“sub-or-obj”三种类型的依存结构,将存在重合成分的两个依存结构组合成三元组,对于无法组合成三元组的依存结构,将其中未被组合成三元组的成分作为关键词,放入关键词容器中。遍历“question”类型的依存结构,将其中的第二个部分用于生成问题项;其余依存结构作丢弃处理。

7、步骤2、三元组筛选

8、针对步骤1中组合得到的三元组,使用正向最大匹配和反向最大匹配的方法将三元组中的每个元素都与知识图谱中的成分进行实体链接,并获取三元组中每个实体以及本体在知识图谱中的模式层本体。遍历所有三元组,筛选出其中结构不为<实体,关系,实体>的三元组,以及结构为<实体,关系,实体>但是两个实体的本体在模式层中不能通过关系连接的三元组,将筛选出的三元组作丢弃处理。

9、步骤3、三元组转化

10、经过步骤2筛选后保留的三元组中,存在两类三元组:第一类三元组包含一个命名实体和一个模式层本体,第二类三元组包含两个模式层本体。

11、使用第一类三元组生成知识图谱嵌入检索算式进行搜索,当查找到的内容属于第二类三元组中某一模式层本体时,将查找到的内容代入第二类三元组中该模式层本体的位置,使第二类三元组变成包含一个命名实体和一个模式层本体的三元组,即将第二类三元组向第一类三元组转化。

12、步骤4、查询标记树生成

13、完成第二类三元组向第一类三元组的转化后,将所有查找到的内容通过递归方法保存在树型结构中,其中tag用于保存当前节点代表的实体名称,children用于保存当前节点的子节点,parent用于保存保存当前节点的父节点,value用于保存当前节点代表的实体与其父节点代表的实体之间的距离,形成标记树。

14、步骤5、查询标记树筛选

15、在符号化表示的知识图谱中查找步骤1中保存到关键词容器中的关键词的邻居,然后在步骤4生成的查询标记树中查找与关键词的邻居相同的节点,作为标记节点,同时删除标记节点在查询标记树中的其它兄弟节点以及兄弟节点下的所有节点。直至完成所有关键词的邻居查找,保存删除部分节点后的查询标记树。

16、步骤6、查询结果排序

17、对查询标记树中经过步骤5后保留的节点中保存的距离进行归一化处理。将符合问题项类型的实体在标记树中对应的节点,作为目标节点,计算每个目标节点到根节点距离,作为该实体在查询标记树中的最终距离。对于在标记树中重复出现的节点,将其到根节点距离总和的平均值作为最终距离。

18、将所有目标节点按照在标记树中的出现次数从大到小排序,对于目标节点出现次数相同的实体,按照其最终距离从小到大对进行排序。将排序结果返回给用户,作为检索结果。

19、第二方面,本专利技术提供实现上述方法的医疗实体检索系统,所述系统包括:

20、查询标记树生成模块,通过解析查询的自然语句并按照解析的结果生成对应的知识图谱嵌入检索算式,然后根据算式在向量化表示的知识图谱中计算结果,将检索结果保存至树型结构中,得到查询标记树;

21、查询标记树筛选模块,将无法被生成到知识图谱嵌入检索算式中的查询意图作为关键词,通过关键词在医疗知识图谱中的邻居信息对查询标记树中的节点进行筛选;

22、查询结果排序模块,查询标记树筛选查询结果排序计算筛选后查询标记树中剩余节点在向量化表示知识图谱中的空间距离,对节点进行排序。

23、本专利技术具有以下有益效果:

24、1、使用关键词容器来保存部分无法直接生成检索式的词语信息,避免关键信息的丢失。

25、2、在查询标记树的筛选过程中,使用关键词容器中保存的关键词来筛选节点,可以减少大量无用信息,从而进一步精确检索结果,方便用户从返回的内容中快速获取需要的信息。

26、3、利用向量化表示知识图谱的特性,使用实体在向量化表示知识图谱本文档来自技高网...

【技术保护点】

1.一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:包括查询标记树生成、查询标记树筛选和查询结果排序;

2.如权利要求1所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:具体步骤如下:

3.如权利要求2所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:在步骤1中,首先针对“follow-dependency”类型中存在并列关系的两种成分,从其余依存结构中找到存在相同成分的依存结构,使用该依存结构中的关系,分别与“follow-dependency”类型中两种成分构建一个新的依存结构;

4.如权利要求2或3所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:按照以下表格的记载对依存结构进行分类:

5.如权利要求2所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:在树形结构中,使用tag保存当前节点代表的实体名称,children保存当前节点的子节点,parent保存保存当前节点的父节点,value保存当前节点代表的实体与其父节点代表的实体之间的距离。

6.如权利要求2所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:查询标记树筛选的具体方法为:

7.如权利要求2或6所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:关键词key的邻居信息与关键词的类型有关:

8.如权利要求2所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:对经过步骤5筛选后,查询标记树中剩余节点保留的距离进行归一化处理。

9.如权利要求2或8所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:对于目标节点出现次数相同的实体,分别计算其对应的多个目标节点与根节点间距离的平均值,作为实体的最终距离,按照最终距离从小到大的顺序对目标节点出现次数相同的实体进行排序。

10.实现如权利要求1-9任一项所述方法的医疗实体检索系统,其特征在于所述系统包括:

...

【技术特征摘要】

1.一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:包括查询标记树生成、查询标记树筛选和查询结果排序;

2.如权利要求1所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:具体步骤如下:

3.如权利要求2所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:在步骤1中,首先针对“follow-dependency”类型中存在并列关系的两种成分,从其余依存结构中找到存在相同成分的依存结构,使用该依存结构中的关系,分别与“follow-dependency”类型中两种成分构建一个新的依存结构;

4.如权利要求2或3所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:按照以下表格的记载对依存结构进行分类:

5.如权利要求2所述一种基于知识图谱嵌入与关键词的医疗实体检索方法,其特征在于:在树形结构中,使用tag保存当前节点代表的实体名称,children保存当前节点的子节点,pare...

【专利技术属性】
技术研发人员:张蕾乔梦圆张丽娟罗之宇万健黄杰陈芳妮王海江徐文建
申请(专利权)人:浙江科技学院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1