一种基于字符与语义融合的方法和设备技术

技术编号:26419602 阅读:14 留言:0更新日期:2020-11-20 14:15
本发明专利技术提出的一种基于字符与语义融合的方法和设备,方法包括:在预设数据库中获取与待挖掘医疗术语最相似的多个实体;基于多个字符相似度算法确定实体与待挖掘医疗术语的字符相似度;若字符相似度大于或等于预设阈值,则保留实体作为第一候选实体;若保留的实体的数量小于预设数量,则通过对待挖掘医疗术语与实体两者进行分解后,确定两者的语义相似度;基于语义相似度选择保留指定数量的实体作为第二候选实体,以使候选实体的总数为预设数量;对预设数量的候选实体进行人工标注,以确定预设数量的候选实体与待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息,解决了孤立术语融合知识图谱的问题。

【技术实现步骤摘要】
一种基于字符与语义融合的方法和设备
本专利技术涉及语义识别
,特别涉及一种基于字符与语义融合的方法和设备。
技术介绍
在医学领域,在某些应用场景中存在孤立的医学术语,这使得孤立的医学术语难于理解,也对孤立的医学术语所在的文档的理解造成困难,特别当孤立的医学术语出现的数量达到一定程度时,非常容易使得所在的文档解读困难或者容易出现误解。为此,需要将孤立的医学术语融合到已有的医学知识图谱中,但是目前没有这种方案,由此,目前需要有一种可以融合孤立的医学术语的方案。
技术实现思路
针对现有技术中的缺陷,本专利技术提出了一种基于字符与语义融合的方法和设备,基于字符与语义来计算相似度的方案,若相似度达到一定值,则进行融合的方式,实现了融合孤立的医学术语到已有的医学知识图谱中。具体的,本专利技术提出了一下具体的实施例:本专利技术实施例提出了一种基于字符与语义融合的方法,包括:在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。在一个具体的实施例中,所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”,包括:在预设的数据库中基于待挖掘医疗术语进行检索,得到最相似的多个术语;将所述术语设置为实体。在一个具体的实施例中,所述字符相似度算法包括:以下任意多个的组合:编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法,加权算法。在一个具体的实施例中,所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度,是通过下列公式来进行计算的:其中,所述score(a,b)表示字符相似度;所述fi(a,b)表示字符相似度算法,wi表示字符相似度算法的权重;所述a表示所述待挖掘医疗术语;所述b表示所述实体;若score(a,b)大于等于预设字符相似度阈值,则实体b保留。在一个具体的实施例中,所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度”,包括:对所述待挖掘医疗术语与所述实体两者进行成分解析;基于两者的成分确定所述待挖掘医疗术语与各所述实体的语义相似度。在一个具体的实施例中,所述“通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度”,是基于下列公式来计算的:Si=I*W*P*R1*R2;其中,所述Si表示语义相似度;所述I表示成分是否为同一类型,所述I的取值为1或0;所述W表示成分的类型权重;所述P表示成分字符匹配权重,成分字符匹配权重越高,匹配程度越高,完全相等情况下的成分字符匹配权重为1;R1和R2分别为两个成分数目的倒数。在一个具体的实施例中,所述“基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量”,包括:针对各所述实体,判断所述语义相似度是否大于或等于所述预设语义相似度阈值;若判断结果为是,则保留所述语义相似度最高的指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量。在一个具体的实施例中,该方法还包括:若保留的所述实体的数量小于预设数量,则从所述第一候选实体中选择预设数量的所述实体作为所述候选实体。在一个具体的实施例中,所述候选实体与所述待挖掘医疗术语的关系包括:同义、上位或下位。本专利技术实施例还提出一种基于字符与语义融合的设备,包括处理器,其中所述处理器用于执行上述的方法。本专利技术实施例提出的一种基于字符与语义融合的方法和设备,其中,该方法包括:在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。本方案基于术语间精确地字符信息和语义拆分信息,解决了孤立术语融合知识图谱的问题。附图说明为了更清楚地说明本专利技术实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本专利技术的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他相关的附图。图1为本专利技术实施例提出的一种基于字符与语义融合的方法的流程示意图;图2为本专利技术实施例提出的一种基于字符与语义融合的方法的流程示意图;图3为本专利技术实施例提出的一种基于字符与语义融合的方法中语义相似度相关流程的流程示意图;图4为本专利技术实施例提出的一种基于字符与语义融合的设备的结构示意图。具体实施方式在下文中,将更全面地描述本公开的各种实施例。本公开可具有各种实施例,并且可在其中做出调整和改变。然而,应理解:不存在将本公开的各种实施例限于在此公开的特定实施例的意图,而是应将本公开理解为涵盖落入本公开的各种实施例的精神和范围内的所有调整、等同物和/或可选方案。在本公开的各种实施例中使用的术语仅用于描述特定实施例的目的并且并非意在限制本公开的各种实施例。如在此所使用,单数形式意在也包括复数形式,除非上下文清楚地另有指示。除非另有限定,否则在这里使用的所有术语(包括技术术语和科学术语)具有与本公开的各种实施例所属领域普通技术人员通常理解的含义相同的含义。所述术语(诸如在一般使用的词典中限定的术语)将被解释为具有与在相关
中的语境含义相同的含义并且将不被解释为具有理想化的含义或过于正式的含义,除非在本公开的各种实施例中被清楚地限定。实施例1本专利技术实施例1公开了一种基于字符与语义融合的方法,如图1和图2所示,包括以下步骤:步骤101、在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;具体的,在步骤101本文档来自技高网
...

【技术保护点】
1.一种基于字符与语义融合的方法,其特征在于,包括:/n在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;/n针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;/n若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;/n若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;/n基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;/n对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。/n

【技术特征摘要】
1.一种基于字符与语义融合的方法,其特征在于,包括:
在预设数据库中获取与待挖掘医疗术语最相似的多个实体;所述预设数据库中存储有预设医疗知识图谱的术语;
针对各所述实体,基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度;
若所述字符相似度大于或等于预设字符相似度阈值,则保留所述实体作为第一候选实体;
若保留的所述实体的数量小于预设数量,则通过对所述待挖掘医疗术语与所述实体两者进行分解后,确定两者的语义相似度;
基于所述语义相似度选择保留指定数量的所述实体作为第二候选实体,以使候选实体的总数为预设数量;所述候选实体由所述第一候选实体与所述第二候选实体组成;
对预设数量的所述候选实体进行人工标注,以确定预设数量的所述候选实体与所述待挖掘医疗术语的关系。


2.如权利要求1所述的方法,其特征在于,所述“在预设数据库中获取与待挖掘医疗术语最相似的多个实体”,包括:
在预设的数据库中基于待挖掘医疗术语进行检索,得到最相似的多个术语;
将所述术语设置为实体。


3.如权利要求1所述的方法,其特征在于,所述字符相似度算法包括:以下任意多个的组合:编辑距离相似度算法、Jaccard系数算法、LCS算法、TF-IDF算法,加权算法。


4.如权利要求1或3所述的方法,其特征在于,所述基于多个字符相似度算法确定所述实体与所述待挖掘医疗术语的字符相似度,是通过下列公式来进行计算的:



其中,所述score(a,b)表示字符相似度;所述fi(a,b)表示字符相似度算法,wi表示字符相似度算法的权重;所述a表示所述待挖掘医疗术语;所述b表示所述实体;若score(a,b)大于等于预设字符相似度阈值,则实体b...

【专利技术属性】
技术研发人员:史亚飞
申请(专利权)人:云知声智能科技股份有限公司厦门云知芯智能科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1