一种实体对齐辅助方法、装置、设备及存储介质制造方法及图纸

技术编号:30435920 阅读:13 留言:0更新日期:2021-10-24 17:36
本发明专利技术是关于一种实体对齐辅助方法、装置、设备及存储介质。该方法包括:获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;判断识别的实体是否需要融合;若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。本发明专利技术提供的方案,通过设定一定的对齐逻辑来进行批量的实体融合和对齐操作,从而极大提高实体对齐的准确度和效率。确度和效率。确度和效率。

【技术实现步骤摘要】
一种实体对齐辅助方法、装置、设备及存储介质


[0001]本专利技术涉及实体对齐领域,尤其涉及一种实体对齐辅助方法、装置、设备及存储介质。

技术介绍

[0002]对齐指的是将同一概念的不同表达方式进行融合的过程,大多数情况下包含实体的同义词、别称、中英文等,比如将四字弟弟与易烊千玺都指向到明星——易烊千玺。目前在现有技术中,基于NLP的实体识别算法与实际需求存在比较大的偏差,存在识别结果对齐的问题,而算法工程师往往不具备相关的背景知识,往往是在算法工程师将算法结果给到有相关背景知识的业务人员来确认结果给出反馈再进行算法优化,从而造成了算法优化效率低下,调试优化周期长等问题。

技术实现思路

[0003]为克服相关技术中存在的问题,本专利技术提供一种实体对齐辅助方法、装置、设备及存储介质。
[0004]根据本专利技术实施例的第一方面,提供一种实体对齐辅助方法,包括:
[0005]获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
[0006]判断识别的实体是否需要融合;
[0007]若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
[0008]进一步,所述判断识别的实体是否需要融合,具体包括:
[0009]将识别的实体分别与标准实体库进行相似度比对;
[0010]若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
[0011]进一步,在将识别的实体分别与标准实体库进行相似度比对之后,还包括:
[0012]按照相似度大小对识别的实体进行排序。
[0013]进一步,在将所述实体进行融合并对齐到对应的标准实体之后,还包括:
[0014]将对齐后的结果输出至下游系统。
[0015]根据本专利技术实施例的第二方面,提供一种实体对齐辅助装置,包括:
[0016]结果获取模块,用于获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
[0017]融合判断模块,用于判断识别的实体是否需要融合;
[0018]融合对齐模块,用于若所述融合判断模块判断识别的实体需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
[0019]进一步,所述融合判断模块,具体包括:
[0020]相似度比对单元,用于将识别的实体分别与标准实体库进行相似度比对;
[0021]融合判断单元,用于若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。
[0022]进一步,还包括:
[0023]排序单元,用于在所述相似度比对单元将识别的实体分别与标准实体库进行相似度比对之后,按照相似度大小对识别的实体进行排序。
[0024]进一步,还包括:
[0025]结果输出模块,用于在所述融合对齐模块将所述实体进行融合并对齐到对应的标准实体之后,将对齐后的结果输出至下游系统。
[0026]根据本专利技术实施例的第三方面,提供一种终端设备,包括:
[0027]处理器;以及
[0028]存储器,其上存储有可执行代码,当所述可执行代码被所述处理器执行时,使所述处理器执行如上所述的方法。
[0029]根据本专利技术实施例的第四方面,提供一种非暂时性机器可读存储介质,其上存储有可执行代码,当所述可执行代码被电子设备的处理器执行时,使所述处理器执行如上所述的方法。
[0030]本专利技术的实施例提供的技术方案可以包括以下有益效果:
[0031]通过设定一定的对齐逻辑来进行批量的实体融合和对齐操作,从而极大提高实体对齐的准确度和效率。
[0032]应当理解的是,以上的一般描述和后文的细节描述仅是示例性和解释性的,并不能限制本专利技术。
附图说明
[0033]通过结合附图对本专利技术示例性实施方式进行更详细的描述,本专利技术的上述以及其它目的、特征和优势将变得更加明显,其中,在本专利技术示例性实施方式中,相同的参考标号通常代表相同部件。
[0034]图1是根据本专利技术一示例性实施例示出的一种实体对齐辅助方法的流程示意图;
[0035]图2是根据本专利技术示例性实施例示出的一种实体对齐辅助装置的结构框图;
[0036]图3是根据本专利技术一示例性实施例示出的一种计算设备的结构示意图。
具体实施方式
[0037]下面将参照附图更详细地描述本专利技术的优选实施方式。虽然附图中显示了本专利技术的优选实施方式,然而应该理解,可以以各种形式实现本专利技术而不应被这里阐述的实施方式所限制。相反,提供这些实施方式是为了使本专利技术更加透彻和完整,并且能够将本专利技术的范围完整地传达给本领域的技术人员。
[0038]在本专利技术使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义。还应当理解,本文中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。
[0039]应当理解,尽管在本专利技术可能采用术语“第一”、“第二”、“第三”等来描述各种信息,但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如,在不脱离本专利技术范围的情况下,第一信息也可以被称为第二信息,类似地,第二信息也可以被称为第一信息。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。在本专利技术的描述中,“多个”的含义是两个或两个以上,除非另有明确具体的限定。
[0040]以下结合附图详细描述本专利技术实施例的技术方案。
[0041]图1是根据本专利技术一示例性实施例示出的一种实体对齐辅助方法的流程示意图。
[0042]参见图1,该方法包括:
[0043]110、获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;
[0044]120、判断识别的实体是否需要融合;
[0045]130、若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。
[0046]具体的,实际项目中,实体识别算法结果与实际需求存在比较大的偏差,尤其是在实体融合方面,现有算法并不能有效判定实体结果是否需要融合。本专利技术实施例提供了一套辅助系统,业务人员(有相关背景知识的人)可以在本系统中对算法识别的实体进行对齐,并可设定一定的对齐逻辑来进行批量的实体融合操作,从而得到融合后的结果输入到后续的数据分析流程中,极大提高实体对齐的准确度和效率。对齐逻辑包含但不限于包含某些关键词,比如定义包含“奥迪”的识别实体都对齐到汽车品牌

奥迪的标准实体。
[0047]本专利技术的优点在于业务人员与算法工程师分工合作,业务人员可在算法输出的结果上对数据进行系统性的修正与调整本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种实体对齐辅助方法,其特征在于,包括:获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;判断识别的实体是否需要融合;若需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的标准实体。2.根据权利要求1所述的方法,其特征在于,所述判断识别的实体是否需要融合,具体包括:将识别的实体分别与标准实体库进行相似度比对;若识别的实体中有至少两个目标实体与所述标准实体库中同一标准实体的相似度均大于设定值,则判断识别的实体中的所述至少两个目标实体需要融合。3.根据权利要求2所述的方法,其特征在于,在将识别的实体分别与标准实体库进行相似度比对之后,还包括:按照相似度大小对识别的实体进行排序。4.根据权利要求1至3任一项所述的方法,其特征在于,在将所述实体进行融合并对齐到对应的标准实体之后,还包括:将对齐后的结果输出至下游系统。5.一种实体对齐辅助装置,其特征在于,包括:结果获取模块,用于获取实体识别算法结果,所述实体识别算法结果包括识别的至少两个实体;融合判断模块,用于判断识别的实体是否需要融合;融合对齐模块,用于若所述融合判断模块判断识别的实体需要融合,则按照预设的对齐逻辑将所述实体进行融合并对齐到对应的...

【专利技术属性】
技术研发人员:冯允
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1