文本数据处理方法及装置、存储介质和电子设备制造方法及图纸

技术编号:29963213 阅读:10 留言:0更新日期:2021-09-08 09:25
本申请披露了一种文本数据处理方法及装置、存储介质和电子设备。该文本数据处理方法包括:对待处理文本进行知识生成,得到第一候选知识集合;对待处理文本进行知识抽取,得到第二候选知识集合;对第一候选知识集合和第二候选知识集合进行知识筛选,得到抽取知识集合。本申请提高了开放域知识抽取的精准度。本申请提高了开放域知识抽取的精准度。本申请提高了开放域知识抽取的精准度。

【技术实现步骤摘要】
文本数据处理方法及装置、存储介质和电子设备


[0001]本申请涉及自然语言处理
,具体涉及文本数据处理方法及装置、存储介质和电子设备。

技术介绍

[0002]知识抽取指的是基于不同来源的数据(包括结构化数据和非结构化数据)进行抽取以形成知识集合(结构化数据)。知识抽取可以分为限定域知识抽取和开放域知识抽取。然而,现有一些知识抽取方法存在精准度不高的问题。

技术实现思路

[0003]有鉴于此,本申请提供一种文本数据处理方法及装置、存储介质和电子设备,以提高知识抽取的精准度。
[0004]第一方面,提供一种文本数据处理方法,该文本数据处理方法包括:对待处理文本进行知识生成,得到第一候选知识集合;对待处理文本进行知识抽取,得到第二候选知识集合;对第一候选知识集合和第二候选知识集合进行知识筛选,得到抽取知识集合。
[0005]第二方面,提供一种文本数据处理装置,该文本数据处理装置包括:生成模块,用于对待处理文本进行知识生成,得到第一候选知识集合;抽取模块,用于对待处理文本进行知识抽取,得到第二候选知识集合;筛选模块,用于对第一候选知识集合和第二候选知识集合进行知识筛选,得到抽取知识集合。
[0006]第三方面,提供一种计算机可读存储介质,该存储介质存储有指令,当该指令由电子设备的处理器执行时,使得该电子设备能够执行上述第一方面所述的方法。
[0007]第四方面,提供一种电子设备,该电子设备包括:处理器;用于存储计算机可执行指令的存储器;该处理器用于执行该计算机可执行指令,以实现上述第一方面所述的方法。
[0008]本申请实施例提供的文本数据处理方法,结合知识生成和知识抽取实现了利用不同的知识集合确定方式得到多个候选知识集合的目的,进而降低了知识被遗漏的几率,并通过对候选知识集合进行知识筛选的方式,过滤了无效知识,进而提高了所确定的抽取知识集合的精准度。另外,与直接借助人工进行知识抽取的方案相比,本申请实施例能够极大降低抽取成本和抽取难度。
附图说明
[0009]图1a所示为本申请一实施例提供的文本数据处理方法的应用场景示意图。
[0010]图1b所示为本申请另一实施例提供的文本数据处理方法的应用场景示意图。
[0011]图2所示为本申请一实施例提供的文本数据处理方法的流程示意图。
[0012]图3所示为本申请一实施例提供的对第一候选知识集合和第二候选知识集合进行知识筛选的方法的流程示意图。
[0013]图4所示为本申请一实施例提供的分类模型的结构示意图。
[0014]图5所示为本申请另一实施例提供的对第一候选知识集合和第二候选知识集合进行知识筛选的方法的流程示意图。
[0015]图6所示为本申请一实施例提供的基于知识生成模型进行知识生成的方法的流程示意图。
[0016]图7所示为本申请一实施例提供的基于句法模板进行知识抽取的方法的流程示意图。
[0017]图8所示为本申请一实施例提供的对待处理文本进行句法分析的分析结果的示意图。
[0018]图9所示为本申请另一实施例提供的文本数据处理方法的流程示意图。
[0019]图10所示为本申请又一实施例提供的文本数据处理方法的流程示意图。
[0020]图11所示为本申请一实施例提供的文本数据处理方法的流程示意图。
[0021]图12所示为本申请一实施例提供的文本数据处理装置的结构示意图。
[0022]图13所示为本申请一实施例提供的文本数据处理装置的结构示意图。
[0023]图14所示为本申请一实施例提供的电子设备的结构示意图。
[0024]图15a所示为本申请一实施例提供的文本数据处理方法的实际应用场景示意图。
[0025]图15b所示为本申请另一实施例提供的文本数据处理方法的实际应用场景示意图。
[0026]图15c所示为本申请又一实施例提供的文本数据处理方法的实际应用场景示意图。
[0027]图16所示为本申请一实施例提供的文本数据处理方法的实际应用场景示意图。
具体实施方式
[0028]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅是本申请一部分实施例,而不是全部的实施例。
[0029]在传统面向开放域的知识抽取方法中,抽取结果局限于抽取文本本身,无法抽取隐含的属性关系。举例说明,待处理文本为“某A和某B生有一女”,现有知识抽取方法则无法抽取“某A”和“某B”是夫妻关系这一隐含的属性关系。为了解决知识抽取隐含的问题,可以利用文本生成方法进行开放域知识抽取,然而,这种方法容易出现抽取错误、无中生有等诸多问题,进而导致抽取精准度不高,抽取效果较差。
[0030]为了解决上述问题,本申请实施例提供一种文本数据处理方法及装置,以降低知识被遗漏的几率,提高抽取的精准度,并降低人工成本,进而降低知识抽取的难度。
[0031]示例性地,本申请实施例提及的文本数据处理方法(又称为知识抽取方法)可应用于人机交互场景,比如,电子终端的人机交互场景。其中,电子终端包括但不限于商用服务机器人、扫货盘点机器人、大屏营销机器人以及其他可进行人机交互的产品。其中,商用服务机器人指的是可应用于商场、超市、银行以及医院等公共场所,并为用户提供服务的机器人。
[0032]示例性地,如果借助本申请实施例提及的文本数据处理方法实现人机交互,则所实现的人机交互方法可以由诸如服务机器人、清洁机器人、自移动售货机器人等智能机器人来执行。当然,该人机交互方法也可以由诸如在线购物系统中集成的人机交互插件(或者
称为人机交互接口、人机交互功能模块)来执行,该人机交互方法还可以由诸如智能家电、智能穿戴设备等智能终端来执行。泛泛而言,该人机交互方法可以适用于任何支持以语音方式与用户进行交互的设备、系统中。
[0033]下面结合图1a和图1b对文本数据处理方法的具体应用场景进行介绍。
[0034]图1a所示为本申请一实施例提供的文本数据处理方法的应用场景示意图。图1a所示的场景包括服务器110以及与服务器110通信连接的客户端120。
[0035]示例性地,在实际应用过程中,客户端120可以接收用户发出或选定的待处理文本和抽取需求,并将待处理文本和抽取需求发送至服务器110,服务器110基于待处理文本和抽取需求确定待处理文本对应的抽取知识集合和/或知识图谱,并将抽取知识集合和/或知识图谱发送至客户端120,以便客户端120呈现给用户。其中,抽取需求可根据用户的实际情况确定,比如,抽取需求为抽取与待处理文本中的某一或某些实体相关的知识。
[0036]图1b所示为本申请另一实施例提供的文本数据处理方法的应用场景示意图。具体地,图1b所示的应用场景为电子终端(比如清洁机器人)的人机交互场景。如图1b所示,该应用场景包括服务器210和与服务器210通信连接的电子终端220。
[0037]示例性地,在实际应本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本数据处理方法,其特征在于,包括:对待处理文本进行知识生成,得到第一候选知识集合;对所述待处理文本进行知识抽取,得到第二候选知识集合;对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合。2.根据权利要求1所述的文本数据处理方法,其特征在于,所述对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合,包括:基于分类模型,对所述第一候选知识集合和所述第二候选知识集合进行分类,得到第三候选知识集合;根据所述第三候选知识集合确定所述抽取知识集合。3.根据权利要求2所述的文本数据处理方法,其特征在于,所述根据所述第三候选知识集合确定所述抽取知识集合,包括:接收人工对所述第三候选知识集合进行人工筛选得到的第四候选知识集合;将所述第四候选知识集合作为所述抽取知识集合。4.根据权利要求3所述的文本数据处理方法,其特征在于,在所述对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合之后,还包括:基于所述待处理文本、所述第三候选知识集合和所述第四候选知识集合更新所述分类模型。5.根据权利要求1至4任一项所述的文本数据处理方法,其特征在于,所述对待处理文本进行知识生成,得到第一候选知识集合,包括:基于知识生成模型,对所述待处理文本进行知识生成,得到所述第一候选知识集合。6.根据权利要求5所述的文本数据处理方法,其特征在于,所述基于知识生成模型,对所述待处理文本进行知识生成,得到所述第一候选知识集合,包括:抽取所述待处理文本对应的实体候选集,所述实体候选集包括M个实体;基于所述M个实体构造所述M个实体各自对应的疑问句文本;基于所述待处理文本和所述M个实体各自对应的疑问句文本构造所述M个实体各自对应的文本对;基于所述M个实体各自对应的文本对和所述知识生成模型,得到所述第一候选知识集合,其中,所述知识生成模型用于基于所述文本对生成所述文本对对应的知识集合。7.根据权利要求5所述的文本数据处理方法,其特征在于,在对所述第一候选知识集合和所述第二候选知识集合进行知识筛选,得到抽取知识集合之后,还包括:基于...

【专利技术属性】
技术研发人员:谢韬沈冀高倩邵长东
申请(专利权)人:科沃斯商用机器人有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1