抽取文本实体的方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35551561 阅读:11 留言:0更新日期:2022-11-12 15:31
本公开涉及文本处理技术领域,提供了抽取文本实体的方法、装置、电子设备及存储介质。该方法包括:获取待处理的用户文本以及用户文本所属领域对应的目标辞典,其中,目标辞典包括多个条目,每个条目包括辞典实体和用于解释辞典实体的释义信息;抽取用户文本中的实体信息,并对实体信息进行实体信息编码处理,得到实体信息矩阵,其中,实体信息包括多个初始文本实体;对用户文本进行依存句法编码处理,得到句法信息矩阵;对实体信息矩阵、句法信息矩阵和目标辞典进行辞典语义匹配处理,得到每个初始文本实体对于目标辞典中所有条目的分布概率;基于每个初始文本实体对于目标辞典中所有条目的分布概率,确定用户文本对应的多个最终文本实体。终文本实体。终文本实体。

【技术实现步骤摘要】
抽取文本实体的方法、装置、电子设备及存储介质


[0001]本公开涉及文本处理
,尤其涉及一种抽取文本实体的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着科学技术的不断发展,智能客服很多行业中得到了广泛的使用,智能客服不但可以解决用户问题,同时也可以节约人力成本,为客户提供更好的服务体验。智能客服为客户提供服务的过程中,准确地抽取出用户文本中的实体是保证用户体验的重要基础。当前业内常见的实体抽取方法是利用领域词作为先验知识,依次进行位置预测(span

based prediction)和种类预测(class predict)来对实体进行标记。上述方法获得在高质量的文本中有较好的效果,尤其是可以准确地抽取相互重叠和覆盖的实体。然而,在智能客服的实际业务中,用户对于实体的表述往往不是标准的说法,而是较为口语化和不规范的表达(质量较差)。上述方法忽略了句法结构对于实体抽取的信息的影响,导致在面对这种质量较差的文本时效果不尽如人意。
[0003]在实现本公开构思的过程中,专利技术人发现相关技术中至少存在如下技术问题:抽取口语化和不规范的文本中的实体时存在准确度低的问题。

技术实现思路

[0004]有鉴于此,本公开实施例提供了一种抽取文本实体的方法、装置、电子设备及存储介质,以解决现有技术中,抽取口语化和不规范的文本中的实体时存在准确度低的问题。
[0005]本公开实施例的第一方面,提供了一种抽取文本实体的方法,包括:获取待处理的用户文本以及用户文本所属领域对应的目标辞典,其中,目标辞典包括多个条目,每个条目包括辞典实体和用于解释辞典实体的释义信息;抽取用户文本中的实体信息,并对实体信息进行实体信息编码处理,得到实体信息矩阵,其中,实体信息包括多个初始文本实体;对用户文本进行依存句法编码处理,得到句法信息矩阵;对实体信息矩阵、句法信息矩阵和目标辞典进行辞典语义匹配处理,得到每个初始文本实体对于目标辞典中所有条目的分布概率;基于每个初始文本实体对于目标辞典中所有条目的分布概率,确定用户文本对应的多个最终文本实体。
[0006]本公开实施例的第二方面,提供了一种抽取文本实体的装置,包括:获取模块,被配置为获取待处理的用户文本以及用户文本所属领域对应的目标辞典,其中,目标辞典包括多个条目,每个条目包括辞典实体和用于解释辞典实体的释义信息;第一编码模块,被配置为抽取用户文本中的实体信息,并对实体信息进行实体信息编码处理,得到实体信息矩阵,其中,实体信息包括多个初始文本实体;第二编码模块,被配置为对用户文本进行依存句法编码处理,得到句法信息矩阵;匹配模块,被配置为对实体信息矩阵、句法信息矩阵和目标辞典进行辞典语义匹配处理,得到每个初始文本实体对于目标辞典中所有条目的分布概率;确定模块,被配置为基于每个初始文本实体对于目标辞典中所有条目的分布概率,确
定用户文本对应的多个最终文本实体。
[0007]本公开实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本公开实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本公开实施例与现有技术相比存在的有益效果是:获取待处理的用户文本以及用户文本所属领域对应的目标辞典,其中,目标辞典包括多个条目,每个条目包括辞典实体和用于解释辞典实体的释义信息;抽取用户文本中的实体信息,并对实体信息进行实体信息编码处理,得到实体信息矩阵,其中,实体信息包括多个初始文本实体;对用户文本进行依存句法编码处理,得到句法信息矩阵;对实体信息矩阵、句法信息矩阵和目标辞典进行辞典语义匹配处理,得到每个初始文本实体对于目标辞典中所有条目的分布概率;基于每个初始文本实体对于目标辞典中所有条目的分布概率,确定用户文本对应的多个最终文本实体。采用上述技术手段,可以解决现有技术中,抽取口语化和不规范的文本中的实体时存在准确度低的问题,进而提高抽取口语化和不规范的文本中的实体的准确度。
附图说明
[0010]为了更清楚地说明本公开实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本公开实施例的应用场景的场景示意图;图2是本公开实施例提供的一种抽取文本实体的方法的流程示意图;图3是本公开实施例提供的一种抽取文本实体的装置的结构示意图;图4是本公开实施例提供的一种电子设备的结构示意图。
具体实施方式
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本公开实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本公开。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本公开的描述。
[0013]下面将结合附图详细说明根据本公开实施例的一种抽取文本实体的方法和装置。
[0014]图1是本公开实施例的应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104以及网络105。
[0015]终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、机器人、膝上型便携计算机和台式计算机等(比如102可以为机器人);当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本公开实施例对此不作限
制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、即时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0016]服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结果。服务器104可以是一台服务器,也可以是由若干台服务器组成的服务器集群,或者还可以是一个云计算服务中心,本公开实施例对此不作限制。
[0017]需要说明的是,服务器104可以是硬件,也可以是软件。当服务器104为硬件时,其可以是为终端设备101、102和103提供各种服务的各种电子设备。当服务器104为软件时,其可以是为终端设备101、102和103提供各种服务的多个软件或软件模块,也可以是为终端设备101、102和103提供各种服务的单个软件或软件模块,本公开实施例对此不作限制。
[0018]网络105可以是采用本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种抽取文本实体的方法,其特征在于,包括:获取待处理的用户文本以及所述用户文本所属领域对应的目标辞典,其中,所述目标辞典包括多个条目,每个条目包括辞典实体和用于解释所述辞典实体的释义信息;抽取所述用户文本中的实体信息,并对所述实体信息进行实体信息编码处理,得到实体信息矩阵,其中,所述实体信息包括多个初始文本实体;对所述用户文本进行依存句法编码处理,得到句法信息矩阵;对所述实体信息矩阵、所述句法信息矩阵和所述目标辞典进行辞典语义匹配处理,得到每个初始文本实体对于所述目标辞典中所有条目的分布概率;基于每个初始文本实体对于所述目标辞典中所有条目的分布概率,确定所述用户文本对应的多个最终文本实体。2.根据权利要求1所述的方法,其特征在于,所述对所述实体信息进行实体信息编码处理,得到实体信息矩阵,包括:确定每个初始文本实体中每个单词的词向量以及每个初始文本实体的类别信息的独热向量,其中,每个初始文本实体均包括多个单词和类别信息;对每个初始文本实体对应的所有词向量进行向量平均操作,得到每个初始文本实体对应的平均向量;对每个初始文本实体对应的平均向量和独热向量进行向量拼接处理,得到每个初始文本实体对应的实体信息向量;对所有初始文本实体对应的实体信息向量进行编码处理,得到所述实体信息矩阵。3.根据权利要求1所述的方法,其特征在于,所述对所述用户文本进行依存句法编码处理,得到句法信息矩阵,包括:统计所述用户文本中与每个单词存在依存关系的其它单词的数量,以生成度矩阵;基于所述用户文本中每个单词与其它单词存在的依存关系,生成邻接矩阵;对所述度矩阵和所述邻接矩阵进行矩阵规范化处理;基于经过所述矩阵规范化处理后的度矩阵和邻接矩阵,确定所述句法信息矩阵。4.根据权利要求3所述的方法,其特征在于,所述统计所述用户文本中与每个单词存在依存关系的其它单词的数量,以生成度矩阵之前,所述方法还包括:对所述用户文本进行语法分析,得到分析结果;基于所述分析结果,构建所述用户文本中每两个单词之间的依存关系。5.根据权利要求1所述的方法,其特征在于,所述对所述实体信息矩阵、所述句法信息矩阵和所述目标辞典进行辞典语义匹配处理,得到每个初始文本实体对于所述目标辞典中所有条目的分布概率,包括:对所述实体信息矩阵进行实体信息解码处理,得到第一解码矩阵;对所述句法信息矩阵进行句法信息解码处理,得到第二解码矩阵...

【专利技术属性】
技术研发人员:郭俊廷支涛
申请(专利权)人:北京云迹科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1