抽取文本实体的方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35551561 阅读：11 留言：0更新日期：2022-11-12 15:31

本公开涉及文本处理技术领域，提供了抽取文本实体的方法、装置、电子设备及存储介质。该方法包括：获取待处理的用户文本以及用户文本所属领域对应的目标辞典，其中，目标辞典包括多个条目，每个条目包括辞典实体和用于解释辞典实体的释义信息；抽取用户文本中的实体信息，并对实体信息进行实体信息编码处理，得到实体信息矩阵，其中，实体信息包括多个初始文本实体；对用户文本进行依存句法编码处理，得到句法信息矩阵；对实体信息矩阵、句法信息矩阵和目标辞典进行辞典语义匹配处理，得到每个初始文本实体对于目标辞典中所有条目的分布概率；基于每个初始文本实体对于目标辞典中所有条目的分布概率，确定用户文本对应的多个最终文本实体。终文本实体。终文本实体。

全部详细技术资料下载

【技术实现步骤摘要】
抽取文本实体的方法、装置、电子设备及存储介质

[0001]本公开涉及文本处理
，尤其涉及一种抽取文本实体的方法、装置、电子设备及存储介质。

技术介绍

[0002]随着科学技术的不断发展，智能客服很多行业中得到了广泛的使用，智能客服不但可以解决用户问题，同时也可以节约人力成本，为客户提供更好的服务体验。智能客服为客户提供服务的过程中，准确地抽取出用户文本中的实体是保证用户体验的重要基础。当前业内常见的实体抽取方法是利用领域词作为先验知识，依次进行位置预测（span
‑
based prediction）和种类预测（class predict）来对实体进行标记。上述方法获得在高质量的文本中有较好的效果，尤其是可以准确地抽取相互重叠和覆盖的实体。然而，在智能客服的实际业务中，用户对于实体的表述往往不是标准的说法，而是较为口语化和不规范的表达（质量较差）。上述方法忽略了句法结构对于实体抽取的信息的影响，导致在面对这种质量较差的文本时效果不尽如人意。
[0003]在实现本公开构思的过程中，专利技术人发现相关技术中至少存在如下技术问题：抽取口语化和不规范的文本中的实体时存在准确度低的问题。

技术实现思路

[0004]有鉴于此，本公开实施例提供了一种抽取文本实体的方法、装置、电子设备及存储介质，以解决现有技术中，抽取口语化和不规范的文本中的实体时存在准确度低的问题。
[0005]本公开实施例的第一方面，提供了一种抽取文本实体的方法，包括：获取待处理的用户文本以及用户文本所属领域...

【技术保护点】

【技术特征摘要】
1.一种抽取文本实体的方法，其特征在于，包括：获取待处理的用户文本以及所述用户文本所属领域对应的目标辞典，其中，所述目标辞典包括多个条目，每个条目包括辞典实体和用于解释所述辞典实体的释义信息；抽取所述用户文本中的实体信息，并对所述实体信息进行实体信息编码处理，得到实体信息矩阵，其中，所述实体信息包括多个初始文本实体；对所述用户文本进行依存句法编码处理，得到句法信息矩阵；对所述实体信息矩阵、所述句法信息矩阵和所述目标辞典进行辞典语义匹配处理，得到每个初始文本实体对于所述目标辞典中所有条目的分布概率；基于每个初始文本实体对于所述目标辞典中所有条目的分布概率，确定所述用户文本对应的多个最终文本实体。2.根据权利要求1所述的方法，其特征在于，所述对所述实体信息进行实体信息编码处理，得到实体信息矩阵，包括：确定每个初始文本实体中每个单词的词向量以及每个初始文本实体的类别信息的独热向量，其中，每个初始文本实体均包括多个单词和类别信息；对每个初始文本实体对应的所有词向量进行向量平均操作，得到每个初始文本实体对应的平均向量；对每个初始文本实体对应的平均向量和独热向量进行向量拼接处理，得到每个初始文本实体对应的实体信息向量；对所有初始文本实体对应的实体信息向量进行编码处理，得到所述实体信息矩阵。3.根据权利要求1所述的方法，其特征在于，所述对所述用户文本进行依存句法编码处理，得到句法信息矩阵，包括：统计所述用户文本中与每个单词存在依存关系的其它单词的数量，以生成度矩阵；基于所述用户文本中每个单词与其它单词存在的依存关系，生成邻接矩阵；对所述度矩阵和所述邻接矩阵进行矩阵规范化处理；基于经过所述矩阵规范化处理后的度矩阵和邻接矩阵，确定所述句法信息矩阵。4.根据权利要求3所述的方法，其特征在于，所述统计所述用户文本中与每个单词存在依存关系的其它单词的数量，以生成度矩阵之前，所述方法还包括：对所述用户文本进行语法分析，得到分析结果；基于所述分析结果，构建所述用户文本中每两个单词之间的依存关系。5.根据权利要求1所述的方法，其特征在于，所述对所述实体信息矩阵、所述句法信息矩阵和所述目标辞典进行辞典语义匹配处理，得到每个初始文本实体对于所述目标辞典中所有条目的分布概率，包括：对所述实体信息矩阵进行实体信息解码处理，得到第一解码矩阵；对所述句法信息矩阵进行句法信息解码处理，得到第二解码矩阵...

【专利技术属性】
技术研发人员：郭俊廷，支涛，
申请(专利权)人：北京云迹科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人