一种语义漂移文本的识别方法及装置制造方法及图纸

技术编号:39163011 阅读:16 留言:0更新日期:2023-10-23 15:03
本申请提供了一种语义漂移文本的识别方法及装置。该方法包括:确定知识库中智能客服服务时未转人工的第一问题文本;确定第一问题文本的参考时段内的参考拦截率;输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;确定第一问题文本在当日的实际拦截率;根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。本申请能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。升了智能客服的业务指标。升了智能客服的业务指标。

【技术实现步骤摘要】
一种语义漂移文本的识别方法及装置


[0001]本申请涉及自然语言处理
,尤其涉及一种语义漂移文本的识别方法及装置。

技术介绍

[0002]用户的智能客服运营一般都是基于知识库的问答系统。知识库的问答系统中的问题和对应答案都需要人工提前编辑好,采用一问一答的形式实现客服机器人智能回复客户问题。但是在智能客服场景中,随着时间推移,知识库中的文本数据会产生漂移现象,这种漂移现象产生的原因有两种:一是相同的一个问句,在不同的时间可能会对应到不同的意图;二是同样一个意图,随着时间变化答案可能会发生变化。如果这些异常的具有漂移现象的文本不加以识别处理,会使知识库中的数据质量下降,进而会造成业务指标下降。
[0003]现有技术中,通常需要依赖领域知识或者上下文信息来识别语义漂移文本,但是实际情况中,语义漂移文本往往可能处于同一领域中,且没有上下文的情况,在这种情况下,很难对语义漂移文本进行识别。

技术实现思路

[0004]有鉴于此,本申请实施例提供了一种语义漂移文本的识别方法及装置,以解决现有技术中对语义漂移文本难以识别的问题。
[0005]本申请实施例的第一方面,提供了一种语义漂移文本的识别方法,该方法包括:确定知识库中智能客服服务时未转人工的第一问题文本;确定第一问题文本的参考时段内的参考拦截率;输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;确定第一问题文本在当日的实际拦截率;根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将第一问题文本对应的意图文本确定为语义漂移文本。
[0006]本申请实施例的第二方面,提供了一种语义漂移文本的识别装置,包括:第一问题文本确定模块,用于确定知识库中智能客服服务时未转人工的第一问题文本;参考拦截率确定模块,用于确定第一问题文本在参考时段内的参考拦截率;预测拦截率输出模块,用于输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;实际拦截率确定模块,用于确定第一问题文本在当日的实际拦截率;语义漂移文本确定模块,用于根据实际拦截率与预测拦截率确定拦截率偏差;若第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将该第一问题文本对应的意图文本确定为语义漂移文本。
[0007]本申请实施例的第三方面,提供了一种电子设备,包括存储器、处理器以及存储在
存储器中并且可在处理器上运行的计算机程序,该处理器执行计算机程序时实现上述方法的步骤。
[0008]本申请实施例的第四方面,提供了一种计算机可读存储介质,该计算机可读存储介质存储有计算机程序,该计算机程序被处理器执行时实现上述方法的步骤。
[0009]本申请实施例与现有技术相比存在的有益效果是:本申请实施例通过利用拦截率预测模型确定第一问题文本的预测拦截率,并结合实际拦截率来筛选第一问题文本对应的语义漂移的意图文本;并且利用聚类的方式从人工服务的第二问题文本结合知识库中的第一问题文本进而确定语义漂移的意图文本。通过两种方式的结合互补,能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。
附图说明
[0010]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它的附图。
[0011]图1是本申请实施例的应用场景的场景示意图;图2是本申请实施例提供的一种语义漂移文本的识别方法的流程示意图;图3是本申请实施例提供的一种语义漂移文本的识别装置的示意图;图4是本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
[0012]以下描述中,为了说明而不是为了限定,提出了诸如特定系统结构、技术之类的具体细节,以便透彻理解本申请实施例。然而,本领域的技术人员应当清楚,在没有这些具体细节的其它实施例中也可以实现本申请。在其它情况中,省略对众所周知的系统、装置、电路以及方法的详细说明,以免不必要的细节妨碍本申请的描述。
[0013]知识库是知识工程中结构化、易操作、易利用、全面有组织的知识集群,是针对某一(或某些)领域问题求解的需要,采用某种(或若干)知识表示方式在计算机存储器中存储、组织、管理和使用的互相联系的知识片集合。
[0014]用户的智能客服运营一般都是基于知识库的问答系统。知识库的问答系统中的问题和对应答案都需要人工提前编辑好,采用一问一答的形式实现客服机器人智能回复客户问题,通常一个问题会对应有一个意图或者答案。但是在智能客服场景中,随着时间推移,知识库中的文本数据会产生漂移现象,这种漂移现象产生的原因有两种:一是相同的一个问句,在不同的时间可能会对应到不同的意图;二是同样一个意图,随着时间变化答案可能会发生变化。如果这些异常的具有漂移现象的文本不加以识别处理,会使知识库中的数据质量下降,进而会造成业务指标下降。
[0015]现有技术中,通常需要依赖领域知识或者上下文信息来识别语义漂移文本,但是实际情况中,语义漂移文本往往可能处于同一领域中,且没有上下文的情况,在这种情况下,很难对语义漂移文本进行识别。
[0016]鉴于以上现有技术中的问题,本申请实施例提供一种全新的语义漂移文本的识别方法,通过利用拦截率预测模型确定第一问题文本的预测拦截率,并结合实际拦截率来筛选第一问题文本对应的语义漂移的意图文本;并且利用聚类的方式从人工服务的第二问题文本结合知识库中的第一问题文本进而确定语义漂移的意图文本。通过两种方式的结合互补,能够及时的对知识库中语义漂移的意图文本进行精准识别筛选,进一步的提高了知识库中的数据质量,提升了智能客服的业务指标。
[0017]下面将结合附图详细说明根据本申请实施例的一种语义漂移文本的识别方法及装置。
[0018]图1是本申请实施例的一种应用场景的场景示意图。该应用场景可以包括终端设备101、102和103、服务器104、网络105。
[0019]终端设备101、102和103可以是硬件,也可以是软件。当终端设备101、102和103为硬件时,其可以是具有显示屏且支持与服务器104通信的各种电子设备,包括但不限于智能手机、平板电脑、膝上型便携计算机和台式计算机等;当终端设备101、102和103为软件时,其可以安装在如上的电子设备中。终端设备101、102和103可以实现为多个软件或软件模块,也可以实现为单个软件或软件模块,本申请实施例对此不作限制。进一步地,终端设备101、102和103上可以安装有各种应用,例如数据处理应用、及时通信工具、社交平台软件、搜索类应用、购物类应用等。
[0020]服务器104可以是提供各种服务的服务器,例如,对与其建立通信连接的终端设备发送的请求进行接收的后台服务器,该后台服务器可以对终端设备发送的请求进行接收和分析等处理,并生成处理结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义漂移文本的识别方法,其特征在于,所述方法包括:确定知识库中智能客服服务时未转人工的第一问题文本;确定所述第一问题文本在参考时段内的参考拦截率;输入所述参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率;确定所述第一问题文本在当日的实际拦截率;根据所述实际拦截率与所述预测拦截率确定拦截率偏差;若所述第一问题文本的拦截率偏差大于预先设定的偏差阈值,则将所述第一问题文本对应的意图文本确定为语义漂移文本。2.根据权利要求1所述的方法,其特征在于,还包括:基于对所述第一问题文本每天的拦截率建立拦截率预测模型。3.根据权利要求1所述的方法,其特征在于,确定所述第一问题文本的当日的实际拦截率包括:确定所述第一问题文本的当日的命中次数;若所述命中次数大于预先设定的命中阈值;则根据所述命中次数确定所述实际拦截率。4.根据权利要求1所述的方法,其特征在于,还包括:确定当前智能客服服务时客户选择转人工的第二问题文本;将所述第二问题文本与所述第一问题文本进行聚类处理,以确定所述第二问题文本的目标类别;确定所述目标类别下第三问题文本的数量;若所述第三问题文本的数量大于预先设定的数量阈值,则确定所述第三文本所对应的意图文本为语义漂移文本。5.根据权利要求4所述的方法,其特征在于,将所述第二问题文本与所述第一问题文本进行聚类处理,以确定所述第二问题文本的目标类别包括:将所述第二问题文本与所述第一问题文本进行聚类处理;以确定所述第二问题文本与所述第一问题文本每一类别的余弦相似度;根据所述余弦相似度确定所述第二...

【专利技术属性】
技术研发人员:武文杰
申请(专利权)人:深圳须弥云图空间科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1