一种语义漂移文本的识别方法及装置制造方法及图纸

技术编号：39163011 阅读：16 留言：0更新日期：2023-10-23 15:03

本申请提供了一种语义漂移文本的识别方法及装置。该方法包括：确定知识库中智能客服服务时未转人工的第一问题文本；确定第一问题文本的参考时段内的参考拦截率；输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率；确定第一问题文本在当日的实际拦截率；根据实际拦截率与预测拦截率确定拦截率偏差；若第一问题文本的拦截率偏差大于预先设定的偏差阈值，则将第一问题文本对应的意图文本确定为语义漂移文本。本申请能够及时的对知识库中语义漂移的意图文本进行精准识别筛选，进一步的提高了知识库中的数据质量，提升了智能客服的业务指标。升了智能客服的业务指标。升了智能客服的业务指标。

全部详细技术资料下载

【技术实现步骤摘要】
一种语义漂移文本的识别方法及装置

[0001]本申请涉及自然语言处理
，尤其涉及一种语义漂移文本的识别方法及装置。

技术介绍

[0002]用户的智能客服运营一般都是基于知识库的问答系统。知识库的问答系统中的问题和对应答案都需要人工提前编辑好，采用一问一答的形式实现客服机器人智能回复客户问题。但是在智能客服场景中，随着时间推移，知识库中的文本数据会产生漂移现象，这种漂移现象产生的原因有两种：一是相同的一个问句，在不同的时间可能会对应到不同的意图；二是同样一个意图，随着时间变化答案可能会发生变化。如果这些异常的具有漂移现象的文本不加以识别处理，会使知识库中的数据质量下降，进而会造成业务指标下降。
[0003]现有技术中，通常需要依赖领域知识或者上下文信息来识别语义漂移文本，但是实际情况中，语义漂移文本往往可能处于同一领域中，且没有上下文的情况，在这种情况下，很难对语义漂移文本进行识别。

技术实现思路

[0004]有鉴于此，本申请实施例提供了一种语义漂移文本的识别方法及装置，以解决现有技术中对语义漂移文本难以识别的问题。
[0005]本申请实施例的第一方面，提供了一种语义漂移文本的识别方法，该方法包括：确定知识库中智能客服服务时未转人工的第一问题文本；确定第一问题文本的参考时段内的参考拦截率；输入参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率；确定第一问题文本在当日的实际拦截率；根据实际拦截率与预测拦截率确定拦截率偏差；若第一问题文本的拦截率偏差大于预先设定的偏差阈值，...

【技术保护点】

【技术特征摘要】
1.一种语义漂移文本的识别方法，其特征在于，所述方法包括：确定知识库中智能客服服务时未转人工的第一问题文本；确定所述第一问题文本在参考时段内的参考拦截率；输入所述参考拦截率至拦截率预测模型以输出第一问题文本在当日的预测拦截率；确定所述第一问题文本在当日的实际拦截率；根据所述实际拦截率与所述预测拦截率确定拦截率偏差；若所述第一问题文本的拦截率偏差大于预先设定的偏差阈值，则将所述第一问题文本对应的意图文本确定为语义漂移文本。2.根据权利要求1所述的方法，其特征在于，还包括：基于对所述第一问题文本每天的拦截率建立拦截率预测模型。3.根据权利要求1所述的方法，其特征在于，确定所述第一问题文本的当日的实际拦截率包括：确定所述第一问题文本的当日的命中次数；若所述命中次数大于预先设定的命中阈值；则根据所述命中次数确定所述实际拦截率。4.根据权利要求1所述的方法，其特征在于，还包括：确定当前智能客服服务时客户选择转人工的第二问题文本；将所述第二问题文本与所述第一问题文本进行聚类处理，以确定所述第二问题文本的目标类别；确定所述目标类别下第三问题文本的数量；若所述第三问题文本的数量大于预先设定的数量阈值，则确定所述第三文本所对应的意图文本为语义漂移文本。5.根据权利要求4所述的方法，其特征在于，将所述第二问题文本与所述第一问题文本进行聚类处理，以确定所述第二问题文本的目标类别包括：将所述第二问题文本与所述第一问题文本进行聚类处理；以确定所述第二问题文本与所述第一问题文本每一类别的余弦相似度；根据所述余弦相似度确定所述第二...

【专利技术属性】
技术研发人员：武文杰，
申请(专利权)人：深圳须弥云图空间科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人