System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文本处理方法、装置、设备及存储介质制造方法及图纸_技高网

文本处理方法、装置、设备及存储介质制造方法及图纸

技术编号:40312705 阅读:8 留言:0更新日期:2024-02-07 20:55
本申请实施例公开了一种文本处理方法、装置、设备及存储介质,方法包括:获取客户和坐席之间的交互文本,包括来源于客户的客户输入文本和来源于坐席的坐席输入文本;根据客户输入文本确定客户的意图文本;根据坐席输入文本确定坐席的坐席话术文本;构建意图文本和坐席话术文本之间的异质图谱;异质图谱中包括意图文本对应的意图节点、坐席话术文本对应的话术节点、意图节点和话术节点之间的第一连接信息、以及各话术节点之间的第二连接信息;根据第一连接信息,将异质图谱转化为同质图谱;根据同质图谱,对各话术节点进行聚类处理。本申请能够提升坐席话术文本的聚类准确度和聚类效率。

【技术实现步骤摘要】

本申请涉及自然语言处理,尤其涉及一种文本处理方法、装置、设备及存储介质


技术介绍

1、标签体系是对全局数据进行系统化的分类,通过对信息按照需求进行分类,以实现对信息的有序区分。在不同领域,标签体系的称呼存在差异。例如,在搜索推荐领域,标签体系又被称作用户画像,用于实现精细化地信息推荐。在电话营销(电销)领域,标签体系又被称作话术标签,用于实现更好地交互效果。标签体系的构建由需求进行驱动,但同时也受场景的影响,尤其是在电销场景下,电销坐席的应答话术文本很长,这就导致话术文本的聚类难度增大,进而影响标签体系的构建。可见,如何提供一种高效、准确地文本聚类方法,从而为构建标签体系提供有力的数据支撑,成为目前亟待解决的一个问题。


技术实现思路

1、本申请实施例的目的是提供一种文本处理方法、装置、设备及存储介质,用以提升话术文本分类的效率和准确度。

2、为解决上述技术问题,本申请实施例是这样实现的:

3、一方面,本申请实施例提供一种文本处理方法,包括:

4、获取客户和坐席之间的交互文本;所述交互文本包括来源于所述客户的客户输入文本和来源于所述坐席的坐席输入文本;

5、根据所述客户输入文本,确定所述客户的意图文本;以及,根据所述坐席输入文本,确定所述坐席的坐席话术文本;

6、构建所述意图文本和所述坐席话术文本之间的异质图谱;所述异质图谱中包括所述意图文本对应的意图节点、所述坐席话术文本对应的话术节点、所述意图节点和所述话术节点之间的第一连接信息、以及各所述话术节点之间的第二连接信息;

7、根据所述第一连接信息,将所述异质图谱转化为同质图谱;所述同质图谱中仅包括所述话术节点、以及各所述话术节点之间的第二连接信息;

8、根据所述同质图谱,对各所述话术节点进行聚类处理,得到所述坐席话术文本的聚类结果。

9、另一方面,本申请实施例提供一种文本处理装置,包括:

10、获取模块,用于获取客户和坐席之间的交互文本;所述交互文本包括来源于所述客户的客户输入文本和来源于所述坐席的坐席输入文本;

11、第一确定模块,用于根据所述客户输入文本,确定所述客户的意图文本;以及,根据所述坐席输入文本,确定所述坐席的坐席话术文本;

12、构建模块,用于构建所述意图文本和所述坐席话术文本之间的异质图谱;所述异质图谱中包括所述意图文本对应的意图节点、所述坐席话术文本对应的话术节点、所述意图节点和所述话术节点之间的第一连接信息、以及各所述话术节点之间的第二连接信息;

13、转化模块,用于根据所述第一连接信息,将所述异质图谱转化为同质图谱;所述同质图谱中仅包括所述话术节点、以及各所述话术节点之间的第二连接信息;

14、聚类模块,用于根据所述同质图谱,对各所述话术节点进行聚类处理,得到所述坐席话术文本的聚类结果。

15、再一方面,本申请实施例提供一种文本处理设备,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现上述文本处理方法。

16、再一方面,本申请实施例提供一种计算机可读存储介质,用于存储计算机程序,所述计算机程序能够被处理器执行以实现上述文本处理方法。

17、采用本申请实施例的技术方案,在获取到客户和坐席之间的交互文本之后,通过根据交互文本中的客户输入文本确定客户的意图文本,以及根据交互文本中的坐席输入文本确定坐席的坐席话术文本,进而构建意图文本和坐席话术文本之间的异质图谱,异质图谱包括:意图文本对应的意图节点、坐席话术文本对应的话术节点、意图节点和话术节点之间的第一连接信息、以及各话术节点之间的第二连接信息。可见,通过异质图谱将客户的意图文本和坐席的坐席话术文本之间连接起来,能够将属于不同语义角色(即客户和坐席)的文本之间建立连接,从而更大程度地体现出不同语义角色之间的交互信息。进而,根据异质图谱中意图节点和话术节点之间的第一连接信息,将异质图谱转化为同质图谱,并根据同质图谱对各话术节点进行聚类处理,得到坐席话术文本的聚类结果。由于同质图谱中仅包括话术节点以及各话术节点之间的第二连接信息,也就是说,异质图谱中的意图节点和话术节点之间的第一连接信息被转化为各话术节点之间的第二连接信息,这不仅保留了不同语义角色之间的交互信息,还能够基于交互信息对坐席话术文本进行聚类。由于坐席输入文本在一定程度上依赖于客户输入文本,例如客户输入文本“怎么查看活动”,则坐席输入文本“您可以登录app查看一下”,因此,基于交互信息对坐席话术文本进行聚类,能够提升坐席话术文本的聚类准确度。此外,通过构建交互文本对应的图谱(异质图谱或同质图谱),并基于图谱对坐席话术文本进行聚类,而并非直接根据交互文本进行聚类,由于图谱相较于交互文本而言,不仅能够提供更多的交互信息(如各节点之间的连接信息),且文本之间的关系更加直观、准确,因此能够极大提升坐席话术文本的聚类准确度和聚类效率。

本文档来自技高网...

【技术保护点】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述客户输入文本,确定所述客户的意图文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述坐席输入文本,确定所述坐席的坐席话术文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个坐席文本进行话术提取处理,得到所述坐席的坐席话术文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本相似度,对所述去重后的多个坐席文本进行归并处理,得到所述坐席话术文本,包括:

6.根据权利要求3所述的方法,其特征在于,所述根据所述坐席输入文本,确定所述坐席的坐席话术文本之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述获取样本输入数据和所述样本输入数据对应的目标输出数据,包括:

8.根据权利要求6所述的方法,其特征在于,所述待训练的主题分类模型包括:嵌入网络、编码网络和主题分类网络;

9.根据权利要求6所述的方法,其特征在于,所述方法还包括:>

10.根据权利要求1所述的方法,其特征在于,所述构建所述意图文本和所述坐席话术文本之间的异质图谱,包括:

11.根据权利要求10所述的方法,其特征在于,所述根据所述意图文本和所述坐席话术文本在所述交互文本中的第一文本位置关系,确定所述意图文本和所述坐席话术文本之间的第一关系类型,包括:

12.根据权利要求1述的方法,其特征在于,所述第一连接信息包括第一类连接边,所述第二连接信息包括第二类连接边;

13.一种文本处理装置,其特征在于,包括:

14.一种文本处理设备,其特征在于,包括处理器和与所述处理器电连接的存储器,所述存储器存储有计算机程序,所述处理器用于从所述存储器调用并执行所述计算机程序以实现如权利要求1-12任一项所述的文本处理方法。

15.一种计算机可读存储介质,其特征在于,所述存储介质用于存储计算机程序,所述计算机程序能够被处理器执行以实现如权利要求1-12任一项所述的文本处理方法。

...

【技术特征摘要】

1.一种文本处理方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述根据所述客户输入文本,确定所述客户的意图文本,包括:

3.根据权利要求1所述的方法,其特征在于,所述根据所述坐席输入文本,确定所述坐席的坐席话术文本,包括:

4.根据权利要求3所述的方法,其特征在于,所述对所述多个坐席文本进行话术提取处理,得到所述坐席的坐席话术文本,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述文本相似度,对所述去重后的多个坐席文本进行归并处理,得到所述坐席话术文本,包括:

6.根据权利要求3所述的方法,其特征在于,所述根据所述坐席输入文本,确定所述坐席的坐席话术文本之前,所述方法还包括:

7.根据权利要求6所述的方法,其特征在于,所述获取样本输入数据和所述样本输入数据对应的目标输出数据,包括:

8.根据权利要求6所述的方法,其特征在于,所述待训练的主题分类模型包括:嵌入网络、编码网络和主题分类网络;

9....

【专利技术属性】
技术研发人员:汪自立马超陆全吴海英蒋宁肖冰
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1