System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 通话数据的类别预测方法、装置及存储介质制造方法及图纸_技高网

通话数据的类别预测方法、装置及存储介质制造方法及图纸

技术编号:41593687 阅读:14 留言:0更新日期:2024-06-07 00:04
本申请实施例公开了一种通话数据的类别预测方法及相关设备,实现音频和文本之间多模态混合交叉数据增强,数据质量显著提升,可以更好的对通话数据进行预测。该方法包括:对待测通话数据进行数据处理,以得到待测文本模态表征以及待测音频模态表征;根据待测文本模态表征以及待测音频模态表征确定待测文本嵌入表征以及待测音频嵌入表征;将待测文本嵌入表征以及待测音频嵌入表征映射至相同特征空间,以得到待测语义标签;将待测语义标签输入通话类别识别模型,以得到多个类别得分,通话类别识别模型为预先通过对训练数据集进行训练得到的,训练数据集包括多个通话数据样本以及增强数据样本;根据多个类别得分确定待测通话数据的预测结果。

【技术实现步骤摘要】

本申请涉及人工智能领域,尤其涉及一种通话数据的类别预测方法、装置及存储介质


技术介绍

1、随着信息化时代的飞速发展和人工智能技术的不断进步,在电话这样一种非结构化数据可以产生巨大的信息价值,但由于其便利性与匿名性,犯罪分子也会利用其进行通信信息诈骗。为了逃避日益严格的监管,犯罪分子频繁改变其作案手段,诈骗内容复杂多变,给电话诈骗检测带来了更大的挑战。因此,技术手段在运营商防范和打击通讯电话诈骗中起到不可或缺的作用。先进的技术方案通过语音识别技术、自然语言理解技术,来对电话通话意图进行自动化的检测。但是由于隐私保护等原因,电话通话数据往往比较匮乏。

2、现有的技术方案往往是基于单模态数据或部分阶段的多模态融合技术,在音频、文本、视频以及图像等领域都有相应的解决方案,例如:基于音频的时移变换、音量调节、速度调整,基于文本的同义词替换、增删字符、回译、变化句子顺序等等。

3、然而,现有方法往往只适用于单模态数据,不能体现多模态数据之间的互补关系。


技术实现思路

1、本申请实施例提供了一种通话数据的类别预测方法、装置及存储介质,实现音频和文本之间多模态混合交叉数据增强,数据质量显著提升,可以更好的对通话数据进行预测。

2、本申请第一方面提供一种通话数据的类别预测方法,可以包括:

3、对待测通话数据进行数据处理,以得到待测文本模态表征以及待测音频模态表征;

4、根据所述待测文本模态表征以及所述待测音频模态表征确定所述待测通话数据所对应的待测文本嵌入表征以及待测音频嵌入表征;

5、将所述待测文本嵌入表征以及所述待测音频嵌入表征映射至相同特征空间,以得到所述待测通话数据所对应的待测语义标签;

6、将所述待测语义标签输入通话类别识别模型,以得到所述待测通话数据所对应的多个类别得分,所述通话类别识别模型为预先通过对训练数据集进行训练得到的,所述训练数据集包括多个通话数据样本以及所述多个通话数据样本中每个通话数据样本所对应的增强数据样本;

7、根据所述多个类别得分确定所述待测通话数据的预测结果。

8、本申请第二方面提供了一种通话数据的类别预测装置,包括:

9、数据处理单元,用于对待测通话数据进行数据处理,以得到待测文本模态表征以及待测音频模态表征;

10、第一确定单元,用于根据所述待测文本模态表征以及所述待测音频模态表征确定所述待测通话数据所对应的待测文本嵌入表征以及待测音频嵌入表征;

11、映射单元,用于将所述待测文本嵌入表征以及所述待测音频嵌入表征映射至相同特征空间,以得到所述待测通话数据所对应的待测语义标签;

12、识别单元,用于将所述待测语义标签输入通话类别识别模型,以得到所述待测通话数据所对应的多个类别得分,所述通话类别识别模型为预先通过对训练数据集进行训练得到的,所述训练数据集包括多个通话数据样本以及所述多个通话数据样本中每个通话数据样本所对应的增强数据样本;

13、第二确定单元,用于根据所述多个类别得分确定所述待测通话数据的预测结果。

14、一种可能的设计中,所述装置还包括:

15、模型训练单元,所述模型训练单元用于:

16、获取原始通话数据集,所述原始通话数据集包括n段通话样本,其中,所述n为大于或等于2的整数;

17、对所述原始通话数据集中的每段通话样本进行数据处理,以得到所述每段通话所对应的文本模态表征以及音频模态表征;

18、对所述原始通话数据集中每段通话样本进行交叉数据增强,以得到所述每段通话样本所对应的m个增强样本,其中,所述m为大于或等于1的整数;

19、确定第一目标通话样本所对应的第一目标文本嵌入表征以及第二目标音频嵌入表征,所述第二目标通话样本为所述原始通话数据集以及所述原始通话数据集所对应的增强样本集中的任意一个通话样本;

20、将所述第一目标文本嵌入表征与所述第一目标音频嵌入表征映射至相同特征空间,以得到所述第一目标通话样本所对应的语义标签;

21、基于目标损失函数对所述原始通话数据集的语义标签以及所述原始通话数据集所对应的增强样本集的语义标签进行模型训练,以得到所述通话识别模型。

22、一种可能的设计中,所述模型训练单元对所述原始通话数据集中每段通话样本进行交叉数据增强,以得到所述每段通话样本所对应的m个增强通话样本包括:

23、将第一文本模态表征与第一音频模态表征进行混合交叉,以得到第一增强文本模态表征,所述第一文本模态表征和所述第一音频模态表征与第一通话样本相对应,所述第一通话样本为所述原始通话数据集中的任意一段通话样本;

24、将所述第一增强文本模态表征以及所述第一音频模态表征确定为第一增强通话样本的文本模态表征和音频模态表征;

25、和/或,

26、将第二音频模态表征与第二通话右相邻的通话样本的音频模态表征进行混合交叉,以得到第二增强音频模态表征,所述第二音频模态表征为第二通话的音频模态表征,所述第二通话样本为所述原始通话数据集中的任意一段通话样本;

27、将第二文本模态表征以及所述第二增强音频模态表征确定为第二增强通话样本的文本模态表征和音频模态表征,所述第二文本模态表征为所述第二通话的文本模态表征;

28、和/或,

29、将第三文本模态表征与第三通话右相邻的通话样本的文本模态表征进行混合交叉,以得到第三增强文本模态表征,所述第三文本模态表征为第三通话的文本模态表征,所述第三通话样本为所述原始通话数据集中的任意一段通话样本;

30、将第三文本模态表征以及所述第三增强音频模态表征确定为第三增强通话样本的文本模态表征和音频模态表征,所述第三音频模态表征为所述第三通话的音频模态表征;

31、和/或,

32、将第四音频模态表征与第四通话右相邻的通话样本的音频模态表征进行混合交叉,以得到第四增强音频模态表征,所述第四音频模态表征为第四通话的音频模态表征,所述第四通话样本为所述原始通话数据集中的任意一段通话样本;

33、将第四文本模态表征与所述第四通话右相邻的通话样本的文本模态表征进行混合交叉,以得到第四增强文本模态表征,所述第四文本模态表征为第四通话的文本模态表征;

34、将所述第四文本模态表征以及所述第四增强音频模态表征确定为第四增强通话样本的文本模态表征和音频模态表征。

35、一种可能的设计中,所述模型训练单元将第一文本模态表征与第一音频模态表征进行混合交叉,以得到第一增强文本模态表征包括:

36、通过如下公式对所述第一文本模态表征与所述第一音频模态表征进行混合交叉,得到所述第一增强文本模态表征:

37、

38、其中,为所述第一增强文本模态表征,ti为所述第一文本模态表征,ai为所述第一音频模态表征,n为所述原始通话数据集中包本文档来自技高网...

【技术保护点】

1.一种通话数据的类别预测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述原始通话数据集中每段通话样本进行交叉数据增强,以得到所述每段通话样本所对应的M个增强通话样本包括:

4.根据权利要求3所述的方法,其特征在于,所述将第一文本模态表征与第一音频模态表征进行混合交叉,以得到第一增强文本模态表征包括:

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:

6.根据权利要求2所述的方法,其特征在于,所述对所述原始通话数据集中的每段通话样本进行数据处理,以得到所述每段通话所对应的文本模态表征以及音频模态表征包括:

7.根据权利要求1至6中任一项所述的方法,其特征在于,所述根据所述多个类别得分确定所述待测通话数据的预测结果包括:

8.一种通话数据的类别预测装置,其特征在于,包括:

9.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,使得所述计算机执行如权利要求1至7中任一项所述的通话数据的类别预测方法。

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质中存储有至少一可执行指令,所述可执行指令在计算设备上运行时,使得计算设备执行如权利要求1至7中任一项所述的通话数据的类别预测方法。

...

【技术特征摘要】

1.一种通话数据的类别预测方法,其特征在于,包括:

2.根据权利要求1所述的方法,其特征在于,所述方法还包括:

3.根据权利要求2所述的方法,其特征在于,所述对所述原始通话数据集中每段通话样本进行交叉数据增强,以得到所述每段通话样本所对应的m个增强通话样本包括:

4.根据权利要求3所述的方法,其特征在于,所述将第一文本模态表征与第一音频模态表征进行混合交叉,以得到第一增强文本模态表征包括:

5.根据权利要求2所述的方法,其特征在于,所述方法还包括:

6.根据权利要求2所述的方法,其特征在于,所述对所述原始通话数据集中的每段通话样本进行数据处理,以得到...

【专利技术属性】
技术研发人员:胡泽远蒋健李海传罗琼
申请(专利权)人:中国移动通信集团浙江有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1