基于人工智能的文本处理方法及装置制造方法及图纸

技术编号:38328331 阅读:15 留言:0更新日期:2023-07-29 09:11
本发明专利技术公开了一种基于人工智能的文本处理方法及装置,涉及信息处理技术领域及人工智能领域、医疗服务领域,主要目的在于解决对语音转译文本校正处理的准确性较低的问题。主要包括获取待处理的初始文本,并对所述初始文本进行去重处理得到去重处理后的初始文本,所述初始文本为客服坐席的通话记录转译文本;基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本;对所述目标文本进行文本分类处理,以得到用于客服坐席话术导航信息构建的文本分类结果。主要用于处理客服坐席的通话语音转译文本。处理客服坐席的通话语音转译文本。处理客服坐席的通话语音转译文本。

【技术实现步骤摘要】
基于人工智能的文本处理方法及装置


[0001]本专利技术涉及一种信息处理领域及人工智能领域、医疗服务领域,特别是涉及一种基于人工智能的文本处理方法及装置。

技术介绍

[0002]语音识别技术(Automatic Speech Recognition)是一个多学科交叉的领域,与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连,其目的是将人的语音转换为文本。目前的语音识别技术受现有软件、硬件的发展状况的限制,如词汇表大小、语音复杂性、说话人数、硬件设备等,无法直接生成为人们所使用的文本,而是需要在语音转译到文本之后,对转译文本进行数据纠错和修改等处理,以得到能够供下游业务所使用的文本。
[0003]现有对于转译文本进行处理的方法,是通过模型对转译文本中单个字词的置信度进行打分,对置信度低于阈值的字词修改内容的调整,但该方法只能在错误类型比较单一的场景下应用,当面临复杂的语音识别场景,例如,保险客服坐席的语音识别场景等,该方法仅能够对同音词的错误进行纠正处理,而无法解决字词重复、字词丢失等问题,导致纠正处理后的转译文本的准确性仍然较低,进而影响下游任务,例如,在保险客服坐席的话术导航构建的应用场景下,纠正后的文本准确性较低将无法满足保险客服坐席的话术导航信息的构建。

技术实现思路

[0004]有鉴于此,本专利技术提供一种基于人工智能的文本处理方法及装置,主要目的在于现有对语音转译文本校正处理的准确性较低的问题。
[0005]依据本专利技术一个方面,提供了一种基于人工智能的文本处理方法,包括:
[0006]获取待处理的初始文本,并对所述初始文本进行去重处理得到去重处理后的初始文本,所述初始文本为客服坐席的通话记录转译文本;
[0007]基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本;
[0008]对所述目标文本进行文本分类处理,对所述目标文本进行文本分类处理,以得到用于客服坐席话术导航信息构建的文本分类结果。
[0009]进一步地,所述已完成训练的文本校正网络模型包括校正分类网络、语言生成网络,所述基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本包括:
[0010]利用所述校正分类网络对所述去重处理后的初始文本中每个字词进行校正分类预测处理,确定每个所述字词的校正类型;
[0011]基于所述字词的校正类型,利用所述语言生成网络对所述字词进行校正处理,得到所述初始文本的目标文本。
[0012]进一步地,所述校正类型至少包括待增加类型、待删除类型、待修正类型、保持类型中的一个,所述基于所述字词的校正类型,利用所述语言生成网络对所述字词进行校正处理,得到所述初始文本的目标文本包括:
[0013]若所述校正类型为所述待增加类型,则对所述字词的上文或下文位置进行第一掩蔽处理,则利用所述语言生成网络对第一掩蔽处理位置的内容进行预测处理,并将预测处理结果更新至所述第一掩蔽处理位置;
[0014]若所述校正类型为所述待修正类型,则对所述字词的位置进行第二掩蔽处理,并利用所述语言生成网络对第二掩蔽处理位置的内容进行预测处理,并将预测处理结果更新至所述第二掩蔽处理位置;
[0015]若所述校正类型为所述待删除类型,则对所述校正类型所对应的字词进行删除处理。
[0016]进一步地,所述对所述初始文本进行去重处理得到去重处理后的初始文本包括:
[0017]利用正则规则对所述初始文本进行标点去除处理;
[0018]基于不同字词长度的词袋模型分别对标点去除处理后的初始文本进行去重处理;
[0019]利用正则规则对所述去重处理的结果进行标点恢复处理,得到去重处理后的初始文本。
[0020]进一步地,所述基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本之前,所述方法还包括:
[0021]获取训练样本集,并构建包括校正分类网络、语言生成网络的初始文本校正网络模型,所述训练样本集包括对一段字词序列中的不同字词分别进行校正类型标记的多个训练样本,以及对一段字词序列中的同一字词标记有不同校正类型的多个训练样本;
[0022]基于所述训练样本集对所述初始文本校正网络模型进行训练,得到已完成训练的文本校正网络模型。
[0023]进一步地,所述基于所述训练样本集对所述初始文本校正网络模型进行训练,得到已完成训练的文本校正网络模型包括:
[0024]利用所述初始文本校正网络模型的校正分类网络对所述训练样本中的每个字词进行校正分类预测处理,得到标记有预测校正类型的训练样本;
[0025]利用所述初始文本校正网络模型的语言生成网络对所述标记有预测校正类型的训练样本进行掩蔽处理,并对掩蔽处理的位置进行预测处理,得到所述训练样本的校正处理结果;
[0026]基于所述训练样本的校正处理结果及与所述训练样本对应的正样本确定损失函数,以基于所述损失函数完成对所述初始文本校正网络模型的训练。
[0027]进一步地,所述文本分类结果至少包括一种通话业务类型的拆分文本,所述对所述目标文本进行文本分类处理,以得到用于客服坐席话术导航信息构建的文本分类结果之后,所述方法还包括:
[0028]调取与所述通话业务类型对应的文本信息提取模型,所述文本信息提取模型为基于对应所述通话业务类型的信息提取训练样本集训练得到的;
[0029]基于所述文本信息提取模型对所述拆分文本进行文本信息提取,得到与所述通话
业务类型对应的话术导航信息。
[0030]依据本专利技术另一个方面,提供了一种基于人工智能的文本处理装置,包括:
[0031]获取模块,用于获取待处理的初始文本,并对所述初始文本进行去重处理得到去重处理后的初始文本,所述初始文本为客服坐席的通话记录转译文本;
[0032]校正处理模块,用于基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本;
[0033]分类处理模块,用于对所述目标文本进行文本分类处理,对所述目标文本进行文本分类处理,以得到用于客服坐席话术导航信息构建的文本分类结果。
[0034]进一步地,所述校正处理模块包括:
[0035]第一处理单元,用于利用所述校正分类网络对所述去重处理后的初始文本中每个字词进行校正分类预测处理,确定每个所述字词的校正类型;
[0036]第二处理单元,用于基于所述字词的校正类型,利用所述语言生成网络对所述字词进行校正处理,得到所述初始文本的目标文本。
[0037]进一步地,在具体应用场景中,所述第二处理单元具体用于若所述校正类型为所述待增加类型,则对所述字词的上文或下文位置进行第一掩蔽处理,则利用所述语言生成网本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本处理方法,其特征在于,包括:获取待处理的初始文本,并对所述初始文本进行去重处理得到去重处理后的初始文本,所述初始文本为客服坐席的通话记录转译文本;基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本;对所述目标文本进行文本分类处理,以得到用于客服坐席话术导航信息构建的文本分类结果。2.根据权利要求1所述的方法,其特征在于,所述已完成训练的文本校正网络模型包括校正分类网络、语言生成网络,所述基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本包括:利用所述校正分类网络对所述去重处理后的初始文本中每个字词进行校正分类预测处理,确定每个所述字词的校正类型;基于所述字词的校正类型,利用所述语言生成网络对所述字词进行校正处理,得到所述初始文本的目标文本。3.根据权利要求2所述的方法,其特征在于,所述校正类型至少包括待增加类型、待删除类型、待修正类型、保持类型中的一个,所述基于所述字词的校正类型,利用所述语言生成网络对所述字词进行校正处理,得到所述初始文本的目标文本包括:若所述校正类型为所述待增加类型,则对所述字词的上文或下文位置进行第一掩蔽处理,则利用所述语言生成网络对第一掩蔽处理位置的内容进行预测处理,并将预测处理结果更新至所述第一掩蔽处理位置;若所述校正类型为所述待修正类型,则对所述字词的位置进行第二掩蔽处理,并利用所述语言生成网络对第二掩蔽处理位置的内容进行预测处理,并将预测处理结果更新至所述第二掩蔽处理位置;若所述校正类型为所述待删除类型,则对所述校正类型所对应的字词进行删除处理。4.根据权利要求1所述的方法,其特征在于,所述对所述初始文本进行去重处理得到去重处理后的初始文本包括:利用正则规则对所述初始文本进行标点去除处理;基于不同字词长度的词袋模型分别对标点去除处理后的初始文本进行去重处理;利用正则规则对所述去重处理的结果进行标点恢复处理,得到去重处理后的初始文本。5.根据权利要求1所述的方法,其特征在于,所述基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理,得到所述初始文本的目标文本之前,所述方法还包括:获取训练样本集,并构建包括校正分类网络、语言生成网络的初始文本校正网络模型,所述训练样本集包括对一段字词序列中的不同字词分别进行校正类型标记的多个训练样本,以及对一段...

【专利技术属性】
技术研发人员:侯昶宇王俊王晓锐
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1