基于人工智能的文本处理方法及装置制造方法及图纸

技术编号：38328331 阅读：15 留言：0更新日期：2023-07-29 09:11

本发明专利技术公开了一种基于人工智能的文本处理方法及装置，涉及信息处理技术领域及人工智能领域、医疗服务领域，主要目的在于解决对语音转译文本校正处理的准确性较低的问题。主要包括获取待处理的初始文本，并对所述初始文本进行去重处理得到去重处理后的初始文本，所述初始文本为客服坐席的通话记录转译文本；基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理，得到所述初始文本的目标文本；对所述目标文本进行文本分类处理，以得到用于客服坐席话术导航信息构建的文本分类结果。主要用于处理客服坐席的通话语音转译文本。处理客服坐席的通话语音转译文本。处理客服坐席的通话语音转译文本。

全部详细技术资料下载

【技术实现步骤摘要】
基于人工智能的文本处理方法及装置

[0001]本专利技术涉及一种信息处理领域及人工智能领域、医疗服务领域，特别是涉及一种基于人工智能的文本处理方法及装置。

技术介绍

[0002]语音识别技术(Automatic Speech Recognition)是一个多学科交叉的领域，与声学、语音学、语言学、数字信号处理理论、信息论、计算机科学等众多学科紧密相连，其目的是将人的语音转换为文本。目前的语音识别技术受现有软件、硬件的发展状况的限制，如词汇表大小、语音复杂性、说话人数、硬件设备等，无法直接生成为人们所使用的文本，而是需要在语音转译到文本之后，对转译文本进行数据纠错和修改等处理，以得到能够供下游业务所使用的文本。
[0003]现有对于转译文本进行处理的方法，是通过模型对转译文本中单个字词的置信度进行打分，对置信度低于阈值的字词修改内容的调整，但该方法只能在错误类型比较单一的场景下应用，当面临复杂的语音识别场景，例如，保险客服坐席的语音识别场景等，该方法仅能够对同音词的错误进行纠正处理，而无法解决字词重复、字词丢失等问题，导致纠正处理后的转译文本的准确性仍然较低，进而影响下游任务，例如，在保险客服坐席的话术导航构建的应用场景下，纠正后的文本准确性较低将无法满足保险客服坐席的话术导航信息的构建。

技术实现思路

[0004]有鉴于此，本专利技术提供一种基于人工智能的文本处理方法及装置，主要目的在于现有对语音转译文本校正处理的准确性较低的问题。
[0005]依据本专利技术一个方面，提供了一种基于人...

【技术保护点】

【技术特征摘要】
1.一种基于人工智能的文本处理方法，其特征在于，包括：获取待处理的初始文本，并对所述初始文本进行去重处理得到去重处理后的初始文本，所述初始文本为客服坐席的通话记录转译文本；基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理，得到所述初始文本的目标文本；对所述目标文本进行文本分类处理，以得到用于客服坐席话术导航信息构建的文本分类结果。2.根据权利要求1所述的方法，其特征在于，所述已完成训练的文本校正网络模型包括校正分类网络、语言生成网络，所述基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理，得到所述初始文本的目标文本包括：利用所述校正分类网络对所述去重处理后的初始文本中每个字词进行校正分类预测处理，确定每个所述字词的校正类型；基于所述字词的校正类型，利用所述语言生成网络对所述字词进行校正处理，得到所述初始文本的目标文本。3.根据权利要求2所述的方法，其特征在于，所述校正类型至少包括待增加类型、待删除类型、待修正类型、保持类型中的一个，所述基于所述字词的校正类型，利用所述语言生成网络对所述字词进行校正处理，得到所述初始文本的目标文本包括：若所述校正类型为所述待增加类型，则对所述字词的上文或下文位置进行第一掩蔽处理，则利用所述语言生成网络对第一掩蔽处理位置的内容进行预测处理，并将预测处理结果更新至所述第一掩蔽处理位置；若所述校正类型为所述待修正类型，则对所述字词的位置进行第二掩蔽处理，并利用所述语言生成网络对第二掩蔽处理位置的内容进行预测处理，并将预测处理结果更新至所述第二掩蔽处理位置；若所述校正类型为所述待删除类型，则对所述校正类型所对应的字词进行删除处理。4.根据权利要求1所述的方法，其特征在于，所述对所述初始文本进行去重处理得到去重处理后的初始文本包括：利用正则规则对所述初始文本进行标点去除处理；基于不同字词长度的词袋模型分别对标点去除处理后的初始文本进行去重处理；利用正则规则对所述去重处理的结果进行标点恢复处理，得到去重处理后的初始文本。5.根据权利要求1所述的方法，其特征在于，所述基于已完成训练的文本校正网络模型对所述去重处理后的初始文本依次进行校正分类预测处理、校正处理，得到所述初始文本的目标文本之前，所述方法还包括：获取训练样本集，并构建包括校正分类网络、语言生成网络的初始文本校正网络模型，所述训练样本集包括对一段字词序列中的不同字词分别进行校正类型标记的多个训练样本，以及对一段...

【专利技术属性】
技术研发人员：侯昶宇，王俊，王晓锐，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人