基于ERNIE模型和DCNN模型的还款预测方法技术

技术编号：27007525 阅读：23 留言：0更新日期：2021-01-08 17:12

本申请公开了一种基于ERNIE模型和DCNN模型的还款预测方法，该方法充分利用电话催收过程中生成的语音数据，并利用预训练后的ERNIE模型生成语音数据的语义表示，最终利用DCNN模型根据该语义表示确定预测结果。由于ERNIE模型在预训练过程中采用字掩码、词掩码、实体掩码和随机掩码四种掩码策略，因此能够学习到字层面、词层面、实体层面等知识信息，使得模型能够更好的捕捉到语义信息。而DCNN模型的宽卷积会使句子的长度增加，避免边缘信息丢失，且DCNN模型的动态池化层，能够保留原来序列的次序，显著提升还款预测的准确性和可靠性。此外，本申请还提供了一种基于ERNIE模型和DCNN模型的还款预测装置、设备及可读存储介质，其技术效果与上述方法相对应。

全部详细技术资料下载

【技术实现步骤摘要】
基于ERNIE模型和DCNN模型的还款预测方法
本申请涉及自然语言处理
，特别涉及一种基于ERNIE模型和DCNN模型的还款预测方法、装置、设备及可读存储介质。
技术介绍
随着信用卡业务的规模的不断扩大和借贷人群的不断下沉，信用卡贷后催收业务面临着新的挑战。传统催收预测模型采用的数据为用户的申请资料或当前贷后还款信息，基于这些数据预测过程包括：对当前申请资料信息进行预处理，得到当前资料信息的目标自变量特征信息；对此信息采用算法模型搭建，然后通过大量的数据训练得到催收预测模型，从而达到提高预测精度的目的。但是，该方案没有有效利用对用户电话沟通过程中产生的大量语音数据，在催收过程中用户的语音数据是真实且宝贵的，能够为催收预测提供诸多有价值的信息，而这些信息是申请资料和贷后还款信息无法提供的。随着机器学习和深度学习的快速发展，从大规模的对话数据中学到有用信息成为可能。文本分类作为自然语言处理的一个重要分支，在近几年里得到了快速发展，目前一般通过深度学习进行文本分类，基于深度学习的文本分类效果的好坏取决于对如何更好地提取出数据的潜在语义信息特征。传统的机器学习通过one-hot编码、TFIDF、LDA、LSA等算法提取数据潜在信息，但是这些算法存在维度灾难的问题，而word2vec、glove、fasttext等词向量模型虽然有着各自的优点，但是却也存在依赖于输入数据的质量与数量大小，对于不同领域的知识仍然存在需要重新进行训练才能再次使用的尴尬处境。使用大规模语料库训练出预训练模型，然后针对不同...

【技术保护点】
1.一种基于ERNIE模型和DCNN模型的还款预测方法，其特征在于，包括：/n利用文本数据集对ERNIE模型进行预训练；/n将预训练后的ERNIE模型与DCNN模型进行层级连接，得到还款预测模型；/n获取电话催收过程中生成的语音数据，采用ASR技术将所述语音数据转换为文本数据，并添加标签，得到训练样本；/n利用所述训练样本，对所述还款预测模型进行训练；/n将待测语音数据对应的文本数据输入训练完成的还款预测模型，得到预测结果。/n

【技术特征摘要】
1.一种基于ERNIE模型和DCNN模型的还款预测方法，其特征在于，包括：
利用文本数据集对ERNIE模型进行预训练；
将预训练后的ERNIE模型与DCNN模型进行层级连接，得到还款预测模型；
获取电话催收过程中生成的语音数据，采用ASR技术将所述语音数据转换为文本数据，并添加标签，得到训练样本；
利用所述训练样本，对所述还款预测模型进行训练；
将待测语音数据对应的文本数据输入训练完成的还款预测模型，得到预测结果。

2.如权利要求1所述的方法，其特征在于，在所述采用ASR技术将所述语音数据转换为文本数据之后，还包括：
利用kenLM纠错模块或pycorrect纠错模块对所述文本数据进行纠错。

3.如权利要求1所述的方法，其特征在于，所述利用文本数据集对ERNIE模型进行预训练，包括：
根据文本数据集和多种掩码策略，构造训练集，所述多种掩码策略包括字掩码策略、词掩码策略、实体掩码策略、随机掩码策略；
利用所述训练集对所述ERNIE模型进行预训练。

4.如权利要求3所述的方法，其特征在于，所述多种掩码策略还包括句子掩码策略，所述句子掩码策略为：对于目标句子，随机选择起始位置进行掩码，掩码比例不超过所述目标句子句长的预设比例。

5.如权利要求1所述的方法，其特征在于，所述将待测语音数据对应的文本数据输入训练完成的还款预测模型，得到预测结果，包括：
将待测语音数据对应的文本数据输入训练完成的还款预测模型的ERNIE模型，得到语义表示；
将所述语义表示输入训练完成的还款预测模型的DCNN模型，得到预测结果。

6.如权利要求5所述的方法，其特征在于，所述DCNN模型包括宽卷积层、动态池化层、Folding层、全连接层，所述将所述语义表示输入训练完成的还款预测模型的DCNN模型，得到预测结果，包括：
利用宽...

【专利技术属性】
技术研发人员：李电祥，陈学珉，
申请(专利权)人：上海畅圣计算机科技有限公司，
类型：发明
国别省市：上海;31

全部详细技术资料下载我是这个专利的主人