一种文本处理方法、装置和计算机可读存储介质制造方法及图纸

技术编号:22594898 阅读:46 留言:0更新日期:2019-11-20 11:11
本申请实施例公开了一种文本处理方法、装置和计算机可读存储介质,其中,本申请实施例可以基于预设初始模型确定预测正确的第一文本片段和预测错误的第二文本片段,预设初始模型包括上半分支网络和下半分支网络;分别遮盖当前训练文本中的第一文本片段和第二文本片段,得到第一输入文本和第二输入文本;基于上半分支网络对第一输入文本进行特征提取,得到第一特征信息;根据第一特征信息、第二输入文本和下半分支网络,对各位置的文本片段进行预测,得到预测文本;基于预测文本与当前训练文本进行收敛,得到目标语言模型;基于目标语言模型和待处理文本进行文本片段预测,得到目标文本。本发明专利技术实施例可以提高文本处理速度。

A text processing method, device and computer readable storage medium

The embodiment of the application discloses a text processing method, device and computer-readable storage medium, wherein, the embodiment of the application can determine the first text segment with correct prediction and the second text segment with wrong prediction based on the preset initial model, which includes the upper half branch network and the lower half branch network; respectively cover the first text segment in the current training text The first input text and the second input text are obtained from the first and second text segments; the first input text is extracted from the upper half branch network to obtain the first feature information; the text segments at each position are predicted according to the first feature information, the second input text and the lower half branch network to obtain the predicted text; the convergence is achieved based on the predicted text and the current training text Based on the target language model and the text to be processed, the target text is predicted. The embodiment of the invention can improve the text processing speed.

【技术实现步骤摘要】
一种文本处理方法、装置和计算机可读存储介质
本申请涉及神经网络的
,具体涉及一种文本处理方法、装置和计算机可读存储介质。
技术介绍
近年来,随着神经网络技术在人工智能领域的大热,将神经网络应用于自然语言处理系统(NaturalLanguageProcessing,NLP)也有了长足的发展,通常,自然语言处理系统基于预训练的语言模型搭建,然后根据文本处理的具体场景微调参数。语言模型需要涵盖文本中的语义和语法特征,需要使用大量的文本对模型进行预训练,每个文本需要循环训练多次,才能理解文本语义、语法,比如MASS模型需要训练50万步,才能得到所述语言模型,因此,需要耗费大量的时间才能获得处理文本需要的目标语言模型,从而导致文本处理速度较慢。
技术实现思路
有鉴于此,本申请实施例提供了一种文本处理方法、装置和计算机可读存储介质,可以提高文本处理速度。第一方面,本申请实施例提供了一种文本处理方法,包括:基于预设初始模型对预测文本中各个位置上的文本片段进行初始预测,确定预测正确的第一文本片段和预测错误的第二文本片段,预设初始模型包括上半分支网络和下半分支网络;对当前训练文本中的第一文本片段进行遮盖,得到第一输入文本;对当前训练文本中的第二文本片段进行遮盖,得到第二输入文本;基于所述上半分支网络对所述第一输入文本进行特征提取,得到所述第一输入文本的第一特征信息;根据所述第一特征信息和所述第二输入文本,以及所述下半分支网络,对预测文本中各个位置的文本片段进行预测,得到预测文本;基于所述预测文本与所述当前训练文本进行收敛,得到目标语言模型;基于所述目标语言模型和待处理文本进行文本片段预测,得到目标文本。在一实施例中,基于预设初始模型对预测文本中各个位置上的文本片段进行预测,确定预测正确的第一文本片段和预测错误的第二文本片段,包括:根据预设初始模型的上半分支网络对当前训练文本进行特征提取,获取当前训练文本的特征信息;基于所述预设初始模型的下半分支网络,以及所述当前训练文本的特征信息,对预测文本中各个位置上的文本片段进行初始文本预测,得到预测文本;根据所述预测文本和所述当前训练文本,确定预测文本中预测正确的第一文本片段和预测错误的第二文本片段。在一实施例中,在所述基于预设初始模型对预测文本中各个位置上的文本片段进行初始预测,确定预测正确的第一文本片段和预测错误的第二文本片段之前,还包括:从预设文本集中获取当前训练文本;基于预设初始模型的上半分支网络对所述当前训练文本进行特征提取,获取所述当前训练文本的特征信息;根据所述特征信息和当前训练文本,以及所述预设初始模型的下半分支网络,对预测文本中的各个位置的文本片段进行文本预测,得到预测文本;基于所述预测文本和所述当前训练文本进行收敛。在一实施例中,基于所述预测文本和当前训练文本进行收敛,得到目标语言模型,包括:根据预设损失函数,获取所述预测文本与所述当前训练文本的交叉熵损失;基于所述交叉熵损失,调整所述预设初始模型中的参数,得到当前训练文本训练后的当前预设初始模型;基于所述当前预设初始模型,获取目标语言模型。在一实施例中,基于所述交叉熵损失,调整所述预设初始模型中的参数,得到当前训练文本训练后的预设初始模型,包括:若所述交叉熵损失不满足预设条件,则调整所述预设初始模型中的参数;根据所述预测文本,更新所述第一输入文本和第二输入文本;返回执行所述基于预设初始模型中上半分支网络对第一输入文本进行特征提取,得到第一输入文本的第一特征信息的步骤,直至所述交叉熵损失满足预设条件;获取当前训练文本训练后的当前预设初始模型。在一实施例中,基于所述当前预设初始模型,获取目标语言模型,包括:将所述当前训练文本从预设文本集中删除;返回执行所述从预设文本集中获取文本的步骤,将当前训练文本更新为获取到的文本;基于所述当前训练文本对所述目当前预设初始模型进行训练,直至所述预设文本集中的文本均训练完毕,得到目标语言模型。在一实施例中,基于所述预设初始模型中上半分支网络对第一输入文本进行特征提取,得到第一输入文本的第一特征信息,包括:对所述第一输入文本的文本片段进行位置特征提取和词法特征提取,得到各文本片段对应的语义特征信息;对所述语义特征信息进行卷积运算,提取当前语义特征信息与其它语义特征信息之间语义相关特征,得到各语义特征信息对应的语义相关信息;对语义特征信息和对应的语义相关信息进行加权运算,得到所述第一输入文本对应的局部特征信息;对所述第一输入文本对应的局部特征信息进行全连接运算,得到所述第一特征信息。在一实施例中,根据所述第一特征信息和第二输入文本,以及预设训练模型的下半分支网络,对预测文本中各个位置上的文本片段进行预测,得到预测文本,包括:对所述第二输入文本进行特征提取,获取第二输入文本对应的局部特征信息;提取所述第二输入文本对应的局部特征信息与所述第一特征信息的语法相关特征,得到各位置的文本片段对应的全局特征信息;对所述全局特征信息进行全连接运算,获取各位置的文本片段的概率分布信息;根据所述概率分布信息以及预设词表,获取预测文本中各位置的文本片段;基于所述各位置的文本片段,获取所述预测文本。在一实施例中,所述基于所述目标语言模型和待处理文本进行文本片段预测,得到目标文本,包括:获取待处理文本;基于训练得到的目标语言模型的上半分支网络对所述待处理文本给进行特征提取,得到待处理文本的特征信息;根据所述待处理文本的特征信息,以及所述目标语言模型的下半分支网络,对目标文本中各个位置上的文本片段进行预测,得到目标文本。在一实施例中,基于训练得到的目标语言模型的上半分支网络对所述待处理文本给进行特征提取,得到待处理文本的特征信息,包括:对所述待处理文本的文本片段进行位置特征提取和词法特征提取,得到各文本片段对应的语义特征信息;对所述语义特征信息进行卷积运算,提取当前语义特征信息与其它语义特征信息之间语义相关特征,得到各语义特征信息对应的语义相关信息;对语义特征信息和对应的语义相关信息进行加权运算,得到所述待处理文本对应的局部特征信息;对所述待处理文本对应的局部特征信息进行全连接运算,得到所述待处理文本的特征信息。在一实施例中,根据所述待处理文本的特征信息,以及所述目标语言模型的下半分支网络,对目标文本中各个位置上的文本片段进行预测,得到目标文本,包括:基于历史概率分布信息与所述所述待处理文本的特征信息,提取目标文本中当前位置的文本片段与所述待处理文本的语义相关特征,得到当前位置的文本片段对应的当前全局特征信息,其中,所述历史概率分布信息为当前位置之前的位置的文本片段对应的概率分布信息;对所述当前全局特征信息进行全连本文档来自技高网...

【技术保护点】
1.一种文本处理方法,其特征在于,包括:/n基于预设初始模型对预测文本中各个位置上的文本片段进行初始预测,确定预测正确的第一文本片段和预测错误的第二文本片段,预设初始模型包括上半分支网络和下半分支网络;/n对当前训练文本中的第一文本片段进行遮盖,得到第一输入文本;/n对当前训练文本中的第二文本片段进行遮盖,得到第二输入文本;/n基于所述上半分支网络对所述第一输入文本进行特征提取,得到所述第一输入文本的第一特征信息;/n根据所述第一特征信息和所述第二输入文本,以及所述下半分支网络,对预测文本中各个位置的文本片段进行预测,得到预测文本;/n基于所述预测文本与所述当前训练文本进行收敛,得到目标语言模型;/n基于所述目标语言模型和待处理文本进行文本片段预测,得到目标文本。/n

【技术特征摘要】
1.一种文本处理方法,其特征在于,包括:
基于预设初始模型对预测文本中各个位置上的文本片段进行初始预测,确定预测正确的第一文本片段和预测错误的第二文本片段,预设初始模型包括上半分支网络和下半分支网络;
对当前训练文本中的第一文本片段进行遮盖,得到第一输入文本;
对当前训练文本中的第二文本片段进行遮盖,得到第二输入文本;
基于所述上半分支网络对所述第一输入文本进行特征提取,得到所述第一输入文本的第一特征信息;
根据所述第一特征信息和所述第二输入文本,以及所述下半分支网络,对预测文本中各个位置的文本片段进行预测,得到预测文本;
基于所述预测文本与所述当前训练文本进行收敛,得到目标语言模型;
基于所述目标语言模型和待处理文本进行文本片段预测,得到目标文本。


2.如权利要求1所述的文本处理方法,其特征在于,基于预设初始模型对预测文本中各个位置上的文本片段进行预测,确定预测正确的第一文本片段和预测错误的第二文本片段,包括:
根据预设初始模型的上半分支网络对当前训练文本进行特征提取,获取当前训练文本的特征信息;
基于所述预设初始模型的下半分支网络,以及所述当前训练文本的特征信息,对预测文本中各个位置上的文本片段进行初始文本预测,得到预测文本;
根据所述预测文本和所述当前训练文本,确定预测文本中预测正确的第一文本片段和预测错误的第二文本片段。


3.如权利要求1所述的文本处理方法,其特征在于,在所述基于预设初始模型对预测文本中各个位置上的文本片段进行初始预测,确定预测正确的第一文本片段和预测错误的第二文本片段之前,还包括:
从预设文本集中获取当前训练文本;
基于预设初始模型的上半分支网络对所述当前训练文本进行特征提取,获取所述当前训练文本的特征信息;
根据所述特征信息和当前训练文本,以及所述预设初始模型的下半分支网络,对预测文本中的各个位置的文本片段进行文本预测,得到预测文本;
基于所述预测文本和所述当前训练文本进行收敛。


4.如权利要求1所述的文本处理方法,其特征在于,基于所述预测文本和当前训练文本进行收敛,得到目标语言模型,包括:
根据预设损失函数,获取所述预测文本与所述当前训练文本的交叉熵损失;
基于所述交叉熵损失,调整所述预设初始模型中的参数,得到当前训练文本训练后的当前预设初始模型;
基于所述当前预设初始模型,获取目标语言模型。


5.如权利要求4所述的文本处理方法,其特征在于,基于所述交叉熵损失,调整所述预设初始模型中的参数,得到当前训练文本训练后的预设初始模型,包括:
若所述交叉熵损失不满足预设条件,则调整所述预设初始模型中的参数;
根据所述预测文本,更新所述第一输入文本和第二输入文本;
返回执行所述基于预设初始模型中上半分支网络对第一输入文本进行特征提取,得到第一输入文本的第一特征信息的步骤,直至所述交叉熵损失满足预设条件;
获取当前训练文本训练后的当前...

【专利技术属性】
技术研发人员:赵瑞辉朱子宁
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1