标点预测模型的训练方法、标点添加方法及装置制造方法及图纸

技术编号:33555993 阅读:11 留言:0更新日期:2022-05-26 22:52
本申请公开了一种标点预测模型的训练方法、标点添加方法及装置,用于实现准确、高效地为文本添加标点。所述训练方法包括:将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;将第一特征向量和第二特征向量输入标点预测模型的多任务网络,输出第一标点预测信息,以及基于标注的标点信息和第一标点预测信息,调整各网络的网络参数,多任务网络包括:第一任务层,基于第一特征向量输出样本文本中标点的预测数量;特征融合层,对第一特征向量和第二特征向量进行融合处理得到第一融合特征向量;第二任务层,基于第一融合特征向量输出标点的预测位置及预测类型。及预测类型。及预测类型。

【技术实现步骤摘要】
标点预测模型的训练方法、标点添加方法及装置


[0001]本申请涉及人工智能
,尤其涉及一种标点预测模型的训练方法、标点添加方法及装置。

技术介绍

[0002]现阶段的语音交互,除了简单场景下可以直接利用语音信号进行识别以外,绝大多数场景都需要将语音信号转换为文字,然后再进行相应的研究分析。但是,通过现有的语音转录引擎转录的文本并不包含标点,而标点对于人类情感的表达往往起着重要的作用,比如同一文本被标上不同的标点,所表达的情感往往不同。因此,给文本添加正确的标点,对于计算机理解人类的真实意图,实现更好的人机交互,有着重要的作用。
[0003]目前常见的标点添加方案主要基于声学特征和/或文本特征实现标点的添加。基于声学特征的方案,是根据人在说话时的停顿时长预测标点,但在真实的自动语音识别(Automatic Speech Recognition,ASR)系统中,如果出现不自然的停顿,则会影响对标点的预测能力;基于文本特征的方案,由于文本数据间往往来源不同,利用来源于A场景的文本训练出的标点预测模型在来源于B场景的文本上难以奏效;基于声学特征和文本特征的方案,要求训练数据集同时包含语音数据及其经ASR转录后的文本数据,这不仅增加了训练数据集的获取难度,还增加了预测过程的复杂度,预测效率低。

技术实现思路

[0004]本申请实施例提供一种标点预测模型的训练方法、标点添加方法及装置,用于实现准确、高效地为文本添加标点,且具有广泛的适用性。
[0005]第一方面,本申请实施例提供一种标点预测模型的训练方法,包括:
[0006]将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
[0007]将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;
[0008]基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。
[0009]可以看出,在本申请实施例中,通过采用多任务学习架构的标点预测模型,将标注
有标点信息的样本文本输入到标点预测模型的特征提取网络进行特征提取,得到表征标点数量的第一特征向量和表征标点位置及类型的第二特征向量;接着,将第一特征向量和第二特征向量输入到标点预测模型的多任务网络中,由其中的第一任务层基于第一特征向量预测样本文本中标点的数量,由其中的特征融合层对第一特征向量和第二特征向量进行融合后输入到第二任务层,再由第二任务层基于融合所得的第一融合特征向量预测样本文本中标点的位置及类型;最后,基于标注的标点信息和经标点预测模型预测出的标点信息,调整标点预测模型中各网络的网络参数。可见,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,进一步地,利用训练得到的标点预测模型可以实现准确地为文本添加标点。
[0010]第二方面,本申请实施例提供一种标点添加方法,包括:
[0011]将待处理文本输入标点预测模型,输出第二标点预测信息,所述第二标点预测信息包括所述待处理文本中标点的预测数量、预测位置及预测类型,其中,所述标点预测模型包括特征提取网络和多任务网络,所述特征提取网络用于对所述待处理文本进行特征提取,得到第三特征向量和第四特征向量,所述第三特征向量用于表征所述待处理文本中标点的数量,所述第四特征向量用于表征所述待处理文本中标点的位置及类型;所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对输入的所述第三特征向量进行标点数量识别处理,得到所述待处理文本中标点的预测数量,所述特征融合层用于对所述第三特征向量和所述第四特征向量进行融合处理得到第二融合特征向量,所述第二任务层用于对输入的所述第二融合特征向量进行标点类型位置识别处理,得到所述待处理文本中标点的预测位置及预测类型;
[0012]基于所述第二标点预测信息,为所述待处理文本添加标点。
[0013]可以看出,在本申请实施例中,通过将待处理文本输入到训练得到的标点预测模型,即可得到待处理文本中的标点信息,而后完成标点添加,实现简便快捷,效率高;此外,训练出的标点预测模型具有联合学习标点数量预测和标点位置及类型预测这两个任务的能力,且经标点预测模型中的特征融合层融合处理后的融合特征向量中融合了两个任务各自所需的特征信息,这些特征信息中既包含了两个任务之间的关联信息,又包含了两个任务之间彼此不相关的信息,关联信息使得标点预测模型能够充分学习两个任务之间的关联性,由此可以提升标点预测模型的预测准确率;不相关信息则相当于在每个任务学习过程中引入的噪声,进而可以提升每个任务学习的泛化效果,使得标点预测模型具有广泛的适用性,能够适用于多种业务场景、多种来源的文本数据,基于训练得到的标点预测模型可以提高对待处理文本中的标点信息进行预测的准确率。
[0014]第三方面,本申请实施例提供一种标点预测模型的训练装置,包括:
[0015]第一输入模块,用于将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类
型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;
[0016]第二输入模块,用于将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标点预测模型的训练方法,其特征在于,包括:将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。2.根据权利要求1所述的方法,其特征在于,所述第一特征向量包括第一子特征向量和第二子特征向量,所述第一子特征向量和所述第二子特征向量为所述特征提取网络按照不同的特征提取方式对所述样本文本进行特征提取得到;所述多任务网络还包括第一注意力机制层,所述第一注意力机制层用于对输入的所述第一子特征向量和所述第二子特征向量进行特征增强处理,得到第一注意力特征向量;所述第一任务层用于对所述第一注意力特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量;所述特征融合层用于对所述第一注意力特征向量和所述第二特征向量进行融合处理,得到所述第一融合特征向量。3.根据权利要求2所述的方法,其特征在于,所述特征提取网络包括第一特征提取层和第二特征提取层,所述第一特征提取层和所述第二特征提取层具有不同的网络结构;所述第一特征提取层用于按照第一特征提取方式对所述样本文本进行特征提取,得到所述第一子特征向量;所述第二特征提取网络用于按照第二特征提取方式对所述样本文本进行特征提取,得到所述第二子特征向量和所述第二特征向量。4.根据权利要求1所述的方法,其特征在于,所述多任务网络还包括第二注意力机制层,所述第二注意力机制层用于对输入的所述第一特征融合向量和所述第二特征向量进行特征增强处理,得到第二注意力特征向量;所述第二任务层用于对所述第二注意力特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型。5.根据权利要求1所述的方法,其特征在于,所述基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数,包括:基于标注的标点数量和所述样本文本中标点的预测数量,确定所述样本文本对应的第一损失值,所述第一损失值用于表征预测标点的数量所产生的损失值;基于标注的标点位置及标点类型以及所述样本文本中标点的预测位置及预测类型,确
定所述样本文本对应的第二损失值,所述第二损失值用于表征预测标点的位置及类型所产生的损失值;基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值;基于所述预测损失值,采用反向传播算法调整所述标点预测模型中各网络的网络参数。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值,包括:基于所述第一损失值和所述第二损失值,确定所述样本文本对应的第三损失值,所述第三损失值用于表征预测标点的数量、位置及类型所产生的损失值;对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到所述样本文本对应的预测损失值。7.根据权利要求1至6中任一项所述的方法,其特征在于,在将标注有标点信息的样本文本输入标点预测模型的特征提取网络之前,所述方法还包括:获取包含标点的文本;基于所述包含标点的文本中标点的位置及类型,去除所述包含标点的文本中的标点,得到样本文本;在所述样本文本的首字符之前添加所述包含标点的文本中标点的数量;基于所述包含标点的文本中标点的位置及类型,生成与所述样本文本中各字符对应的标注信息,所述标注信息用于指示所对应的字符之后是否存在标点及存在的标点的类型。8.一种标点添加方法,其特征在于,包括:将待处理文本输入标...

【专利技术属性】
技术研发人员:李长林权佳成曹磊
申请(专利权)人:马上消费金融股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1