【技术实现步骤摘要】
标点预测模型的训练方法、标点添加方法及装置
[0001]本申请涉及人工智能
,尤其涉及一种标点预测模型的训练方法、标点添加方法及装置。
技术介绍
[0002]现阶段的语音交互,除了简单场景下可以直接利用语音信号进行识别以外,绝大多数场景都需要将语音信号转换为文字,然后再进行相应的研究分析。但是,通过现有的语音转录引擎转录的文本并不包含标点,而标点对于人类情感的表达往往起着重要的作用,比如同一文本被标上不同的标点,所表达的情感往往不同。因此,给文本添加正确的标点,对于计算机理解人类的真实意图,实现更好的人机交互,有着重要的作用。
[0003]目前常见的标点添加方案主要基于声学特征和/或文本特征实现标点的添加。基于声学特征的方案,是根据人在说话时的停顿时长预测标点,但在真实的自动语音识别(Automatic Speech Recognition,ASR)系统中,如果出现不自然的停顿,则会影响对标点的预测能力;基于文本特征的方案,由于文本数据间往往来源不同,利用来源于A场景的文本训练出的标点预测模型在来源于B场景的文本上难以奏效;基于声学特征和文本特征的方案,要求训练数据集同时包含语音数据及其经ASR转录后的文本数据,这不仅增加了训练数据集的获取难度,还增加了预测过程的复杂度,预测效率低。
技术实现思路
[0004]本申请实施例提供一种标点预测模型的训练方法、标点添加方法及装置,用于实现准确、高效地为文本添加标点,且具有广泛的适用性。
[0005]第一方面,本申请实施例提供一种标点预测 ...
【技术保护点】
【技术特征摘要】
1.一种标点预测模型的训练方法,其特征在于,包括:将标注有标点信息的样本文本输入标点预测模型的特征提取网络,输出第一特征向量和第二特征向量,其中,所述标点信息包括标点的数量、位置及类型,所述第一特征向量用于表征所述样本文本中标点的数量,所述第二特征向量用于表征所述样本文本中标点的位置及类型;将所述第一特征向量和所述第二特征向量输入所述标点预测模型的多任务网络,输出第一标点预测信息,其中,所述第一标点预测信息包括所述样本文本中标点的预测数量、预测位置及预测类型,所述多任务网络包括第一任务层、第二任务层和特征融合层,所述第一任务层用于对所述第一特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量,所述特征融合层用于对所述第一特征向量和所述第二特征向量进行融合处理得到第一融合特征向量,所述第二任务层用于对所述第一融合特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型;基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数。2.根据权利要求1所述的方法,其特征在于,所述第一特征向量包括第一子特征向量和第二子特征向量,所述第一子特征向量和所述第二子特征向量为所述特征提取网络按照不同的特征提取方式对所述样本文本进行特征提取得到;所述多任务网络还包括第一注意力机制层,所述第一注意力机制层用于对输入的所述第一子特征向量和所述第二子特征向量进行特征增强处理,得到第一注意力特征向量;所述第一任务层用于对所述第一注意力特征向量进行标点数量识别处理,得到所述样本文本中标点的预测数量;所述特征融合层用于对所述第一注意力特征向量和所述第二特征向量进行融合处理,得到所述第一融合特征向量。3.根据权利要求2所述的方法,其特征在于,所述特征提取网络包括第一特征提取层和第二特征提取层,所述第一特征提取层和所述第二特征提取层具有不同的网络结构;所述第一特征提取层用于按照第一特征提取方式对所述样本文本进行特征提取,得到所述第一子特征向量;所述第二特征提取网络用于按照第二特征提取方式对所述样本文本进行特征提取,得到所述第二子特征向量和所述第二特征向量。4.根据权利要求1所述的方法,其特征在于,所述多任务网络还包括第二注意力机制层,所述第二注意力机制层用于对输入的所述第一特征融合向量和所述第二特征向量进行特征增强处理,得到第二注意力特征向量;所述第二任务层用于对所述第二注意力特征向量进行标点类型位置识别处理,得到所述样本文本中标点的预测位置及预测类型。5.根据权利要求1所述的方法,其特征在于,所述基于标注的标点信息和所述第一标点预测信息,调整所述标点预测模型中各网络的网络参数,包括:基于标注的标点数量和所述样本文本中标点的预测数量,确定所述样本文本对应的第一损失值,所述第一损失值用于表征预测标点的数量所产生的损失值;基于标注的标点位置及标点类型以及所述样本文本中标点的预测位置及预测类型,确
定所述样本文本对应的第二损失值,所述第二损失值用于表征预测标点的位置及类型所产生的损失值;基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值;基于所述预测损失值,采用反向传播算法调整所述标点预测模型中各网络的网络参数。6.根据权利要求5所述的方法,其特征在于,所述基于所述第一损失值和所述第二损失值,确定所述样本文本对应的预测损失值,包括:基于所述第一损失值和所述第二损失值,确定所述样本文本对应的第三损失值,所述第三损失值用于表征预测标点的数量、位置及类型所产生的损失值;对所述第一损失值、所述第二损失值和所述第三损失值进行加权求和,得到所述样本文本对应的预测损失值。7.根据权利要求1至6中任一项所述的方法,其特征在于,在将标注有标点信息的样本文本输入标点预测模型的特征提取网络之前,所述方法还包括:获取包含标点的文本;基于所述包含标点的文本中标点的位置及类型,去除所述包含标点的文本中的标点,得到样本文本;在所述样本文本的首字符之前添加所述包含标点的文本中标点的数量;基于所述包含标点的文本中标点的位置及类型,生成与所述样本文本中各字符对应的标注信息,所述标注信息用于指示所对应的字符之后是否存在标点及存在的标点的类型。8.一种标点添加方法,其特征在于,包括:将待处理文本输入标...
【专利技术属性】
技术研发人员:李长林,权佳成,曹磊,
申请(专利权)人:马上消费金融股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。