标点预测方法、装置、设备及存储介质制造方法及图纸

技术编号:39435618 阅读:12 留言:0更新日期:2023-11-19 16:18
本申请公开了一种标点预测方法、装置、设备及存储介质,获取待标注文本的向量表示送入预训练的标点预测模型,模型采用注意力机制针对输入的向量表示进行特征提取,并基于提取的特征预测待标注文本中标点所在位置及标点类型。本申请设计了一种位置编码机制,使得模型在基于注意力机制提取特征时,按照各文本单元间的相对距离与影响程度呈负相关的关系,确定各文本单元的相对位置编码,并利用相对位置编码对各文本单元的注意力权重进行偏移处理,使得模型建模了文本单元之间的相对位置关系,能够进一步提高标点预测的准确度。够进一步提高标点预测的准确度。够进一步提高标点预测的准确度。

【技术实现步骤摘要】
标点预测方法、装置、设备及存储介质


[0001]本申请涉及信息处理
,更具体的说,是涉及一种标点预测方法、装置、设备及存储介质。

技术介绍

[0002]近年来随着人工智能技术的蓬勃发展,语音识别技术取得了巨大的突破并被广泛地应用在社会的方方面面,给人们的生产生活带来了极大的便利。同声传译、直播带货、视频字幕生成等领域都有长语音转文字的需求,表现出了其广阔的市场潜力。语音识别系统将音频转录为文字的过程中,输出的结果通常是不带标点的纯文字。这样的长文字流有两个较大缺陷:1、大段的无标点文字增加了人断句的负担,造成阅读体验不流畅、理解困难的状况。2、由于下游任务(如翻译、实体识别等自然语言处理任务)通常利用语义明晰完整、断句明确的文本作为训练数据,因此大段的、无标点文字不利于这些任务展开。标点识别任务作为承上启下的中间一环不可或缺。
[0003]现有的标点识别系统通常为需要获取全部上下文信息的双向lstm模型或者bert模型。双向lstm方案结构简单,参量较小,标点效果一般,虽然可以天然处理序列任务但是难以并行计算。Bert方案中的自注意力机制使得序列任务可以并行计算,但缺乏必要的顺序信息。为了补充顺序信息,现有技术一般是在输入中为每个单词额外添加绝对位置编码。但是,绝对位置编码没有明确考虑这些位置之间的关系,如邻接或优先级关系等,导致模型效果一般,也即最终预测的标点的准确性不高。

技术实现思路

[0004]鉴于上述问题,提出了本申请以便提供一种标点预测方法、装置、设备及存储介质,以实现提升标点预测模型的性能,提高标点预测准确度的目的。具体方案如下:
[0005]第一方面,提供了一种标点预测方法,包括:
[0006]获取待标注文本,所述待标注文本包括若干文本单元;
[0007]获取所述待标注文本的向量表示,并送入预训练的标点预测模型,所述模型采用注意力机制针对输入的向量表示进行特征提取,并基于提取的特征预测所述待标注文本中标点所在的位置及标点类型;
[0008]其中,所述模型在基于注意力机制提取特征时,按照各所述文本单元间的相对距离与影响程度呈负相关的关系,确定各文本单元的相对位置编码,并利用所述相对位置编码对各所述文本单元的注意力权重进行偏移处理。
[0009]优选地,所述标点预测模型包括自注意力层和分类层;
[0010]所述自注意力层在基于注意力机制提取特征的过程中,参考输入文本中每一文本单元与当前文本单元的相对距离,按照距离与影响程度呈负相关的关系,确定每一文本单元对当前文本单元的影响程度并作为相对位置编码;基于每一文本单元对当前文本单元的相对位置编码,对每一文本单元与当前文本单元的注意力权重进行偏移处理;
[0011]所述分类层基于所述自注意力层提取的特征预测每一文本单元后是否存在标点,以及在预测结果为存在标点时,预测标点的类型。
[0012]优选地,所述自注意力层按照距离与影响程度呈负相关的关系,确定每一文本单元对当前文本单元的影响程度并作为相对位置编码的过程,包括:
[0013]针对当前文本单元之前的n1个第一文本单元以及之后的n2个第二文本单元,所述自注意力层按照距离与影响程度呈负相关的关系,确定每一文本单元对当前文本单元的影响程度并作为相对位置编码;
[0014]除所述n1个第一文本单元以及所述n2个第二文本单元之外的其余各文本单元,对所述当前文本单元的相对位置编码置为0。
[0015]优选地,所述待标注文本为第一语种,所述第一语种至少包括中文;则获取所述待标注文本的向量表示的过程,包括:
[0016]获取所述待标注文本中每一所述文本单元的词嵌入向量表示,由各所述文本单元的词嵌入向量表示组成所述待标注文本的向量表示。
[0017]优选地,所述待标注文本为第二语种,所述第二语种至少包括英文;则获取所述待标注文本的向量表示的过程,包括:
[0018]获取所述待标注文本中每一所述文本单元的词嵌入向量表示,以及每一所述文本单元的位置编码向量表示,将每一所述文本单元的词嵌入向量表示与位置编码向量表示相加,作为每一所述文本单元的最终向量表示;
[0019]由各所述文本单元的最终向量表示组成所述待标注文本的向量表示。
[0020]优选地,每一所述文本单元的位置编码向量表示采用正余弦位置编码方式得到。
[0021]优选地,所述待标注文本为第二语种,所述第二语种至少包括英文;所述自注意力层采用不包含卷积模块的马卡龙式网络结构,从下至上依次为第一前馈模块、自注意力self

attention模块、第二前馈模块。
[0022]优选地,获取所述待标注文本中每一所述文本单元的词嵌入向量表示的过程,包括:
[0023]获取所述待标注文本中每一所述文本单元的词向量和声音向量,将所述词向量和所述声音向量拼接,得到每一所述文本单元的词嵌入向量表示;
[0024]其中,每一所述文本单元的声音向量为基于预训练大语言模型所训练得到的所述文本单元对应的声音向量。
[0025]优选地,所述标点预测模型训练时的训练数据包括:
[0026]语音识别系统转录出的带有识别错误的训练文本,且所述训练文本携带正确的标点。
[0027]优选地,所述获取待标注文本,包括:
[0028]获取输入的语音数据,并识别所述语音数据对应的识别文本,作为待标注文本。
[0029]第二方面,提供了一种标点预测装置,包括:
[0030]待标注文本获取单元,用于获取待标注文本,所述待标注文本包括若干文本单元;
[0031]待标注文本向量表示获取单元,用于获取所述待标注文本的向量表示;
[0032]模型预测单元,用于将所述待标注文本的向量表示送入预训练的标点预测模型,所述模型采用注意力机制针对输入的向量表示进行特征提取,并基于提取的特征预测所述
待标注文本中标点所在的位置及标点类型;
[0033]其中,所述模型在基于注意力机制提取特征时,按照各所述文本单元间的相对距离与影响程度呈负相关的关系,确定各文本单元的相对位置编码,并利用所述相对位置编码对各所述文本单元的注意力权重进行偏移处理。
[0034]第三方面,提供了一种标点预测设备,包括:存储器和处理器;
[0035]所述存储器,用于存储程序;
[0036]所述处理器,用于执行所述程序,实现如前所述的标点预测方法的各个步骤。
[0037]第四方面,提供了一种存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时,实现如前所述的标点预测方法的各个步骤。
[0038]借由上述技术方案,本申请对于由若干文本单元组成的待标注文本,获取其向量表示后送入预训练的标点预测模型,模型采用注意力机制针对输入的向量表示进行特征提取,并基于提取的特征预测待标注文本中标点所在位置及标点类型,也即得到标点预测结果。本申请中为了弥补自注意力机制缺乏位置信息的问题引入本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标点预测方法,其特征在于,包括:获取待标注文本,所述待标注文本包括若干文本单元;获取所述待标注文本的向量表示,并送入预训练的标点预测模型,所述模型采用注意力机制针对输入的向量表示进行特征提取,并基于提取的特征预测所述待标注文本中标点所在的位置及标点类型;其中,所述模型在基于注意力机制提取特征时,按照各所述文本单元间的相对距离与影响程度呈负相关的关系,确定各文本单元的相对位置编码,并利用所述相对位置编码对各所述文本单元的注意力权重进行偏移处理。2.根据权利要求1所述的方法,其特征在于,所述标点预测模型包括自注意力层和分类层;所述自注意力层在基于注意力机制提取特征的过程中,参考输入文本中每一文本单元与当前文本单元的相对距离,按照距离与影响程度呈负相关的关系,确定每一文本单元对当前文本单元的影响程度并作为相对位置编码;基于每一文本单元对当前文本单元的相对位置编码,对每一文本单元与当前文本单元的注意力权重进行偏移处理;所述分类层基于所述自注意力层提取的特征预测每一文本单元后是否存在标点,以及在预测结果为存在标点时,预测标点的类型。3.根据权利要求2所述的方法,其特征在于,所述自注意力层按照距离与影响程度呈负相关的关系,确定每一文本单元对当前文本单元的影响程度并作为相对位置编码的过程,包括:针对当前文本单元之前的n1个第一文本单元以及之后的n2个第二文本单元,所述自注意力层按照距离与影响程度呈负相关的关系,确定每一文本单元对当前文本单元的影响程度并作为相对位置编码;除所述n1个第一文本单元以及所述n2个第二文本单元之外的其余各文本单元,对所述当前文本单元的相对位置编码置为0。4.根据权利要求1所述的方法,其特征在于,所述待标注文本为第一语种,所述第一语种至少包括中文;则获取所述待标注文本的向量表示的过程,包括:获取所述待标注文本中每一所述文本单元的词嵌入向量表示,由各所述文本单元的词嵌入向量表示组成所述待标注文本的向量表示。5.根据权利要求1所述的方法,其特征在于,所述待标注文本为第二语种,所述第二语种至少包括英文;则获取所述待标注文本的向量表示的过程,包括:获取所述待标注文本中每一所述文本单元的词嵌入向量表示,以及每一所述文本单元的位置编码向量表示,将每一所述文本单元的词嵌入向量表示与位置编码向量表示相加,作为每一所述文本单元的...

【专利技术属性】
技术研发人员:宋洁玉马志强李永超
申请(专利权)人:科大讯飞股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1