标点符号恢复方法技术

技术编号:39590760 阅读:9 留言:0更新日期:2023-12-03 19:43
本申请涉及一种标点符号恢复方法

【技术实现步骤摘要】
标点符号恢复方法、装置、电子设备及存储介质


[0001]本申请涉及计算机
,尤其涉及一种标点符号恢复方法

装置

电子设备及存储介质


技术介绍

[0002]随着语音识别领域的不断发展,语音识别系统对语音识别的准确性也越来越高

然而,目前大多数语音识别系统所识别出的语音文本通常不包含标点符号,这对用户来说可读性很差,因此,对识别的语音文本进行标点符号恢复是语音识别系统必不可少的

[0003]现有技术中,在对语音文本进行标点符号恢复时,往往是通过预测语音文本中每一个字之后是否需要添加标点符号,若需要则添加标点符号,若不需要则继续对下一个字进行预测;也即现有技术的标点符号预测是以字为单位实现的,这种方式不仅效率低,而且忽略了字词之间的联系,容易出现预测错误的现象,导致针对语音文本进行标点符号恢复的效率和准确率较低


技术实现思路

[0004]本申请提供了一种标点符号恢复方法

装置

电子设备及存储介质,以解决现有技术中针对语音文本进行标点符号恢复的效率和准确率较低的技术问题

[0005]第一方面,本申请提供了一种标点符号恢复方法,所述方法包括:获取待恢复文本,并对所述待恢复文本进行分词处理,得到包含多个词语的分词文本;所述待恢复文本不具有标点符号;在所述分词文本中的每两个词语之间插入第一标识符,得到插入文本;将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果;根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,得到目标文本;所述目标文本具有标点符号

[0006]作为一个可能的实现方式,所述将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果,包括:通过所述标点预测模型对所述插入文本进行向量特征提取,得到所述插入文本中每一所述第一标识符对应的第一向量特征;对每一所述第一标识符对应的所述第一向量特征进行降维处理,得到所述第一标识符对应的第二向量特征;对所述第二向量特征进行归一化处理,得到所述第一标识符对应的标点符号预测集合;所述标点符号预测集合包括至少一个标点符号,且一个所述标点符号对应一个概率值;将所述标点符号预测集合中概率值最大的标点符号确定为所述第一标识符的第一预测结果

[0007]作为一个可能的实现方式,所述根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,包括:确定所述第一预测结果对应的概率值是否大于预设概率阈值;在所述第一预测结果对应的概率值大于所述预设概率阈值的情况下,确定所述第一预测结果是否为空标点符号;若所述第一预测结果为所述空标点符号,则在所述插入文本中删除所述第一预测结果对应的第一标识符;若所述第一预测结果非所述空标点符号,则在所述插入文本中将对应的第一标识符恢复为所述第一预测结果

[0008]作为一个可能的实现方式,所述根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,包括:确定所述第一预测结果对应的概率值是否大于预设概率阈值;在所述第一预测结果对应的概率值小于或等于所述预设概率阈值的情况下,确定所述第一标识符为特殊标识符;确定所述特殊标识符之前是否存在预设的特殊标点符号;在所述特殊标识符之前存在所述特殊标点符号的情况下,对所述特殊标点符号与所述特殊标识符之间的文本进行情感分析,确定所述特殊标识符对应的特殊标点符号;在所述特殊标识符之前不存在所述特殊标点符号的情况下,对所述特殊标识符之前的全部文本进行情感分析,确定所述特殊标识符对应的特殊标点符号

[0009]作为一个可能的实现方式,所述将所述插入文本输入预先训练的标点预测模型之前,还包括:获取包含标点符号的训练文本;所述训练文本包含至少一个字词;通过第二标识符替换所述训练文本中任意位置的随机文本,得到替换文本,所述随机文本包括字词和
/
或标点符号;将所述替换文本输入包含初始参数的初始识别模型,获取所述初始识别模型针对每一所述第二标识符的第二预测结果;根据每一所述第二标识符的第二预测结果,确定所述初始识别模型的预测损失值;在所述预测损失值不满足预设收敛条件时,迭代更新所述初始识别模型的初始参数,直至所述预测损失值满足所述预设收敛条件时,将收敛后的初始识别模型记录为所述标点预测模型

[0010]作为一个可能的实现方式,所述根据每一所述第二标识符的所述第二预测结果,确定所述初始识别模型的预测损失值,包括:根据每一所述第二标识符的所述第二预测结果,确定所述初始识别模型的交叉熵损失值和对比学习损失值;对所述交叉熵损失值和所述对比学习损失值进行加权求和计算,得到所述初始识别模型的预测损失值

[0011]作为一个可能的实现方式,根据每一所述第二标识符的所述第二预测结果,确定所述初始识别模型的对比学习损失值,包括:
获取每一第二预测结果在所述初始识别模型中对应的所述初始向量特征;所述初始向量特征为所述初始识别模型对第二标识符进行向量特征提取所得;针对每一所述第二预测结果,从多个第二预测结果中确定相同预测结果集合和差异预测结果集合;将所述第二预测结果对应的所述初始向量特征,与所述相同预测结果集合中每一第二预测结果的初始向量特征进行相似度计算,得到所述第二预测结果相对于所述相同预测结果集合的第一相似度;将所述第二预测结果对应的所述初始向量特征,与所述差异预测结果集合中每一第二预测结果的初始向量特征进行相似度计算,得到所述第二预测结果相对于所述差异预测结果集合的第二相似度;根据所述第一相似度和所述第二相似度,得到所述初始识别模型的对比学习损失值

[0012]第二方面,本申请实施例提供一种标点符号恢复装置,所述装置包括:获取模块,用于获取待恢复文本,并对所述待恢复文本进行分词处理,得到包含多个词语的分词文本;所述待恢复文本不具有标点符号;插入模块,用于在所述分词文本中的每两个词语之间插入第一标识符,得到插入文本;输入模块,用于将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果;处理模块,用于根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,得到目标文本;所述目标文本具有标点符号

[0013]第三方面,本申请实施例提供一种电子设备,包括:处理器和存储器,所述处理器用于执行所述存储器中存储的标点符号恢复程序,以实现第一方面中任一项所述的标点符号恢复方法

[0014]第四方面,本申请实施例提供一种存储介质,所述存储介质存储有一个或者多个程序,所述一个或者多个程序可被一个或者多个处理器执行,以实现第一方面中任一项所述的标点符号恢复方法

[0015]本申请实施例提供的技术方案,通过获取待恢复文本,并对待恢复文本本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.
一种标点符号恢复方法,其特征在于,所述方法包括:获取待恢复文本,并对所述待恢复文本进行分词处理,得到包含多个词语的分词文本;所述待恢复文本不具有标点符号;在所述分词文本中的每两个词语之间插入第一标识符,得到插入文本;将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果;根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,得到目标文本;所述目标文本具有标点符号
。2.
根据权利要求1所述的方法,其特征在于,所述将所述插入文本输入预先训练的标点预测模型,获取所述标点预测模型针对每一所述第一标识符的第一预测结果,包括:通过所述标点预测模型对所述插入文本进行向量特征提取,得到所述插入文本中每一所述第一标识符对应的第一向量特征;对每一所述第一标识符对应的所述第一向量特征进行降维处理,得到所述第一标识符对应的第二向量特征;对所述第二向量特征进行归一化处理,得到所述第一标识符对应的标点符号预测集合;所述标点符号预测集合包括至少一个标点符号,且一个所述标点符号对应一个概率值;将所述标点符号预测集合中概率值最大的标点符号确定为所述第一标识符的第一预测结果
。3.
根据权利要求2所述的方法,其特征在于,所述根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,包括:确定所述第一预测结果对应的概率值是否大于预设概率阈值;在所述第一预测结果对应的概率值大于所述预设概率阈值的情况下,确定所述第一预测结果是否为空标点符号;若所述第一预测结果为所述空标点符号,则在所述插入文本中删除所述第一预测结果对应的第一标识符;若所述第一预测结果非所述空标点符号,则在所述插入文本中将对应的第一标识符恢复为所述第一预测结果
。4.
根据权利要求2所述的方法,其特征在于,所述根据每一所述第一标识符的第一预测结果对所述插入文本进行标点恢复处理,包括:确定所述第一预测结果对应的概率值是否大于预设概率阈值;在所述第一预测结果对应的概率值小于或等于所述预设概率阈值的情况下,确定所述第一标识符为特殊标识符;确定所述特殊标识符之前是否存在预设的特殊标点符号;在所述特殊标识符之前存在所述特殊标点符号的情况下,对所述特殊标点符号与所述特殊标识符之间的文本进行情感分析,确定所述特殊标识符对应的特殊标点符号;在所述特殊标识符之前不存在所述特殊标点符号的情况下,对所述特殊标识符之前的全部文本进行情感分析,确定所述特殊标识符对应的特殊标点符号
。5.
根据权利要求1所述的方法,其特征在于,所述将所述插入文本输入预先训练的标点预测模型之前,还包括:
获取包含标点符号的训练文本;所述训练文本包含至少一个字词;通过第二标识符替换所述训练文本中任意位置的随机文本,得到替换文本,所述随机文本包括字词和
/

【专利技术属性】
技术研发人员:周月辉赵雷田维政
申请(专利权)人:深圳市人民医院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1