一种语音转录方法、装置、电子设备及存储介质制造方法及图纸

技术编号:35574102 阅读:17 留言:0更新日期:2022-11-12 15:58
本申请提供了一种语音转录方法、装置、电子设备及存储介质,包括:从原始语音信号中分离出原始人声信号;对原始人声信号进行语音端点检测,以根据检测到的语音端点将原始人声信号拆分成至少一段人声信号;对每段人声信号进行语音识别,得到每段人声信号对应的一段初始语音文本;对每段初始语音文本进行标点预测,在每段初始语音文本中添加标点,以将每段初始语音文本分割成至少一个初始语句;针对每个初始语句,确定对该初始语句中实体词的词纠错结果以及单个字的字纠错结果;根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到原始语音信号的转录结果。这样,能够提升转录结果的准确性,提高语音转录的质量。量。量。

【技术实现步骤摘要】
一种语音转录方法、装置、电子设备及存储介质


[0001]本申请涉及语音
,尤其是涉及一种语音转录方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音技术的发展,从语音到对应文本的语音转录技术在日常生活中逐步普及。语音转录技术主要针对较长的语音进行语音转文字处理,从而得到语音的文字内容。目前,语音转录技术已广泛应用于包括录音笔的内容识别、字幕生成等多种应用场景。
[0003]现有技术中往往通过传统的声学模型或深度学习模型来识别出语音的文字内容,但由于语音转录的应用场景复杂、模型的精度有限、泛化能力不足以及等原因,目前语音转录的质量不佳,转录的准确性较低。

技术实现思路

[0004]有鉴于此,本申请的目的在于提供一种语音转录方法、装置、电子设备及存储介质,通过从原始语音信号中分离出原始人声信号,从而消除背景音对语音转录的影响;通过确定对初始语音文本的词纠错结果和字纠错结果,并基于词纠错结果和字纠错结果对初始语音文本进行整合纠正,得到原始语音信号的转录结果。这样,能够提升转录结果的准确性,提高语音转录的质量。
[0005]本申请实施例提供了一种语音转录方法,所述方法包括:
[0006]从原始语音信号中分离出原始人声信号;
[0007]对所述原始人声信号进行语音端点检测,以根据检测到的语音端点将所述原始人声信号拆分成至少一段人声信号;
[0008]对每段人声信号进行语音识别,得到每段人声信号对应的一段初始语音文本;
[0009]对每段初始语音文本进行标点预测,在每段初始语音文本中添加标点,以将每段初始语音文本分割成至少一个初始语句;
[0010]针对每个初始语句,确定对该初始语句中实体词的词纠错结果以及确定对该初始语句中单个字的字纠错结果;
[0011]根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到所述原始语音信号的转录结果。
[0012]进一步的,所述从原始语音信号中分离出原始人声信号,包括:
[0013]获取所述原始语音信号的频谱;
[0014]将所述频谱输入预先训练好的背景音预测模型,得到所述背景音预测模型预测的背景音频谱;
[0015]将所述频谱输入预先训练好的人声预测模型,得到所述人声预测模型预测的人声频谱;
[0016]根据所述背景音频谱,确定背景音能量序列;其中,所述背景音能量序列中包括多
个背景音能量值,所述多个背景音能量值分别为所述背景音频谱的频带中不同频率处的能量值;
[0017]根据所述人声频谱,确定人声能量序列;其中,所述人声能量序列中包括多个人声能量值,所述多个人声能量值分别为所述人声频谱的频带中不同频率处的能量值;
[0018]根据所述背景音能量序列和所述人声能量序列,确定所述人声信号在所述原始语音信号的能量占比序列;
[0019]根据所述人声信号在所述原始语音信号的能量占比序列和所述原始语音信号的频谱,得到所述人声信号的频谱;
[0020]对所述人声信号的频谱进行短时傅里叶变换的逆变换,得到所述人声信号。
[0021]进一步的,所述针对每个初始语句,确定对该初始语句中实体词的词纠错结果,包括:
[0022]对该初始语句进行实体识别,得到该初始语句中包括的实体词;
[0023]针对每个实体词,计算该实体词的拼音与预先构建的标准词汇表中每个词汇类别的中心词的拼音之间的最小编辑距离;
[0024]将最小编辑距离最小的中心词所属的词汇类别确定为目标类别;
[0025]计算该实体词的拼音与所述词汇表的所述目标类别中每个标准词的拼音之间的最小编辑距离;其中,所述目标类别中的标准词包括所述目标类别的中心词;
[0026]若该实体词的拼音与所述目标类别中任意一个标准词的拼音之间的最小编辑距离为零,则将该标准词作为该实体词对应的纠错结果;
[0027]若该实体词的拼音与所述目标类别中每个词的拼音之间的最小编辑距离均不为零,则将该实体词作为标准词添加到所述词汇表的目标类别中。
[0028]进一步的,所述针对每个初始语句,确定对该初始语句中单个字的字纠错结果,包括:
[0029]从该初始语句的首个字开始,依次将该初始语句中的每个字作为目标字,并对目标字进行字纠正处理;
[0030]其中,所述对目标字进行字纠正处理包括:
[0031]获取目标字的掩码表示和该初始语句中其他字的特征向量表示;
[0032]根据该初始语句中位置在目标字之前的其他字的特征向量表示、位置在目标字之后的其他字的特征向量表示以及目标字的掩码表示,预测目标字位置对应的多个可选字;
[0033]若目标字位置对应的多个可选字中不包括目标字,则将多个可选字中出现在目标字位置的概率最大的可选字作为目标字对应的字纠错结果,并使用目标字对应的字纠错结果对目标字进行替换;
[0034]若目标字位置对应的多个可选字中包括目标字,则不对目标字进行替换。
[0035]进一步的,所述根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到所述原始语音信号的转录结果,包括:
[0036]针对每个初始语句中的每个实体词,确定该实体词是否有对应的词纠错结果;
[0037]若该实体词有对应的词纠错结果,则使用该实体词对应的词纠错结果对该实体词进行替换;
[0038]若该实体词没有对应的词纠错结果,则确定该实体词中的每个字是否有对应的字
纠错结果;
[0039]若该实体词中的任意一个字有对应的字纠错结果,则使用该字对应的字纠错结果对该字进行替换;
[0040]针对每个初始语句中除实体词之外的每个字,确定该字是否有对应的字纠错结果;
[0041]若该字有对应的字纠错结果,则使用该字对应的字纠错结果对该字进行替换;
[0042]将进行实体词替换和字替换之后的每个初始语句确定为所述原始语音信号的转录结果。
[0043]进一步的,所述背景音预测模型和所述人声预测模型通过以下方式训练得到:
[0044]获取多段样本语音信号以及每段样本语音信号包括的样本背景音信号和样本人声信号;
[0045]针对每段样本语音信号,分别获取该段样本语音信号的真实频谱、该段样本语音信号包括的样本背景音信号的真实背景音频谱和该段样本语音信号包括的样本人声信号的真实人声频谱;
[0046]将该段样本语音信号的真实频谱分别输入预先构建好的初始背景音预测模型和预先构建好的初始人声预测模型,得到所述初始背景音预测模型输出的预测背景音频谱和所述初始人声预测模型输出的预测人声频谱;
[0047]根据样本背景音信号的真实背景音频谱和预测背景音频谱,确定第一损失函数值;
[0048]根据样本人声信号的真实人声频谱和预测人声频谱,确定第二损失函数值;
[0049]根据所述第一损失函数值和所述第二损失函数值的平均值本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语音转录方法,其特征在于,所述方法包括:从原始语音信号中分离出原始人声信号;对所述原始人声信号进行语音端点检测,以根据检测到的语音端点将所述原始人声信号拆分成至少一段人声信号;对每段人声信号进行语音识别,得到每段人声信号对应的一段初始语音文本;对每段初始语音文本进行标点预测,在每段初始语音文本中添加标点,以将每段初始语音文本分割成至少一个初始语句;针对每个初始语句,确定对该初始语句中实体词的词纠错结果以及确定对该初始语句中单个字的字纠错结果;根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到所述原始语音信号的转录结果。2.根据权利要求1所述的方法,其特征在于,所述从原始语音信号中分离出原始人声信号,包括:获取所述原始语音信号的频谱;将所述频谱输入预先训练好的背景音预测模型,得到所述背景音预测模型预测的背景音频谱;将所述频谱输入预先训练好的人声预测模型,得到所述人声预测模型预测的人声频谱;根据所述背景音频谱,确定背景音能量序列;其中,所述背景音能量序列中包括多个背景音能量值,所述多个背景音能量值分别为所述背景音频谱的频带中不同频率处的能量值;根据所述人声频谱,确定人声能量序列;其中,所述人声能量序列中包括多个人声能量值,所述多个人声能量值分别为所述人声频谱的频带中不同频率处的能量值;根据所述背景音能量序列和所述人声能量序列,确定所述人声信号在所述原始语音信号的能量占比序列;根据所述人声信号在所述原始语音信号的能量占比序列和所述原始语音信号的频谱,得到所述人声信号的频谱;对所述人声信号的频谱进行短时傅里叶变换的逆变换,得到所述人声信号。3.根据权利要求1所述的方法,其特征在于,所述针对每个初始语句,确定对该初始语句中实体词的词纠错结果,包括:对该初始语句进行实体识别,得到该初始语句中包括的实体词;针对每个实体词,计算该实体词的拼音与预先构建的标准词汇表中每个词汇类别的中心词的拼音之间的最小编辑距离;将最小编辑距离最小的中心词所属的词汇类别确定为目标类别;计算该实体词的拼音与所述词汇表的所述目标类别中每个标准词的拼音之间的最小编辑距离;其中,所述目标类别中的标准词包括所述目标类别的中心词;若该实体词的拼音与所述目标类别中任意一个标准词的拼音之间的最小编辑距离为零,则将该标准词作为该实体词对应的纠错结果;若该实体词的拼音与所述目标类别中每个词的拼音之间的最小编辑距离均不为零,则
将该实体词作为标准词添加到所述词汇表的目标类别中。4.根据权利要求1所述的方法,其特征在于,所述针对每个初始语句,确定对该初始语句中单个字的字纠错结果,包括:从该初始语句的首个字开始,依次将该初始语句中的每个字作为目标字,并对目标字进行字纠正处理;其中,所述对目标字进行字纠正处理包括:获取目标字的掩码表示和该初始语句中其他字的特征向量表示;根据该初始语句中位置在目标字之前的其他字的特征向量表示、位置在目标字之后的其他字的特征向量表示以及目标字的掩码表示,预测目标字位置对应的多个可选字;若目标字位置对应的多个可选字中不包括目标字,则将多个可选字中出现在目标字位置的概率最大的可选字作为目标字对应的字纠错结果,并使用目标字对应的字纠错结果对目标字进行替换;若目标字位置对应的多个可选字中包括目标字,则不对目标字进行替换。5.根据权利要求1所述的方法,其特征在于,所述根据每个初始语句的词纠错结果和字纠错结果,对该初始语句进行整合纠正,得到所述原始语音信号的转录结果,包括:针对每个初始语句中的每个实体词,确定该实体词是否有对应的词纠错结果;若该实体词有对应的词纠错结果,则使用该实体词对应的...

【专利技术属性】
技术研发人员:赵崟江郭忠武姜卫平李国华殷松迁张家斌韩煜
申请(专利权)人:北京市博汇科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1