一种语音转录方法、装置、电子设备及存储介质制造方法及图纸

技术编号：35574102 阅读：23 留言：0更新日期：2022-11-12 15:58

本申请提供了一种语音转录方法、装置、电子设备及存储介质，包括：从原始语音信号中分离出原始人声信号；对原始人声信号进行语音端点检测，以根据检测到的语音端点将原始人声信号拆分成至少一段人声信号；对每段人声信号进行语音识别，得到每段人声信号对应的一段初始语音文本；对每段初始语音文本进行标点预测，在每段初始语音文本中添加标点，以将每段初始语音文本分割成至少一个初始语句；针对每个初始语句，确定对该初始语句中实体词的词纠错结果以及单个字的字纠错结果；根据每个初始语句的词纠错结果和字纠错结果，对该初始语句进行整合纠正，得到原始语音信号的转录结果。这样，能够提升转录结果的准确性，提高语音转录的质量。量。量。

全部详细技术资料下载

【技术实现步骤摘要】
一种语音转录方法、装置、电子设备及存储介质

[0001]本申请涉及语音
，尤其是涉及一种语音转录方法、装置、电子设备及存储介质。

技术介绍

[0002]随着语音技术的发展，从语音到对应文本的语音转录技术在日常生活中逐步普及。语音转录技术主要针对较长的语音进行语音转文字处理，从而得到语音的文字内容。目前，语音转录技术已广泛应用于包括录音笔的内容识别、字幕生成等多种应用场景。
[0003]现有技术中往往通过传统的声学模型或深度学习模型来识别出语音的文字内容，但由于语音转录的应用场景复杂、模型的精度有限、泛化能力不足以及等原因，目前语音转录的质量不佳，转录的准确性较低。

技术实现思路

[0004]有鉴于此，本申请的目的在于提供一种语音转录方法、装置、电子设备及存储介质，通过从原始语音信号中分离出原始人声信号，从而消除背景音对语音转录的影响；通过确定对初始语音文本的词纠错结果和字纠错结果，并基于词纠错结果和字纠错结果对初始语音文本进行整合纠正，得到原始语音信号的转录结果。这样，能够提升转录结果的准确性，提高语音转录的质量。
[0005]本申请实施例提供了一种语音转录方法，所述方法包括：
[0006]从原始语音信号中分离出原始人声信号；
[0007]对所述原始人声信号进行语音端点检测，以根据检测到的语音端点将所述原始人声信号拆分成至少一段人声信号；
[0008]对每段人声信号进行语音识别，得到每段人声信号对应的一段初始语音文本；
[0009]对每段初始语音文...

【技术保护点】

【技术特征摘要】
1.一种语音转录方法，其特征在于，所述方法包括：从原始语音信号中分离出原始人声信号；对所述原始人声信号进行语音端点检测，以根据检测到的语音端点将所述原始人声信号拆分成至少一段人声信号；对每段人声信号进行语音识别，得到每段人声信号对应的一段初始语音文本；对每段初始语音文本进行标点预测，在每段初始语音文本中添加标点，以将每段初始语音文本分割成至少一个初始语句；针对每个初始语句，确定对该初始语句中实体词的词纠错结果以及确定对该初始语句中单个字的字纠错结果；根据每个初始语句的词纠错结果和字纠错结果，对该初始语句进行整合纠正，得到所述原始语音信号的转录结果。2.根据权利要求1所述的方法，其特征在于，所述从原始语音信号中分离出原始人声信号，包括：获取所述原始语音信号的频谱；将所述频谱输入预先训练好的背景音预测模型，得到所述背景音预测模型预测的背景音频谱；将所述频谱输入预先训练好的人声预测模型，得到所述人声预测模型预测的人声频谱；根据所述背景音频谱，确定背景音能量序列；其中，所述背景音能量序列中包括多个背景音能量值，所述多个背景音能量值分别为所述背景音频谱的频带中不同频率处的能量值；根据所述人声频谱，确定人声能量序列；其中，所述人声能量序列中包括多个人声能量值，所述多个人声能量值分别为所述人声频谱的频带中不同频率处的能量值；根据所述背景音能量序列和所述人声能量序列，确定所述人声信号在所述原始语音信号的能量占比序列；根据所述人声信号在所述原始语音信号的能量占比序列和所述原始语音信号的频谱，得到所述人声信号的频谱；对所述人声信号的频谱进行短时傅里叶变换的逆变换，得到所述人声信号。3.根据权利要求1所述的方法，其特征在于，所述针对每个初始语句，确定对该初始语句中实体词的词纠错结果，包括：对该初始语句进行实体识别，得到该初始语句中包括的实体词；针对每个实体词，计算该实体词的拼音与预先构建的标准词汇表中每个词汇类别的中心词的拼音之间的最小编辑距离；将最小编辑距离最小的中心词所属的词汇类别确定为目标类别；计算该实体词的拼音与所述词汇表的所述目标类别中每个标准词的拼音之间的最小编辑距离；其中，所述目标类别中的标准词包括所述目标类别的中心词；若该实体词的拼音与所述目标类别中任意一个标准词的拼音之间的最小编辑距离为零，则将该标准词作为该实体词对应的纠错结果；若该实体词的拼音与所述目标类别中每个词的拼音之间的最小编辑距离均不为零，则
将该实体词作为标准词添加到所述词汇表的目标类别中。4.根据权利要求1所述的方法，其特征在于，所述针对每个初始语句，确定对该初始语句中单个字的字纠错结果，包括：从该初始语句的首个字开始，依次将该初始语句中的每个字作为目标字，并对目标字进行字纠正处理；其中，所述对目标字进行字纠正处理包括：获取目标字的掩码表示和该初始语句中其他字的特征向量表示；根据该初始语句中位置在目标字之前的其他字的特征向量表示、位置在目标字之后的其他字的特征向量表示以及目标字的掩码表示，预测目标字位置对应的多个可选字；若目标字位置对应的多个可选字中不包括目标字，则将多个可选字中出现在目标字位置的概率最大的可选字作为目标字对应的字纠错结果，并使用目标字对应的字纠错结果对目标字进行替换；若目标字位置对应的多个可选字中包括目标字，则不对目标字进行替换。5.根据权利要求1所述的方法，其特征在于，所述根据每个初始语句的词纠错结果和字纠错结果，对该初始语句进行整合纠正，得到所述原始语音信号的转录结果，包括：针对每个初始语句中的每个实体词，确定该实体词是否有对应的词纠错结果；若该实体词有对应的词纠错结果，则使用该实体词对应的...

【专利技术属性】
技术研发人员：赵崟江，郭忠武，姜卫平，李国华，殷松迁，张家斌，韩煜，
申请(专利权)人：北京市博汇科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人