System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及语音转写领域,尤其涉及一种基于人工智能的语音转写加速方法。
技术介绍
1、随着语音识别技术的快速发展和广泛应用,语音转写已经成为许多领域中的关键技术。然而,现有的语音转写系统在实际应用中仍然面临许多技术挑战,包括背景噪声干扰、信号处理效率低下、语义理解不准确等问题。这些问题严重影响了语音转写的准确性和效率,制约了其在更广泛应用场景中的推广和应用。
2、在实际应用中,语音信号往往伴随大量的背景噪声和干扰,这使得语音识别系统难以准确提取出有效的语音特征。传统的信号处理方法,如带通滤波器和快速傅里叶变换(fft),在处理复杂噪声环境时效果有限。此外,静音段和初始段的噪声频谱估计不准确,导致降噪效果不佳,进一步影响了语音识别的准确性。此外,语音识别系统在生成初步转写文本时,通常只关注局部特征,忽略了词与词之间的语义关系,导致生成的转写文本语义不连贯、逻辑不清晰。
3、除上述提出的技术问题外,现有技术还存在语音转写时准确性较差、效率较低等技术问题。
技术实现思路
1、为了克服
技术介绍
中提出的语音转写领域中现有技术的不足,本专利技术提供一种基于人工智能的语音转写加速方法。
2、为实现上述目的,本专利技术公开的一种基于人工智能的语音转写加速方法,包括以下步骤:
3、(s1)获取原始语音数据,对获取的原始语音数据先预处理再增强处理,对增强后的语音数据进行特征提取,得到语音特征,基于语音特征进行语音识别,得到识别结果;
4、(
5、优选地,步骤(s1)中,原始语音数据进行预处理的方法包括以下步骤:
6、(a1)将原始语音信号分割成固定长度的帧,得到分帧后的语音信号;
7、(a2)对每一帧语音信号应用加窗函数,得到加窗后的语音帧信号;
8、(a3)对每一帧加窗后的语音帧信号进行快速傅里叶变换,将时间域信号转换到频域,得到频域表示的语音帧;
9、(a4)在静音段或初始段,计算噪声频谱,得到估计的背景噪声频谱;
10、(a5)对语音帧和背景噪声频谱滤除噪声,得到降噪后的频域表示;
11、(a6)对降噪后的频域信号进行逆快速傅里叶变换,将频域信号转换回时间域,得到降噪后的时间域语音帧信号,对降噪后的时间域语音帧信号重新拼接成连续的语音信号,形成预处理后的语音数据。
12、优选地,在步骤(s1)中,语音数据增强处理方法包括以下步骤:
13、(b1)对预处理后的语音数据进行短时频谱转换,将时域信号转换为频域信号;
14、(b2)对频域信号进行自适应权重调整,以消除回波和残余噪声;
15、(b3)利用自适应权重调整后的信号抑制回波,去除信号中的回波成分,通过将其从原始信号中减去得到回波抑制后的信号;
16、(b4)对回波抑制后的信号进行提升处理,通过降低背景噪声和增强信号细节进一步增强语音信号的清晰度;
17、(b5)将提升后的频域信号转换回时域,得到增强处理后的语音信号。
18、优选地,在步骤(s2)中,根据识别结果生成初步转写文本的此方法包括以下步骤:
19、(c1)根据识别结果,将语音识别结果映射为词嵌入向量;
20、(c2)使用序列单元的网络提取映射后特征向量的时序特征;
21、(c3)构建多层结构,优化提取的时序特征;
22、(c4)采用对数似然优化方法生成初步转写文本。
23、优选地,在步骤(c3)中,优化提取的时间特征的方法包括以下步骤:
24、(d1)通过多头自注意力机制对时序特征进行处理;
25、(d2)使用前馈神经网络对注意力特征进一步处理;
26、(d3)基于输出特征进行文本生成。
27、优选地,利用自适应文本优化算法对初步转写文本进行优化的方法包括以下步骤:
28、(e1)对于每个词引入上下文窗口,对每个上下文窗口使用词嵌入将词转换为向量表示;
29、(e2)对每个上下文向量,进行自适应加权平均;
30、(e3)通过多层感知对自适应加权平均后的上下文向量进行动态调整,生成优化后的词向量;
31、(e4)将优化后的词向量重新映射回词空间。
32、本专利技术具有以下有益效果:
33、1、将时域信号转换为频域信号,通过带通滤波器和自适应滤波技术,进一步减少了背景噪声和其他干扰,动态调整滤波器权重,优化信号质量,使得降噪后的频域表示更加清晰;降噪后的时间域语音帧信号经过重拼接,确保信号的平滑过渡和连续性。
34、2、通过将初步转写文本分割成多个子序列,并行计算处理器同时处理多个子任务,有效提高了系统的整体处理效率,对子序列进行扩展和边界处理,确保上下文信息的完整性,从而提高处理的鲁棒性。
35、3、通过自适应动态文本优化算法,对初步转写文本进行上下文分析和动态调整,使得每个词在上下文中的语义和位置得到充分理解,从而生成优化后的转写文本;通过对初步转写文本进行动态调整,进一步优化识别结果,减少了识别过程中产生的错误,显著提高了最终转写文本的准确性和速度。
本文档来自技高网...【技术保护点】
1.一种基于人工智能的语音转写加速方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于人工智能的语音转写加速方法,其特征在于,步骤(S1)中,原始语音数据进行预处理的方法包括以下步骤:
3.根据权利要求1所述的基于人工智能的语音转写加速方法,其特征在于,在步骤(S1)中,语音数据增强处理方法包括以下步骤:
4.根据权利要求1所述的基于人工智能的语音转写加速方法,其特征在于,在步骤(S2)中,根据识别结果生成初步转写文本的方法包括以下步骤:
5.根据权利要求4所述的基于人工智能的语音转写加速方法,其特征在于,在步骤(C3)中,优化提取的时间特征的方法包括以下步骤:
6.根据权利要求1所述的基于人工智能的语音转写加速方法,其特征在于,利用自适应动态文本优化算法对初步转写文本进行优化的方法包括以下步骤:
【技术特征摘要】
1.一种基于人工智能的语音转写加速方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的基于人工智能的语音转写加速方法,其特征在于,步骤(s1)中,原始语音数据进行预处理的方法包括以下步骤:
3.根据权利要求1所述的基于人工智能的语音转写加速方法,其特征在于,在步骤(s1)中,语音数据增强处理方法包括以下步骤:
4.根据权利要求1所述的基于人工智...
【专利技术属性】
技术研发人员:王立强,贺文晨,李艺涛,宁珊,刘睿霖,董一凡,王慎强,
申请(专利权)人:国家计算机网络与信息安全管理中心,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。