音频转录方法、装置、计算机设备及存储介质制造方法及图纸

技术编号:38515829 阅读:10 留言:0更新日期:2023-08-19 16:57
本发明专利技术涉及语音分析领域,尤其涉及一种音频转录方法、装置、计算机设备及存储介质。其方法包括:通过对待转录音频进行傅里叶变换,得到傅里叶频谱;通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务特征提取,得到多任务特征;根据所述多任务特征,对所述傅里叶频谱进行多任务预测,得到多任务预测结果;根据所述预测结果,生成与所述待转录音频对应的转录文件。本发明专利技术得到的多任务预测结果考虑了多个任务特征之间的隐藏信息,使得多任务预测结果更加准确。进而,使基于多任务预测结果生成的转录文件更加准确,提高了音频转录的准确率。转录的准确率。转录的准确率。

【技术实现步骤摘要】
音频转录方法、装置、计算机设备及存储介质


[0001]本专利技术涉及语音分析领域,尤其涉及一种音频转录方法、装置、计算机设备及存储介质。

技术介绍

[0002]在音乐领域,音乐主要以音频的形式存储和传播,只有极少部分音乐以曲谱的形式呈现,供用户对与该曲谱对应的音乐做进一步的研究和学习。
[0003]目前,现有的将音频转换为曲谱的手段包括模板法和深度学习方法。
[0004]其中,模板法通过对比输入音频数据和数据库中对应模板的相似度来判别输入声音的音高类别,最终得到转录曲谱。但模板法针对和弦较多和速度较快的音乐时,检测效果较差,导致音频转录准确率较低。深度学习方法通过将输入的音频数据转换为短时傅里叶变换(STFT)频谱或者梅尔频谱,然后将得到的频谱当作图像进行特征提取,进而进行逐帧的音高分类,最终得到转录曲谱。但深度学习方法针对不同音色以及不同录音环境的音乐片段,识别精度度不同。且,深度学习方法最大的不足在于:无法检测音符起始点和结束点的准确时间,使得转录曲谱无法用于用户学习和研究。因此,现有将音频转换为曲谱的手段均存在转录准确率较低以及效果较差的问题。

技术实现思路

[0005]基于此,有必要针对上述技术问题,提供一种音频转录方法、装置、计算机设备及存储介质,以解决现有将音频转换为曲谱的手段存在转录准确率较低以及效果较差的问题。
[0006]一种音频转录方法,包括:
[0007]对待转录音频进行傅里叶变换,得到傅里叶频谱;
[0008]通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务特征提取,得到多任务特征;
[0009]根据所述多任务特征,对所述傅里叶频谱进行多任务预测,得到多任务预测结果;
[0010]根据所述预测结果,生成与所述待转录音频对应的转录文件。
[0011]一种音频转录装置,包括:
[0012]傅里叶频谱模块,用于对待转录音频进行傅里叶变换,得到傅里叶频谱;
[0013]多任务特征模块,用于通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务特征提取,得到多任务特征;
[0014]多任务预测结果模块,用于根据所述多任务特征,对所述傅里叶频谱进行多任务预测,得到多任务预测结果;
[0015]转录文件模块,用于根据所述预测结果,生成与所述待转录音频对应的转录文件。
[0016]一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述音频转录方
法。
[0017]一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如上述音频转录方法。
[0018]上述音频转录方法、装置、计算机设备及存储介质,通过对待转录音频进行傅里叶变换,得到傅里叶频谱;通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务特征提取,得到多任务特征;根据所述多任务特征,对所述傅里叶频谱进行多任务预测,得到多任务预测结果;根据所述预测结果,生成与所述待转录音频对应的转录文件。本专利技术通过基于注意力机制的多任务特征融合模型对待转录音频进行多任务融合的任务预测,使得到的多任务预测结果考虑了多个任务特征之间的隐藏信息,使得多任务预测结果更加准确。进而,使基于多任务预测结果生成的转录文件更加准确,提高了音频转录的准确率。
附图说明
[0019]为了更清楚地说明本专利技术实施例的技术方案,下面将对本专利技术实施例的描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
[0020]图1是本专利技术一实施例中音频转录方法的一应用环境示意图;
[0021]图2是本专利技术一实施例中音频转录方法的一流程示意图;
[0022]图3是本专利技术一实施例中音频转录装置的一结构示意图;
[0023]图4是本专利技术一实施例中计算机设备的一示意图。
具体实施方式
[0024]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0025]本实施例提供的音频转录方法,可应用在如图1的应用环境中,其中,客户端与服务端进行通信。其中,客户端包括但不限于各种个人计算机、笔记本电脑、智能手机、平板电脑和便携式可穿戴设备。服务端可以用独立的服务器或者是多个服务器组成的服务器集群来实现。
[0026]在一实施例中,如图2所示,提供一种音频转录方法,以该方法应用在图1中的服务端为例进行说明,包括如下步骤:
[0027]S10、对待转录音频进行傅里叶变换,得到傅里叶频谱。
[0028]可理解地,待转录音频是指需要被转录为曲谱的音频。例如,从音乐平台获取的音乐数据。傅里叶变换变换可将待转录音频从时域非周期的连续信号转换为频域非周期的连续信号,得到傅里叶频谱。也即,通过傅里叶变换变换将待转录音频从时域信号转换为频域信号。
[0029]S20、通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务
特征提取,得到多任务特征。
[0030]可理解地,基于注意力机制的多任务特征融合模型为训练完成的神经网络模型。该基于注意力机制的多任务特征融合模型中运用注意力机制,且该基于注意力机制的多任务特征融合模型包含多个任务预测模型。其中,多个任务预测模型包括但不限于起始点预测模型、结束点预测模型、音高预测模型和力度预测模型。一个任务预测模型对应一个任务。多个任务预测模型用于多个不同任务的预测。在此,对多个任务预测模型包含模型的数量和任务不作限定,可根据实际需求设定。具体地,将傅里叶频谱分别输入多个任务预测模型中,进行不同的任务特征提取,得到多个与任务对应的特征,即多任务特征。该多任务特征包含多个任务特征。也即,不同的任务模型对应有不同的任务特征。
[0031]S30、根据所述多任务特征,对所述傅里叶频谱进行多任务预测,得到多任务预测结果。
[0032]可理解地,在得到待转录音的多任务特征之后,进而,通过基于注意力机制的多任务特征融合模型对多任务特征进行特征融合以及分类预测处理,得到多任务预测结果。具体地,运用基于注意力机制的多任务特征融合模型中的注意力机制对多个任务特征之间的隐藏信息进行学习并进行信息融合,以得到融合了隐藏信息的特征。基于融合了隐藏信息的特征,再通过多个任务预测模型对融合了隐藏信息的特征以及与各自对应的任务特征进行分类预测处理,得到任务预测结果。该预测结果包括与多任务特征对应的多个预测结果。例如,包括音高预测结果、起始点预测结果、结束点预测结果和力度预测结本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种音频转录方法,其特征在于,包括:对待转录音频进行傅里叶变换,得到傅里叶频谱;通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务特征提取,得到多任务特征;根据所述多任务特征,对所述傅里叶频谱进行多任务预测,得到多任务预测结果;根据所述预测结果,生成与所述待转录音频对应的转录文件。2.如权利要求1所述的音频转录方法,其特征在于,所述多任务特征融合模型包括起始点预测模型、结束点预测模型、音高预测模型和力度预测模型;所述多任务特征包括起始点特征、结束点特征、音高特征和力度特征;所述通过基于注意力机制的多任务特征融合模型对所述傅里叶频谱进行多任务特征提取,得到多任务特征,包括:通过所述起始点预测模型对所述傅里叶频谱进行起始点特征提取,得到所述起始点特征;通过所述结束点预测模型对所述傅里叶频谱进行结束点特征提取,得到所述结束点特征;通过所述音高预测模型对所述傅里叶频谱进行音高特征提取,得到所述音高特征;通过所述力度预测模型对所述傅里叶频谱进行力度特征提取,得到所述力度特征。3.如权利要求2所述的音频转录方法,其特征在于,所述任务预测结果包括音高预测结果;所述根据所述多任务特征,对所述待转录音频进行多任务预测,得到多任务预测结果,包括:通过所述注意力机制提取所述起始点特征和所述结束点特征的隐藏特征;将所述隐藏特征、所述音高特征和所述力度特征进行特征融合,得到融合特征;通过所述音高预测模型的音高长短期神经网络以及音高全连接分类器对所述融合特征进行音高预测处理,得到所述音高预测结果。4.如权利要求2所述的音频转录方法,其特征在于,所述任务预测结果包括起始点预测结果、结束点预测结果和力度预测结果;所述根据所述多任务特征,对所述待转录音频进行多任务预测,得到多任务预测结果,包括:通过所述起始点预测模型的起始点长短期神经网络以及起始点全连接分类器对所述起始点特征进行起始点预测处理,得到所述起始点预测结果;通过所述结束点预测模型的结束点长短期神经网络以及结束点全连接分类器对所述结束点特征进行结束点预测处理,得到所述结束点预测结果;通过所述力度预测模型的力度全连接分类器对所述力度特征进行力度预测处理,得到所述力度预测结...

【专利技术属性】
技术研发人员:张旭龙王健宗
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1