一种多媒体文件生成方法及其设备技术

技术编号:14532760 阅读:126 留言:0更新日期:2017-02-02 15:33
本发明专利技术实施例公开一种多媒体文件生成方法及其设备,其中方法包括如下步骤:获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征;基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征;根据所述目标清唱频谱特征生成所述目标清唱音频数据;提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件。采用本发明专利技术,可以自动生成音频简谱文件,保证音频简谱文件的准确性,提升音频简谱文件的制作效率。

Method and apparatus for generating multimedia file

The embodiment of the invention discloses a multimedia file generation method and device thereof, wherein the method comprises the following steps: raw audio data acquisition target audio identifier corresponding to the original target and obtain the target spectral characteristics of the original audio data extraction model; pre training based on audio, and the original spectral characteristics of the target object is calculated a cappella the spectral characteristics of the target audio data of the target audio - Identification of the corresponding target; according to the spectrum characteristics of the target to generate a cappella cappella audio data; extracting pitch information of the target audio data acquisition a cappella, the fundamental information corresponding to the note value, and the value of the Notes file generated by the target audio system according to the corresponding audio identification. By adopting the invention, the audio numbered musical notation files can be automatically generated, the accuracy of the audio numbered musical notation files can be guaranteed, and the production efficiency of the audio numbered musical notation files can be improved.

【技术实现步骤摘要】

本专利技术涉及计算机
,尤其涉及一种多媒体文件生成方法及其设备
技术介绍
目前,集合群聊、视频直播、K歌、应用游戏、在线影视等功能为一体的综合型的娱乐用户端已被广泛应用于个人电脑、手机等用户终端。在实际应用中,用户可以通过娱乐用户端进行歌曲演唱,并由服务器端对演唱歌曲进行评价打分等,实现了歌曲演唱的互动功能。现有技术中,服务器端可以预先存储有演唱歌曲的音频简谱文件,音频简谱文件中描述有关于演唱歌曲对应的原唱歌手在演绎该歌曲的音高走势等,服务器端可以根据音频简谱文件对用户的演唱歌曲进行打分,同时音频简谱文件还可以用于提供可视化音符参考曲线以及对用户的演唱歌曲进行修音等。然而现有的音频简谱文件均是采用人工方式进行制作,容易导致音频简谱文件存在错误的情况发生,影响了音频简谱文件的准确性,同时需要耗费较多的人力资源以及时间资源,降低了音频简谱文件的制作效率。
技术实现思路
本专利技术实施例提供一种多媒体文件生成方法及其设备,可以自动生成音频简谱文件,保证音频简谱文件的准确性,提升音频简谱文件的制作效率。本专利技术实施例第一方面提供了一种多媒体文件生成方法,可包括:获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征;基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征;根据所述目标清唱频谱特征生成所述目标清唱音频数据;提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件。本专利技术实施例第二方面提供了一种多媒体文件生成设备,可包括:目标特征获取单元,用于获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征;目标特征计算单元,用于基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征;数据生成单元,用于根据所述目标清唱频谱特征生成所述目标清唱音频数据;文件生成单元,用于提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件。在本专利技术实施例中,通过获取原始音频数据中的频谱特征,基于音频提取模型计算得到清唱音频数据的频谱特征,并根据所述目标清唱频谱特征生成所述目标清唱音频数据,最终基于清唱音频数据的基频信息对应的音符值生成所述目标音频标识对应的音频简谱文件,实现了自动生成音频简谱文件的过程,避免了音频简谱文件存在错误的情况,保证了音频简谱文件的准确性,同时节省了人力资源以及时间资源,有效的提升了音频简谱文件的制作效率。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种多媒体文件生成方法的流程示意图;图2是本专利技术实施例提供的另一种多媒体文件生成方法的流程示意图;图3是本专利技术实施例提供的一种多媒体文件生成设备的结构示意图;图4是本专利技术实施例提供的另一种多媒体文件生成设备的结构示意图;图5是本专利技术实施例提供的目标特征获取单元的结构示意图;图6是本专利技术实施例提供的数据生成单元的结构示意图;图7是本专利技术实施例提供的文件生成单元的结构示意图;图8是本专利技术实施例提供的又一种多媒体文件生成设备的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。本专利技术实施例提供的多媒体文件生成方法可以应用于生成音乐文件的音频简谱文件的应用场景,例如:多媒体文件生成设备获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征,所述多媒体文件生成设备基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征,所述多媒体文件生成设备根据所述目标清唱频谱特征生成所述目标清唱音频数据,所述多媒体文件生成设备提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件的场景等。通过获取原始音频数据中的频谱特征,基于音频提取模型计算得到清唱音频数据的频谱特征,并根据所述目标清唱频谱特征生成所述目标清唱音频数据,最终基于清唱音频数据的基频信息对应的音符值生成所述目标音频标识对应的音频简谱文件,实现了自动生成音频简谱文件的过程,避免了音频简谱文件存在错误的情况,保证了音频简谱文件的准确性,同时节省了人力资源以及时间资源,有效的提升了音频简谱文件的制作效率。本专利技术实施例涉及的多媒体文件生成设备可以为具备存储音乐文件的音频数据、歌词文件、音频简谱文件等音乐相关文件在内的后台服务设备。下面将结合附图1和附图2,对本专利技术实施例提供的多媒体文件生成方法进行详细介绍。请参见图1,为本专利技术实施例提供了一种多媒体文件生成方法的流程示意图。如图1所示,本专利技术实施例的所述方法可以包括以下步骤S101-步骤S104。S101,获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征;具体的,多媒体文件生成设备可以获取目标音频标识对应的目标原始音频数据,需要说明的是,管理人员、开发人员等用户可以选择当前需要生成音频简谱文件的目标音乐的目标音频标识,所述多媒体文件生成设备可以获取所选择的所述目标音频标识,并获取所述目标音频标识对应的目标原始音频数据,可以理解的是,所述多媒体文件生成设备中可以预先存储有所述目标音频标识以及所述目标音频标识对应的目标原始音频数据,所述目标原始音频数据优选为所述目标音乐的原唱版本(例如:原唱歌手的演唱版本、其他歌手的翻唱版本等)的音频数据。所述多媒体文件生成设备进一步可以获取所述目标原始音频数据的目标原始频谱特征,所述目标原始频谱特征可以包括所述目标原始音频数据的至少一帧原始音频数据中各帧原始音频数据的频谱特征,优选的,所述多媒体文件生成设备可以将至少一帧原始音频数据由时域特征转换为频域特征,并基于所述各帧原始音频数据的实域频谱和虚域频谱计算所述各帧原始音频数据的功率谱密度,并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征,以形成所述目标原始音频数据的目标原始频谱特征。S102,基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征;具体的,所述多媒体文件生成设备可以基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征,所述目标清唱音频数据优选为所述目标音乐的清唱版本(即没有背景音乐的演唱版本)的音频数据,所述音频提取模型优选为深度神经网络(DeepNeuralNet本文档来自技高网...

【技术保护点】
一种多媒体文件生成方法,其特征在于,包括:获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征;基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征;根据所述目标清唱频谱特征生成所述目标清唱音频数据;提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件。

【技术特征摘要】
1.一种多媒体文件生成方法,其特征在于,包括:获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征;基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征;根据所述目标清唱频谱特征生成所述目标清唱音频数据;提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件。2.根据权利要求1所述的方法,其特征在于,所述获取目标音频标识对应的目标原始音频数据之前,还包括:在预设音频集合中获取训练原始音频数据,获取与所述训练原始音频数据相关联的训练清唱音频数据,并分别获取所述训练原始音频数据的频谱特征和所述训练清唱音频数据的频谱特征;创建音频提取模型,将所述训练原始音频数据的频谱特征作为所述音频提取模型的输入参数,将所述训练清唱音频数据的频谱特征作为所述音频提取模型的输出参数,并基于所述输入参数和所述输出参数对所述音频提取模型进行训练以获取所述音频提取模型中的模型矩阵参数。3.根据权利要求2所述的方法,其特征在于,所述获取目标音频标识对应的目标原始音频数据,并获取所述目标原始音频数据的目标原始频谱特征,包括:获取目标音频标识对应的目标原始音频数据,并按照预设采样点数量和第一预设帧移对所述目标原始音频数据进行分帧处理,以生成至少一帧原始音频数据;获取至少一帧音频数据中各帧原始音频数据的实域频谱和所述各帧原始音频数据的虚域频谱;根据所述各帧原始音频数据的实域频谱和各帧原始音频数据的虚域频谱计算所述各帧原始音频数据的功率谱密度,并根据所述各帧原始音频数据的功率谱密度计算所述各帧原始音频数据的频谱特征。4.根据权利要求3所述的方法,其特征在于,所述基于预先训练的音频提取模型,并采用所述目标原始频谱特征计算所述目标音频标识对应的目标清唱音频数据的目标清唱频谱特征,包括:采用所述各帧原始音频数据的频谱特征以及所述模型矩阵参数,计算至少一帧清唱音频数据中各帧清唱音频数据的频谱特征。5.根据权利要求4所述的方法,其特征在于,所述根据所述目标清唱频谱特征生成所述目标清唱音频数据,包括:根据所述各帧清唱音频数据的频谱特征计算所述各帧清唱音频数据的功率谱密度,并根据所述各帧清唱音频数据的功率谱密度计算所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱;将所述各帧清唱音频数据的实域频谱和所述各帧清唱音频数据的虚域频谱转换为所述各帧清唱音频数据的时域特征,并按照各帧清唱音频数据的排列顺序对所述各帧清唱音频数据的时域特征进行特征叠加处理,以生成目标清唱音频数据。6.根据权利要求5所述的方法,其特征在于,所述提取所述目标清唱音频数据的基频信息,获取所述基频信息对应的音符值,并根据所述音符值生成所述目标音频标识对应的音频简谱文件,包括:采用所述目标音频标识对应的歌词时间信息对所述目标清唱音频数据进行分段处理,以获取包含歌词片段的至少一个音频片段;提取所述至少一个音频片段中各音频片段的基频段,并按照预设帧长和第二预设帧移对所述基频段进行分帧处理,以生成至少一个基频点;对所述至少一个基频点中各基频点的基频值进行调整,并将调整后的所述各基频点的基频值转换为所述各基频点的音符值;将连续且具有相同音符值的基频点进行合并处理,以生成所述各音频片段的至少一个音符点,获取所述至少一个音符点中各音符点的简谱信息,所述简谱信息包括起始时间、持续时间和音符值;对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件。7.根据权利要求6所述的方法,其特征在于,所述对所述至少一个基频点中各基频点的基频值进行调整,包括:对所述至少一个基频点中的奇异基频点的基频值进行置零处理;对所述各基频段进行中值滤波处理;在所述各基频段中,将第一基频点后小于预设数量且连续的零基频点的基频值设置为所述第一基频点的基频值。8.根据权利要求6所述的方法,其特征在于,所述对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱文件,包括:对所述各音符点的简谱信息进行排列以生成所述目标音频标识对应的音频简谱参考文件;当在所述各音符点中存在第一音符点的音符值满足预设调整条件时,按照预设调整规则在所述音频简谱文件中删除所述第一音符点的简谱信息,以生成所述目标音频标识对应的音频简谱文件。9.根据权利要求8所述的方法,其特征在于,所述预设调整条件包括:所述第一音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值大于或等于第一预设差值;和,所述第一音符点的音符值与所述第一音符点的上一个音符点的音符值的差的绝对值大于或等于第二预设差值;和,所述第一音符点的上一个音符点的音符值与所述第一音符点的下一个音符点的音符值的差的绝对值小于或等于第三预设差值。10.根据权利要求8所述的方法,其特征在于,所述预设调整规则包括:若所述第一音符点的起始时间为所述第一音符点的上一个音符点的起始时间和持续时间之和,则将所述第一音符点和所述上一个音符点进行合并,并删除所述第一音符点的简谱信息;若所述第一音符点的起始时间不为所述第一音符点的上一个音符点的起始时间和持续时间之和,且所述第一音符点的下一个音符点的起始时间为述第一音符点的起始时间和持续时间之和,则将所述第一音符点和所述下一个音符点进行合并,并删除所述第一音符点的简谱信息;若所述第一音符点的起始时间不为所述第一音符点的上一个音符点的起始时间和持续时间之和,且所述第一音符点的下一个音符点的起始时间不为述第一音符点的起始时间和持续时间之和,则删除所述第一音符点...

【专利技术属性】
技术研发人员:赵伟峰
申请(专利权)人:腾讯音乐娱乐深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1