一种基于简谱识别和基频提取的人声旋律提取方法及系统技术方案

技术编号:24614928 阅读:94 留言:0更新日期:2020-06-24 01:54
本发明专利技术公开了一种基于简谱识别和基频提取的人声旋律提取方法及系统,系统应用该方法,方法包括:将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从单声道音频中分离出人声波形;识别简谱中的音符与歌词对,得到歌词与音符的列表;根据唱词文件,检索歌词与音符的列表,得到行唱词与音符的匹配结果序列;选择一个音符,根据分离得到的人声波形计算音符的基频频率,根据计算得到的基频频率及各音符的相对关系,计算各音符的频率,并将各音符的频率转换为midi音高;平移行歌词与音符的匹配结果序列,得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。能够提取音高与旋律匹配的人声旋律。

A human voice Melody Extraction Method and system based on spectrum recognition and fundamental frequency extraction

【技术实现步骤摘要】
一种基于简谱识别和基频提取的人声旋律提取方法及系统
本专利技术属于音频处理
,具体地说,涉及一种基于简谱识别和基频提取的人声旋律提取方法及系统。
技术介绍
随着计算机技术的发展,音乐的主要传播途径由原来的基于磁带、CD等载体,转变成基于数字音乐的网络下载和点击。为了适应这种传播方式的改变,音乐的识别和检索技术也应用的越来越广。在音乐信息检索中,主要使用的是音乐的主旋律,音乐的主旋律可以用于进行音乐分析、音乐检索、音乐辨识、相似音乐推荐等。申请号为201810537265.3的专利技术专利公开了一种提取音频数据中主旋律音轨的方法、装置、终端及存储介质,该方法包括:提取目标音频数据中的多个音轨,确定每个音轨中的人声时间段的时间段信息,得到每个音轨对应的时间段信息集合;在目标音频数据对应的歌词信息中,确定每句歌词的时间段信息,得到歌词信息对应的时间段信息集合;确定每个音轨对应的时间段信息集合与歌词信息对应的时间段信息集合的匹配度;将对应的匹配度最高的音轨,确定为目标音频数据的主旋律音轨。本申请解决了目前的音轨逐一排除方法不适用于编曲风格小众另类的音频,易将音频中非主旋律音轨确定为该音频的主旋律的问题,达到了提高识别音频中的主旋律音轨的普适性和准确性的效果。该方法的目标是从多个音轨中提取出主旋律音轨,而不能够从主旋律音轨中提取出旋律,同时该方法对于包含分轨信息的歌词信息很难获得。无法得到匹配的唱词和音高。
技术实现思路
针对现有技术中上述的不足,本专利技术提供一种基于简谱识别和基频提取的人声旋律提取方法及系统,该方法结合简谱识别与波形识别,从而能够更准确的获取主旋律数据,简谱识别能够获取准确的音高,基频识别得到的频率与唱词能够对应的上。系统采用该方法,能够提取音高与旋律匹配的人声旋律。为了达到上述目的,本专利技术采用的解决方案是:一种基于简谱识别和基频提取的人声旋律提取方法,包括如下步骤:S1:数据预处理,将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从降采样后的单声道音频中分离出人声波形;具体包括:S101:将歌曲原始音频文件解码为wave格式,并归一化至-1~1;S102:将wave格式的音频通过平均得到单声道的音频;S103:将单声道音频降采样至8000~44100之间,最佳的降采样频率为20050;S104:将歌曲对应的简谱文件做二值化处理;S105:从降采样后的单声道音频中分离出人声波形;S106:根据歌词文件将人声波形按句分割成多个波形文件。一句歌词对应一个波形文件,便于后续基频提取过程中提取出的基频与歌词句子对应。S2:简谱识别,识别简谱中的音符与歌词对,得到歌词与对应音符的列表,所述的简谱识别采用OCRapi或者开源OCR。S3:唱词与简谱识别结果对齐,根据唱词文件,检索歌词与音符的列表,得到行唱词与音符的匹配结果序列;具体包括:S301:解析唱词文件,按句获得唱词文件中的所有唱词序列;S302:在简谱识别得到的歌词与音符的列表中检索每一句唱词的文字序列;S303:将歌词与音符对按唱词序列进行排序,实现唱词与音高对齐。通过唱词与简谱识别结果对齐使得识别得到的音高与歌词对的顺序与人声波形中唱的顺序对齐,并进行补全,从而使识别出的音高与人声波形中的唱词在时间上对齐。S4:基频提取,选择一个音符,根据分离得到的人声波形计算音符的基频频率,根据计算得到的基频频率及各音符的相对关系,计算各音符的频率,并将各音符的频率转换为midi音高;具体包括:S401:选定一个音符,这个音符可以是do、re、mi、fa、so、la、si中的任意一个,由于简谱上的key值一般采用do音来表示,因此,在选定音符时,最好是选择do音;S402:遍历唱词与音高对齐之后的序列,找到选定的音符对应的人声波形片段;S403:剪裁所有找到的人声波形片段;S404:识别所有剪裁的片段的基频;S405:统计所有剪裁片段的基频,以数量最多的频率作为选定音符的基础频率;S406:根据选定音符与各音符的相对关系,计算各音符的频率,根据简谱上的音乐key值关系,可以根据音乐基础知识得到各个音符之间相差的半音数,根据这个半音数与选定音符的基础频率,可以计算得到各音符的频率;S407:将各音符的频率转换为midi音高。S5:音高平移,平移行歌词与音符的匹配结果序列,得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列,并保存成midi文件。通过音高平移得到音高与唱词匹配的人声旋律。应用所述的基于简谱识别和基频提取的人声旋律提取方法的系统,包括数据处理模块、简谱识别模块、唱词与音符对齐模块、基频模块和音高平移模块;所述的数据处理模块将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从降采样后的单声道音频中分离出人声波形;所述的简谱识别模块用于识别简谱中的音符与歌词对,得到歌词与音符的列表;所述的唱词与音符对齐模块用于根据唱词文件,检索歌词与音符的列表,得到行唱词与音符的匹配结果序列;所述的基频模块用于选择一个音符计算音符的基频频率,根据计算得到的基频频率及各音符的相对关系,计算各音符的频率,并将各音符的频率转换为midi音高;所述的音高平移模块用于平移行歌词与音符的匹配结果序列,得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。本专利技术的有益效果是:(1)该方法结合简谱识别与波形识别,从而能够更准确的获取主旋律数据,简谱识别能够获取准确的音高,基频识别得到的频率与唱词能够对应的上。系统采用该方法,能够提取音高与旋律匹配的人声旋律。附图说明图1为本专利技术人声旋律提取方法流程图;图2为本专利技术简谱识别流程图;图3为本专利技术唱词与简谱识别结果对齐流程图;图4为本专利技术基频提取流程图;图5为本专利技术人声旋律提取系统框图。具体实施方式以下结合附图对本专利技术作进一步描述:如图1所示,一种基于简谱识别和基频提取的人声旋律提取方法,包括如下步骤:S1:数据预处理,将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从降采样后的单声道音频中分离出人声波形;具体包括:S101:将歌曲原始音频文件解码为wave格式,并归一化至-1~1;S102:将wave格式的音频通过平均得到单声道的音频;S103:将单声道音频降采样至8000~44100之间;S104:将歌曲对应的简谱文件做二值化处理;S105:从降采样后的单声道音频中分离出人声波形;S106:根据歌词文件将人声波形按句分割成多个波形文件。一句歌词对应一个波形文件,便于后续基频提取过程中提取出的基频与歌词句子对应。S2:简谱识别本文档来自技高网...

【技术保护点】
1.一种基于简谱识别和基频提取的人声旋律提取方法,其特征在于:包括如下步骤:/nS1:数据预处理,将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从降采样后的单声道音频中分离出人声波形;/nS2:简谱识别,识别简谱中的音符与歌词对,得到歌词与音符的列表;/nS3:唱词与简谱识别结果对齐,根据唱词文件,检索歌词与音符的列表,得到行唱词与音符的匹配结果序列;/nS4:基频提取,选择一个音符,根据分离得到的人声波形计算音符的基频频率,根据计算得到的基频频率及各音符的相对关系,计算各音符的频率,并将各音符的频率转换为midi音高;/nS5:音高平移,平移行歌词与音符的匹配结果序列,得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。/n

【技术特征摘要】
1.一种基于简谱识别和基频提取的人声旋律提取方法,其特征在于:包括如下步骤:
S1:数据预处理,将待处理歌曲对应的简谱文件进行二值化处理,将歌曲原始音频文件处理为降采样后的单声道音频,从降采样后的单声道音频中分离出人声波形;
S2:简谱识别,识别简谱中的音符与歌词对,得到歌词与音符的列表;
S3:唱词与简谱识别结果对齐,根据唱词文件,检索歌词与音符的列表,得到行唱词与音符的匹配结果序列;
S4:基频提取,选择一个音符,根据分离得到的人声波形计算音符的基频频率,根据计算得到的基频频率及各音符的相对关系,计算各音符的频率,并将各音符的频率转换为midi音高;
S5:音高平移,平移行歌词与音符的匹配结果序列,得到音高与各音符的midi音高相匹配的行歌词与音符的匹配结果序列。


2.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法,其特征在于:所述的数据预处理具体包括:
S101:将歌曲原始音频文件解码为wave格式,并归一化至-1~1;
S102:将wave格式的音频通过平均得到单声道的音频;
S103:将单声道音频降采样至8000~44100之间;
S104:将歌曲对应的简谱文件做二值化处理;
S105:从降采样后的单声道音频中分离出人声波形。


3.根据权利要求2所述的基于简谱识别和基频提取的人声旋律提取方法,其特征在于:所述的数据预处理还包括:S106:根据歌词文件将人声波形按句分割成多个波形文件。


4.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法,其特征在于:所述的简谱识别采用OCRapi或者开源OCR。


5.根据权利要求1所述的基于简谱识别和基频提取的人声旋律提取方法,其特征在于:所述的歌词与简谱识别结果对齐具体包括:
S301:解析唱词文件,按句获得唱词文件中的所有唱词序列;
S302:在简谱识别得到的歌词与音符的列表中检...

【专利技术属性】
技术研发人员:尹学渊刘鑫忠江天宇
申请(专利权)人:成都嗨翻屋科技有限公司
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1