音频识别方法、装置及存储介质制造方法及图纸

技术编号:17839391 阅读:69 留言:0更新日期:2018-05-03 20:26
本发明专利技术公开了一种音频识别方法、装置及存储介质,属于互联网技术领域。所述方法包括:获取目标人声音高值序列;将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配;如果目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将匹配到的音频文件的音频文件信息发送至终端,由终端进行显示。本发明专利技术采用人声音高值序列匹配的方式,通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律,与对音频片段的演绎方式及音频片段的获取方式无关,因而识别结果更加准确。

【技术实现步骤摘要】
音频识别方法、装置及存储介质
本专利技术涉及互联网
,特别涉及一种音频识别方法、装置及存储介质。
技术介绍
在现代生活中,当用户在咖啡馆、餐厅、演唱会等公共场所听到喜欢的音乐,并想进一步了解这些音乐的相关信息时,用户可借助具有听歌识曲功能的音频播放应用对这些音频进行识别。现有技术在进行音频识别时,主要采用如下方法:终端获取待识别的音频片段,根据待识别的音频片段的音域特征,选取能量极大值点作为峰值特征点,并将至少两个峰值特征点组合成目标音频指纹,进而将目标音频指纹发送至服务器;当接收到目标音频指纹时,服务器将目标音频指纹与音频数据库中每个音频文件所包括的各个音频片段的音频指纹进行匹配,当该目标音频指纹与任一音频片段的音频指纹相匹配,将包括该音频片段的音频文件的音频文件信息发送至终端,由终端进行显示,其中,音频数据库中存储有每个音频文件的音频文件信息及其所包括的音频片段的音频指纹。然而,音频片段的演绎方式及获取方式不同,音频文件的音域特征也将不同的,而音域特征直接影响到峰值特征点的提取,当待识别的音频片段与音频文件的音域特征不同时,从待识别的音频片段中所提取的峰值特征点将发生变化,进一步地根据所提取的峰值特征点生成的目标音频指纹将发生偏差,从而导致音频识别的准确性较低。
技术实现思路
为了解决现有技术的问题,本专利技术实施例提供了一种音频识别方法、装置及存储介质。所述技术方案如下:一方面,提供了一种音频识别方法,所述方法包括:获取目标人声音高值序列,所述目标人声音高值序列从待识别的音频片段中提取;将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列;如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将匹配到的音频文件的音频文件信息发送至目标终端。另一方面,提供了一种音频识别方法,所述方法包括:获取待识别的音频片段;从所述待识别的音频片段中,提取目标人声音高值序列;根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息,所述至少一个音频文件的实际人声音高值序列与所述目标人声音高值序列相匹配;显示所述至少一个音频文件的音频文件信息。另一方面,提供了一种音频识别装置,所述装置包括:获取模块,用于获取目标人声音高值序列,所述目标人声音高值序列从待识别的音频片段中提取;匹配模块,用于将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列;发送模块,用于如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将匹配到的音频文件的音频文件信息发送至目标终端。另一方面,提供了一种音频识别装置,所述装置包括:获取模块,用于获取待识别的音频片段;提取模块,用于从所述待识别的音频片段中,提取目标人声音高值序列;音频识别模块,用于根据所述目标人声音高值序列得到识别出的至少一个音频文件的音频文件信息,所述至少一个音频文件的实际人声音高值序列与所述目标人声音高值序列相匹配;显示模块,用于显示所述至少一个音频文件的音频文件信息。另一方面,提供了一种音频识别设备,所述音频识别设备包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现一方面所述的音频识别方法。另一方面,提供了一种终端,所述终端包括处理器和存储器,所述存储器中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由所述处理器加载并执行以实现另一方面所述的音频识别方法。另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现一方面所述的音频识别方法。另一方面,提供了一种计算机可读存储介质,所述存储介质中存储有至少一条指令、至少一段程序、代码集或指令集,所述至少一条指令、所述至少一段程序、所述代码集或所述指令集由处理器加载并执行以实现另一方面所述的音频识别方法。本专利技术实施例提供的技术方案带来的有益效果是:采用人声音高值序列匹配的方式,通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律,与对音频片段的演绎方式及音频片段的获取方式无关,因而识别结果更加准确。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1(A)是本专利技术实施例提供的音频识别方法所涉及的一种实施环境;图1(B)是本专利技术实施例提供的音频识别方法所涉及的另一种实施环境;图2是本专利技术实施例提供的一种音频识别方法的流程图;图3是本专利技术实施例提供的音频播放应用的播放界面的示意图;图4是本专利技术实施例提供的音频播放应用的音频采集界面的示意图;图5是本专利技术实施例提供的一种深度神经网络的结构示意图;图6是本专利技术实施例提供的一种音频识别装置的结构示意图;图7是本专利技术实施例提供的一种音频识别装置的结构示意图;图8示出了本专利技术一个示例性实施例提供的用于音频识别的终端的结构框图;图9是根据一示例性实施例示出的一种用于音频识别的服务器。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。参见图1(A),其示出了本专利技术实施例提供的音频识别方法所涉及的一种实施环境,该实施环境包括:终端101。其中,终端101可以为智能手机、平板电脑、笔记本电脑等,本专利技术实施例不对终端101的产品类型做具体的限定。为了满足用户的听觉需求,终端101安装有音频播放应用和音频识别应用等各种音频类应用,该音频播放应用可调用终端101内置的麦克风采集音频片段,并基于所加载的人声音高值序列提取模型,从采集到的音频片段中,提取目标人声音高值序列;该音频识别应用可对音频播放应用所提取的目标人声音高值序列进行匹配计算,从而识别出与采集到的音频片段相匹配的音频文件。参见图1(B),其示出了本专利技术实施例提供的音频识别方法所涉及的另一种实施环境,该实施环境包括:终端102和音频识别设备103。其中,终端102可以为智能手机、平板电脑、笔记本电脑等,本专利技术实施例不对终端102的产品类型作具体的限定,该终端102内安装有音频播放应用,可采集音频片段,并从采集到的音频判断中提取目标人声音高值序列,进而将所提取的目标人声音高值序列发送至音频播放设备。该音频识别设备103可以为安装有音频识别应用的终端,也可以为音频播放应用的后台服务器(图1(B)中仅以音频播放设备为服务器进行示例性示出),该音频识别设备103通过对终端102所发送的目标人声音高值序列进行匹配计算,为终端102提供音频识别服务。本专利技术实施例提本文档来自技高网...
音频识别方法、装置及存储介质

【技术保护点】
一种音频识别方法,其特征在于,所述方法包括:获取目标人声音高值序列,所述目标人声音高值序列从待识别的音频片段中提取;将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列;如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将匹配到的音频文件的音频文件信息发送至目标终端。

【技术特征摘要】
1.一种音频识别方法,其特征在于,所述方法包括:获取目标人声音高值序列,所述目标人声音高值序列从待识别的音频片段中提取;将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列;如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将匹配到的音频文件的音频文件信息发送至目标终端。2.根据权利要求1所述的方法,其特征在于,所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配,包括:对每个音频文件的实际人声音高值序列进行整体缩放,得到每个音频文件对应的多个参考人声音高值序列;根据每个音频文件所包括的多个音频片段的起始播放时间,按照与每个音频文件相同的缩放比例,将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列;将所述目标人声音高值序列与每个音频文件对应的每个参考人声音高值子序列进行匹配;所述如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配,将所述音频文件的音频文件信息发送至所述目标终端,包括:如果所述目标人声音高值序列与任一音频文件对应的任一参考人声音高值子序列相匹配,将所述音频文件的音频文件信息发送至所述目标终端。3.根据权利要求1或2所述的方法,其特征在于,所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配之前,还包括:获取多个音频文件;将每个音频文件输入到已训练的人声音高值序列提取模型中,得到每个音频文件的人声音高值序列;对每个音频文件的人声音高值序列进行处理,得到每个音频文件的实际人声音高值序列;根据多个音频文件的实际人声音高值序列,构建所述音频数据库。4.根据权利要求3所述的方法,其特征在于,所述将每个音频文件输入到已训练的人声音高值序列提取模型中之前,还包括:对每个音频文件进行预处理;将预处理后的每个音频文件进行常数Q变换;所述将每个音频文件输入到已训练的人声音高值序列提取模型中,包括:将常数Q变换后的每个音频文件输入到所述已训练的人声音高值序列提取模型中。5.根据权利要求3所述的方法,其特征在于,所述对每个音频文件的人声音高值序列进行处理,得到每个音频文件的实际人声音高值序列,包括:对于任一音频文件,获取所述音频文件对应的歌词文件;根据所述歌词文件中每个字的播放时间区间和所述音频文件的人声音高值序列中人声音高值变化时间,从所述人声音高值序列中,确定多个音符;计算每个音符对应的人声音高值;对所述多个音符进行过滤;将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值,作为实际人声音高值序列。6.根据权利要求5所述的方法,其特征在于,所述对所述多个音符进行过滤,包括:如果任一音符为指定音符,则将所述音符从所述人声音高值序列中删除,所述指定音符包括播放时间小于预设时长的音符、八度错误音符、滑音符以及人声音高值为零的音符中至少一种。7.一种音频识别方法,其特征在于,所述方法包括:获取待识别的音频片段;从所述待识别的音频片段中,提取目标人声音高值序列;根据所述目标人声音高...

【专利技术属性】
技术研发人员:邓博元朱碧磊金星明
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1