音频识别方法、装置及存储介质制造方法及图纸

技术编号：17839391 阅读：77 留言：0更新日期：2018-05-03 20:26

本发明专利技术公开了一种音频识别方法、装置及存储介质，属于互联网技术领域。所述方法包括：获取目标人声音高值序列；将目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配；如果目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至终端，由终端进行显示。本发明专利技术采用人声音高值序列匹配的方式，通过将待识别音频文件的目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，识别出音频文件信息。由于人声音高值序列仅取决于能够反映出歌曲本身的主旋律，与对音频片段的演绎方式及音频片段的获取方式无关，因而识别结果更加准确。

全部详细技术资料下载

【技术实现步骤摘要】
音频识别方法、装置及存储介质
本专利技术涉及互联网
，特别涉及一种音频识别方法、装置及存储介质。
技术介绍
在现代生活中，当用户在咖啡馆、餐厅、演唱会等公共场所听到喜欢的音乐，并想进一步了解这些音乐的相关信息时，用户可借助具有听歌识曲功能的音频播放应用对这些音频进行识别。现有技术在进行音频识别时，主要采用如下方法：终端获取待识别的音频片段，根据待识别的音频片段的音域特征，选取能量极大值点作为峰值特征点，并将至少两个峰值特征点组合成目标音频指纹，进而将目标音频指纹发送至服务器；当接收到目标音频指纹时，服务器将目标音频指纹与音频数据库中每个音频文件所包括的各个音频片段的音频指纹进行匹配，当该目标音频指纹与任一音频片段的音频指纹相匹配，将包括该音频片段的音频文件的音频文件信息发送至终端，由终端进行显示，其中，音频数据库中存储有每个音频文件的音频文件信息及其所包括的音频片段的音频指纹。然而，音频片段的演绎方式及获取方式不同，音频文件的音域特征也将不同的，而音域特征直接影响到峰值特征点的提取，当待识别的音频片段与音频文件的音域特征不同时，从待识别的音频片段中所提取的峰值特征点将发生变化，进一步地根据所提取的峰值特征点生成的目标音频指纹将发生偏差，从而导致音频识别的准确性较低。
技术实现思路
为了解决现有技术的问题，本专利技术实施例提供了一种音频识别方法、装置及存储介质。所述技术方案如下：一方面，提供了一种音频识别方法，所述方法包括：获取目标人声音高值序列，所述目标人声音高值序列从待识别的音频片段中提取；将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音...
音频识别方法、装置及存储介质

【技术保护点】
一种音频识别方法，其特征在于，所述方法包括：获取目标人声音高值序列，所述目标人声音高值序列从待识别的音频片段中提取；将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至目标终端。

【技术特征摘要】
1.一种音频识别方法，其特征在于，所述方法包括：获取目标人声音高值序列，所述目标人声音高值序列从待识别的音频片段中提取；将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，所述音频数据库中存储有每个音频文件的音频文件信息及实际人声音高值序列；如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将匹配到的音频文件的音频文件信息发送至目标终端。2.根据权利要求1所述的方法，其特征在于，所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配，包括：对每个音频文件的实际人声音高值序列进行整体缩放，得到每个音频文件对应的多个参考人声音高值序列；根据每个音频文件所包括的多个音频片段的起始播放时间，按照与每个音频文件相同的缩放比例，将每个音频文件对应的每个参考人声音高值序列切分为多个参考人声音高值子序列；将所述目标人声音高值序列与每个音频文件对应的每个参考人声音高值子序列进行匹配；所述如果所述目标人声音高值序列与任一音频文件的实际人声音高值序列相匹配，将所述音频文件的音频文件信息发送至所述目标终端，包括：如果所述目标人声音高值序列与任一音频文件对应的任一参考人声音高值子序列相匹配，将所述音频文件的音频文件信息发送至所述目标终端。3.根据权利要求1或2所述的方法，其特征在于，所述将所述目标人声音高值序列与音频数据库中每个音频文件的实际人声音高值序列进行匹配之前，还包括：获取多个音频文件；将每个音频文件输入到已训练的人声音高值序列提取模型中，得到每个音频文件的人声音高值序列；对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列；根据多个音频文件的实际人声音高值序列，构建所述音频数据库。4.根据权利要求3所述的方法，其特征在于，所述将每个音频文件输入到已训练的人声音高值序列提取模型中之前，还包括：对每个音频文件进行预处理；将预处理后的每个音频文件进行常数Q变换；所述将每个音频文件输入到已训练的人声音高值序列提取模型中，包括：将常数Q变换后的每个音频文件输入到所述已训练的人声音高值序列提取模型中。5.根据权利要求3所述的方法，其特征在于，所述对每个音频文件的人声音高值序列进行处理，得到每个音频文件的实际人声音高值序列，包括：对于任一音频文件，获取所述音频文件对应的歌词文件；根据所述歌词文件中每个字的播放时间区间和所述音频文件的人声音高值序列中人声音高值变化时间，从所述人声音高值序列中，确定多个音符；计算每个音符对应的人声音高值；对所述多个音符进行过滤；将过滤后的音符所组成的音符序列及音符序列中每个音符的人声音高值，作为实际人声音高值序列。6.根据权利要求5所述的方法，其特征在于，所述对所述多个音符进行过滤，包括：如果任一音符为指定音符，则将所述音符从所述人声音高值序列中删除，所述指定音符包括播放时间小于预设时长的音符、八度错误音符、滑音符以及人声音高值为零的音符中至少一种。7.一种音频识别方法，其特征在于，所述方法包括：获取待识别的音频片段；从所述待识别的音频片段中，提取目标人声音高值序列；根据所述目标人声音高...

【专利技术属性】
技术研发人员：邓博元，朱碧磊，金星明，
申请(专利权)人：腾讯科技深圳有限公司，
类型：发明
国别省市：广东,44

全部详细技术资料下载我是这个专利的主人