一种音频数据处理方法、装置以及系统制造方法及图纸

技术编号:14236112 阅读:63 留言:0更新日期:2016-12-21 10:29
本发明专利技术实施例公开了一种音频数据处理方法、装置以及系统,包括:客户端获取用户音频数据,并将用户音频数据发送至服务器;服务器提取用户音频数据的用户音频特征,并根据用户音频特征分别计算用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;服务器从多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至客户端;客户端在第一预设显示区域显示各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示用户音频数据对应的音频质量分数。采用本发明专利技术,可以使与音频数据的分析结果相关联的展示内容更加丰富。

Audio data processing method, device and system

The embodiment of the invention discloses an audio data processing method, device and system: client access to users and users of audio data, audio data sent to the server; the server users to extract audio features of users of audio data, and audio features were calculated according to user similarity between a plurality of preset sound audio data and audio data user preset the audio data in the database server; select a preset preset number of target matching preset audio data from a plurality of audio data, and the target audio data corresponding to the audio attribute information and timbre similarity is sent to the client; the client in the first display area displays the preset target audio data corresponding to the attribute information and audio timbre similarity, and in the second preset area show that the audio data to the user Audio quality score. By adopting the invention, the display content associated with the analysis result of the audio data can be enriched.

【技术实现步骤摘要】

本专利技术涉及互联网
,尤其涉及一种音频数据处理方法、装置以及系统
技术介绍
目前的智能终端(如手机、平板电脑、台式电脑等等)通常都具备基本的音频处理能力,例如,可以录制用户的声音,因此,目前的智能终端是可以支持目前大多数的音频处理应用。目前大多数的音频处理应用都可以对所录制到的用户歌声进行计算分析,以计算出用户的唱歌分数,并向用户显示该唱歌分数,使得用户可以直观的知道自己的唱歌水平。但是,由于目前这些音频处理应用对用户歌声的分析维度比较单一(即都只能分析用户的唱歌水平),所以导致最终的展示内容也比较单一(即最终只显示了用户的唱歌分数),使得展示效果不够丰富。
技术实现思路
本专利技术实施例提供一种音频数据处理方法、装置以及系统,可以使与音频数据的分析结果相关联的展示内容更加丰富。本专利技术第一方面提供了一种音频数据处理方法,包括:客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端;所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。本专利技术第二方面提供了一种音频数据处理方法,包括:服务器接收客户端发送的用户音频数据;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端,以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。本专利技术第三方面提供了一种音频数据处理装置,其特征在于,包括:接收模块,用于接收客户端发送的用户音频数据;计算模块,用于提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;选择发送模块,用于从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端,以使所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。本专利技术第四方面提供了一种音频数据处理系统,包括客户端和服务器;所述客户端,用于获取用户音频数据,并将所述用户音频数据发送至所述服务器,且还用于在第一预设显示区域显示所述服务器所发送的目标预设音频数据对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数;所述服务器包括上述第三方面所提供的音频数据处理装置。本专利技术实施例中的客户端将获取到的用户音频数据发送到服务器,使得服务器可以计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度,进而根据各音色相似度的排序从中选择出目标预设音频数据,并将目标预设音频数据对应的音频属性信息和音色相似度发送至所述客户端;由于不再仅限于在唱歌水平的维度上对用户音频数据进行分析,所以使得所述客户端不仅可以显示用户音频数据的音频质量分数,还可以显示目标预设音频数据对应的音频属性信息和音色相似度,从而使与用户音频数据的分析结果相关联的展示内容更加丰富。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术实施例提供的一种音频数据处理系统的结构示意图;图2是本专利技术实施例提供的一种音频数据处理方法的流程示意图;图2a是本专利技术实施例提供的一种客户端界面展示图;图2b是本专利技术实施例提供的另一种客户端界面展示图;图3是本专利技术实施例提供的一种音频数据处理方法的时序示意图;图4是本专利技术实施例提供的另一种音频数据处理方法的流程示意图;图5是本专利技术实施例提供的一种音频数据处理装置的结构示意图;图6是本专利技术实施例提供的一种计算模块的结构示意图;图7是本专利技术实施例提供的一种标签设置单元的结构示意图;图8是本专利技术实施例提供的一种选择发送模块的结构示意图;图9是本专利技术实施例提供的另一种音频数据处理装置的结构示意图。具体实施方式下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。请参见图1,是本专利技术实施例提供的一种音频数据处理系统的结构示意图。所述系统可以包括客户端100和服务器200,所述客户端100与所述服务器200通过网络进行连接,所述客户端100可以包括手机、平板电脑、台式电脑等具备音频处理功能和网络通信功能的智能终端,所述服务器200可以为音频处理应用的后台服务器200。所述系统可以应用于对用户歌声进行多维度分析的应用场景,例如,当用户通过所述客户端100录制自己的歌声,在录制完毕后,所述客户端100可以计算并显示用户歌声数据的唱歌分数(唱歌分数可以是根据用户歌声的音准、节奏等因素进行计算得到的),所述客户端100同时还将所述用户歌声数据发送到所述服务器200,所述服务器200可以提取用户歌声数据的用户音频特征,并根据所述用户音频特征分别计算所述用户歌声数据与预设的音频数据库中的多个预设明星歌声数据之间的音色相似度;所述服务器200再从所述多个预设明星歌声数据中选取预设匹配数量的目标预设明星歌声数据,并将各目标预设明星歌声数据分别对应的歌名、歌手名、歌手头像以及音色相似度等信息发送至所述客户端100,由此可见,所述系统不仅可以在唱歌水平这一维度上对用户歌声数据进行分析,还可以在与明星歌声的音色相似度这一维度上对用户歌声数据进行分析,因此,使得所述客户端100可以同时显示唱歌分数、各目标预设明星歌声数据分别对应的歌名、歌手名、歌手头像、音色相似度等信息,从而使与用户歌声数据的分析结果相关联的展示内容更加丰富。请参见图2,是本专利技术实施例所提供的一种音频数据处理方法的流程示意图,所述方法可以包括:S201,客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;具体的,所述客户端可以获取用户所输入的用户音频数据。例如,当用户在唱歌时,所述客户端可以通过麦克风获取用户的录歌音频,该录歌音频即为所述用户音频数据。当用户结束输入所述用户音频数据时(如录歌结束时),所述客户端可以计算所获取到的完整的所述用户音频数据对应的音频质量本文档来自技高网...
一种音频数据处理方法、装置以及系统

【技术保护点】
一种音频数据处理方法,其特征在于,包括:客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端;所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。

【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端;所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。2.如权利要求1所述的方法,其特征在于,所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端,包括:对所述用户音频数据与各预设音频数据之间的音色相似度进行排序,得到音色相似度排序表;从所述音色相似度排序表中按序获取预设匹配数量的音色相似度,作为目标音色相似度;所述目标音色相似度的数量等于所述预设匹配数量;获取每个所述目标音色相似度所对应的预设音频数据,作为目标音频数据;将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。3.如权利要求1所述的方法,其特征在于,所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度,包括:提取所述用户音频数据中每一帧数据分别对应的用户音频特征;对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签;根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型,计算所述用户音频数据对应的个性化音色向量;所述个性化音色计算模型是基于预设的共性音色计算模型和所述多个预设音频数据训练得到的;分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的向量余弦距离;其中,一个向量余弦距离指所述用户音频数据与一个预设音频数据之间的音色相似度。4.如权利要求3所述的方法,其特征在于,所述用户音频特征为梅尔频率倒谱系数MFCC音频特征;则所述对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签,包括:对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据进行归一化处理,得到待匹配信号能量值;将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较,并根据比较结果对每一帧数据进行识别,以识别出包含语音信息的帧数据和不包含语音信息的帧数据;为所述包含有语音信息的帧数据设置有效数据标签,并将所述不包含语音信息的帧数据删除。5.如权利要求3所述的方法,其特征在于,所述共性音色计算模型为通用背景模型UBM,所述个性化音色计算模型为I-vector计算模型;则所述服务器提取所述用户音频数据的用户音频特征的步骤之前,还包括:所述服务器提取各预设音频数据中每一帧数据分别对应的预设音频特征,并对携带有有效数据标签的预设音频特征进行归一化处理;所述有效数据标签是用于标识包含有语音信息的帧数据的标签;基于最大期望EM算法和已归一化且携带有有效数据标签的预设音频特征训练UBM的模型参数,并在所述UBM的模型参数训练完成后获取所述UBM的均值向量;基于所述UBM的均值向量、所述已归一化且携带有有效数据标签的预设音频特征以及预设的迭代次数训练I-vector计算模型中的低秩矩阵;在低秩矩阵训练完成后,基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量;所述个性化音色向量为I-vector值。6.如权利要求5所述的方法,其特征在于,所述根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型,计算所述用户音频数据对应的个性化音色向量,包括:对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理;将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中,并基于所述I-vector计算模型计算出所述用户音频数据对应的个性化音色向量。7.如权利要求1所述的方法,其特征在于,还包括:当所述服务器检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时,所述服务器将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。8.如权利要求1所述的方法,其特征在于,在所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数的步骤之前,还包括:所述客户端计算所述用户音频数据对应的音频质量分数,并显示所述音频质量分数以及音色相似度计算提示信息;则所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数,具体包括:当所述客户端接收到所述各目标预设音频数据分别对应的音频属性信息和音色相似度时,对所述音频质量分数对应的图形面积进行动态缩小,并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数,并取消对所述音色相似度计算提示信息的显示,并在第一预设显示区域显示所述各目标预设音频...

【专利技术属性】
技术研发人员:赵伟峰刘培孔令城
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1