The embodiment of the invention discloses an audio data processing method, device and system: client access to users and users of audio data, audio data sent to the server; the server users to extract audio features of users of audio data, and audio features were calculated according to user similarity between a plurality of preset sound audio data and audio data user preset the audio data in the database server; select a preset preset number of target matching preset audio data from a plurality of audio data, and the target audio data corresponding to the audio attribute information and timbre similarity is sent to the client; the client in the first display area displays the preset target audio data corresponding to the attribute information and audio timbre similarity, and in the second preset area show that the audio data to the user Audio quality score. By adopting the invention, the display content associated with the analysis result of the audio data can be enriched.
【技术实现步骤摘要】
本专利技术涉及互联网
,尤其涉及一种音频数据处理方法、装置以及系统。
技术介绍
目前的智能终端(如手机、平板电脑、台式电脑等等)通常都具备基本的音频处理能力,例如,可以录制用户的声音,因此,目前的智能终端是可以支持目前大多数的音频处理应用。目前大多数的音频处理应用都可以对所录制到的用户歌声进行计算分析,以计算出用户的唱歌分数,并向用户显示该唱歌分数,使得用户可以直观的知道自己的唱歌水平。但是,由于目前这些音频处理应用对用户歌声的分析维度比较单一(即都只能分析用户的唱歌水平),所以导致最终的展示内容也比较单一(即最终只显示了用户的唱歌分数),使得展示效果不够丰富。
技术实现思路
本专利技术实施例提供一种音频数据处理方法、装置以及系统,可以使与音频数据的分析结果相关联的展示内容更加丰富。本专利技术第一方面提供了一种音频数据处理方法,包括:客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端;所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。本专利技术第二方面提供了一种音频数据处理方法,包括:服务器接收客户端发送的用户音频数据;所述服务器提取所述用户音频数据的用户音 ...
【技术保护点】
一种音频数据处理方法,其特征在于,包括:客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端;所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。
【技术特征摘要】
1.一种音频数据处理方法,其特征在于,包括:客户端获取用户音频数据,并将所述用户音频数据发送至所述服务器;所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度;所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端;所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数。2.如权利要求1所述的方法,其特征在于,所述服务器从所述多个预设音频数据中选取预设匹配数量的目标预设音频数据,并将各目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端,包括:对所述用户音频数据与各预设音频数据之间的音色相似度进行排序,得到音色相似度排序表;从所述音色相似度排序表中按序获取预设匹配数量的音色相似度,作为目标音色相似度;所述目标音色相似度的数量等于所述预设匹配数量;获取每个所述目标音色相似度所对应的预设音频数据,作为目标音频数据;将各所述目标预设音频数据分别对应的音频属性信息和音色相似度发送至所述客户端。3.如权利要求1所述的方法,其特征在于,所述服务器提取所述用户音频数据的用户音频特征,并根据所述用户音频特征分别计算所述用户音频数据与预设的音频数据库中的多个预设音频数据之间的音色相似度,包括:提取所述用户音频数据中每一帧数据分别对应的用户音频特征;对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签;根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型,计算所述用户音频数据对应的个性化音色向量;所述个性化音色计算模型是基于预设的共性音色计算模型和所述多个预设音频数据训练得到的;分别计算所述用户音频数据对应的个性化音音色向量与各预设音频数据对应的个性化音色向量之间的向量余弦距离;其中,一个向量余弦距离指所述用户音频数据与一个预设音频数据之间的音色相似度。4.如权利要求3所述的方法,其特征在于,所述用户音频特征为梅尔频率倒谱系数MFCC音频特征;则所述对所述用户音频数据中包含有语音信息的帧数据设置有效数据标签,包括:对所述用户音频数据中每一帧数据分别对应的MFCC音频特征中的首位数据进行归一化处理,得到待匹配信号能量值;将所述用户音频数据中每一帧数据分别对应的待匹配信号能量值分别与预设能量阈值进行比较,并根据比较结果对每一帧数据进行识别,以识别出包含语音信息的帧数据和不包含语音信息的帧数据;为所述包含有语音信息的帧数据设置有效数据标签,并将所述不包含语音信息的帧数据删除。5.如权利要求3所述的方法,其特征在于,所述共性音色计算模型为通用背景模型UBM,所述个性化音色计算模型为I-vector计算模型;则所述服务器提取所述用户音频数据的用户音频特征的步骤之前,还包括:所述服务器提取各预设音频数据中每一帧数据分别对应的预设音频特征,并对携带有有效数据标签的预设音频特征进行归一化处理;所述有效数据标签是用于标识包含有语音信息的帧数据的标签;基于最大期望EM算法和已归一化且携带有有效数据标签的预设音频特征训练UBM的模型参数,并在所述UBM的模型参数训练完成后获取所述UBM的均值向量;基于所述UBM的均值向量、所述已归一化且携带有有效数据标签的预设音频特征以及预设的迭代次数训练I-vector计算模型中的低秩矩阵;在低秩矩阵训练完成后,基于所述I-vector计算模型计算所述各预设音频数据分别对应的个性化音色向量;所述个性化音色向量为I-vector值。6.如权利要求5所述的方法,其特征在于,所述根据携带有所述有效数据标签的帧数据所对应的用户音频特征以及预设的个性化音色计算模型,计算所述用户音频数据对应的个性化音色向量,包括:对携带有所述有效数据标签的帧数据所对应的用户音频特征进行归一化处理;将已归一化且携带有有效数据标签的用户音频特征输入所述I-vector计算模型中,并基于所述I-vector计算模型计算出所述用户音频数据对应的个性化音色向量。7.如权利要求1所述的方法,其特征在于,还包括:当所述服务器检测出所述各目标预设音频数据分别对应的音色相似度中的最大音色相似度大于预设相似度阈值时,所述服务器将所述最大音色相似度对应的目标预设音频数据的音频属性信息、所述最大音色相似度以及所述客户端的用户信息发送至与所述客户端的用户信息具有好友关联关系的多个好友客户端。8.如权利要求1所述的方法,其特征在于,在所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数的步骤之前,还包括:所述客户端计算所述用户音频数据对应的音频质量分数,并显示所述音频质量分数以及音色相似度计算提示信息;则所述客户端在第一预设显示区域显示所述各目标预设音频数据分别对应的音频属性信息和音色相似度,并在第二预设显示区域显示所述用户音频数据对应的音频质量分数,具体包括:当所述客户端接收到所述各目标预设音频数据分别对应的音频属性信息和音色相似度时,对所述音频质量分数对应的图形面积进行动态缩小,并在第二预设显示区域中显示图形面积缩小后的所述音频质量分数,并取消对所述音色相似度计算提示信息的显示,并在第一预设显示区域显示所述各目标预设音频...
【专利技术属性】
技术研发人员:赵伟峰,刘培,孔令城,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。