【技术实现步骤摘要】
电话背景音乐检测模型方法、系统、设备及介质
本专利技术涉及语音算法领域,尤其涉及一种电话背景音乐检测模型方法、系统、设备及介质。
技术介绍
在OTA(在线旅游)行业中,当OTA智能客服或者人工客服通过电话实时的和客人、企业或酒店方进行电话语音沟通时,客人、企业或酒店方如果设置有自动回应的铃声、或者提前录制好的回答系统录音、等待的滴滴声、欢迎语、任务型按键流程录音、广告以及英文发音广告等含有广告背景音乐的声音内容时,智能客服会将广告背景音乐的声音理解为正常的发音内容或视为正常对话而直接作出回应,导致误答;而人工客服则需要一直等待直到录音结束而不能进行其他事情,导致工作效率低的问题。对广告背景音乐的检测目前主流的方法主要是利用和设计各种传统语音特征来进行广告背景音乐检测,目前较为流行的算法有:1)用梅尔倒谱特征、瓶颈特征和短时能量等结合的特征信息匹配方法,基于该方法,在单一场景下的效果较好,该方法要求每个新的广告背景音乐都需要提供一种新的信息匹配和匹配阈值,设计逻辑较为复杂,且每个场景下的阈值较难统一控制;2)用短时能量、过零率、谱减法等结合的方法设计语音联合特征,再结合传统机器学习方法,基于该方法,在信噪比比较高的单一条件环境下效果比较好,但是在低采样率8kHz(千赫兹)的OTA电话场景中,广告背景音乐定义的类型较为复杂,如等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等都属于广告背景音乐,且每个酒店都具有个性化,较难提供泛化功能。对于现有的在OTA行业中面对低采 ...
【技术保护点】
1.一种电话背景音乐检测模型,其特征在于,所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;/n所述输入层用于接收电话背景音乐的帧信息并对所述帧信息进行特征提取得到预设维度的特征;/n所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;/n所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;/n所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;/n所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;/n所述输出层用于根据所述概率得到是否为电话背景音乐的判断结果。/n
【技术特征摘要】
1.一种电话背景音乐检测模型,其特征在于,所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;
所述输入层用于接收电话背景音乐的帧信息并对所述帧信息进行特征提取得到预设维度的特征;
所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;
所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;
所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;
所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;
所述输出层用于根据所述概率得到是否为电话背景音乐的判断结果。
2.如权利要求1所述的电话背景音乐检测模型,其特征在于,所述音频CNN层还包括第一池化层和Flatten层,所述第一池化层连接于所述一维卷积层的尾部,所述Flatten层连接于所述第一池化层的尾部;所述第一池化层用于对所述一维卷积层对所述预设维度的特征进行卷积计算得到的结果进行池化;所述Flatten层用于对所述池化的结果进行压平得到所述第一特征数据;
和/或,
所述卷积层包括多层二维卷积层和第二池化层,所述第二池化层设置于每层所述二维卷积层的尾部,所述多层二维卷积层用于对所述第二特征数据进行逐层卷积计算,所述第二池化层用于对逐层卷积计算的结果进行池化得到所述第三特征数据;
和/或,
所述全连接层包括随机失活层和多层全连接网络层,所述随机失活层设置于所述多层全连接网络层的相邻的两层之间。
3.一种电话背景音乐检测方法,其特征在于,所述电话背景音乐检测方法应用如权利要求1或2所述的电话背景音乐检测模型实现,所述电话背景音乐检测方法包括:
对输入电话语音进行静音切割得到音频片段;
对所述音频片段进行分帧得到对应的帧信息;
将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果。
4.如权利要求3所述的电话背景音乐检测方法,其特征在于,所述将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果的步骤之前还包括:
对所述帧信息进行过滤得到有效的所述帧信息;
将所述有效的帧信息输入至所述电话背景音乐检测模型。
5.如权利要求4所述的电话背景音乐检测方法,其特征在于,所述对所述帧信息进行过滤得到有效的所述帧信息的步骤包括:
对所述帧信息作预加重处理;
对预加重后的所述帧信息放大;
对放大后的所述帧信息进行能量计算得到对应的帧能量;
根据所述帧能量得到有效的所述帧信息。
6.如权利要求5所述的电话背景音乐检测方法,其特征在于,所述根据所述帧能量得到有效的所述帧信息的步骤包括:
设置预设阈值能量;
判断所述帧能量是否大于所述预设阈值能量,若判断结果为是,则确定所述帧能量对应的所述帧信息为有效的所述帧信息。
7.如权利要求3所述的电话背景音乐检测方法,其特征在于,所述电话背景音乐检测方法还包括对所述电话背景音乐检测模型进行训练的步骤,所述对所述电话背景音乐检测模型进行训练的步骤包括:
分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值;
设置损失函数和优化方法;
利用样本音频片段作为输入;
根据所述样本音频片段设置是否为电话背景音乐的标签,将所述标签作为输出;
根据所述损失函数和所述优化方法对所述电话背景音乐检测模型进...
【专利技术属性】
技术研发人员:郝竹林,罗超,胡泓,王俊彬,
申请(专利权)人:携程计算机技术上海有限公司,
类型:发明
国别省市:上海;31
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。