电话背景音乐检测模型方法、系统、设备及介质技术方案

技术编号:23898560 阅读:22 留言:0更新日期:2020-04-22 09:43
本发明专利技术公开了一种电话背景音乐检测模型、方法、系统、设备及介质,其中电话背景音乐检测模型的输入层用于接收电话背景音乐的帧信息并对帧信息进行特征提取得到预设维度的特征;音频CNN层用于通过每一路一维卷积层分别对预设维度的特征进行卷积计算并得到每一路一维卷积层对应的第一特征数据;拼接层用于对第一特征数据进行连接得到第二特征数据;多层卷积层用于对第二特征数据进行逐层卷积计算得到第三特征数据;全连接层用于根据第三特征数据得到帧信息的概率;输出层用于根据概率得到是否为电话背景音乐的判断结果。电话背景音乐检测模型可快速准确的对电话背景音乐的声音内容的进行检测,提高了电话背景音乐检测模型的泛化能力。

【技术实现步骤摘要】
电话背景音乐检测模型方法、系统、设备及介质
本专利技术涉及语音算法领域,尤其涉及一种电话背景音乐检测模型方法、系统、设备及介质。
技术介绍
在OTA(在线旅游)行业中,当OTA智能客服或者人工客服通过电话实时的和客人、企业或酒店方进行电话语音沟通时,客人、企业或酒店方如果设置有自动回应的铃声、或者提前录制好的回答系统录音、等待的滴滴声、欢迎语、任务型按键流程录音、广告以及英文发音广告等含有广告背景音乐的声音内容时,智能客服会将广告背景音乐的声音理解为正常的发音内容或视为正常对话而直接作出回应,导致误答;而人工客服则需要一直等待直到录音结束而不能进行其他事情,导致工作效率低的问题。对广告背景音乐的检测目前主流的方法主要是利用和设计各种传统语音特征来进行广告背景音乐检测,目前较为流行的算法有:1)用梅尔倒谱特征、瓶颈特征和短时能量等结合的特征信息匹配方法,基于该方法,在单一场景下的效果较好,该方法要求每个新的广告背景音乐都需要提供一种新的信息匹配和匹配阈值,设计逻辑较为复杂,且每个场景下的阈值较难统一控制;2)用短时能量、过零率、谱减法等结合的方法设计语音联合特征,再结合传统机器学习方法,基于该方法,在信噪比比较高的单一条件环境下效果比较好,但是在低采样率8kHz(千赫兹)的OTA电话场景中,广告背景音乐定义的类型较为复杂,如等待的滴滴声、酒店欢迎语、任务型按键流程录音、酒店广告以及英文发音广告等都属于广告背景音乐,且每个酒店都具有个性化,较难提供泛化功能。对于现有的在OTA行业中面对低采样率8kHz的电话广告背景音乐检测方法,主要存在的问题在于:1)OTA行业中的酒店场景个性化较为多样化,每个酒店的广告背景音乐都不太一致;2)OTA环境下的语音信号是低采样率8kHz;3)OTA智能客服通常面对的是千万级别量的语音客服请求和应答,要求广告背景音乐检测算法耗时较快,不适合采用过于复杂的算法。基于此,现有的电话广告背景音乐检测方法,无法解决现有的OTA行业智能电话面对广告背景音乐会误答、人工客服在面对电话广告背景音乐时需等待而导致工作效率低的问题。
技术实现思路
本专利技术要解决的技术问题是为了克服现有技术中OTA行业智能电话面对电话背景音乐会产生误回答以及人工客服在面对电话广告背景音乐时需等待而导致工作效率低的问题的缺陷,提供一种电话背景音乐检测模型方法、系统、设备及介质。本专利技术是通过下述技术方案来解决上述技术问题:一种电话背景音乐检测模型,所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;所述输入层用于接收电话背景音乐的帧信息并对所述帧信息进行特征提取得到预设维度的特征;所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;;所述拼接层用于对每一路所述一维卷积层对应的所述第一特征数据进行连接得到第二特征数据;所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;所述输出层用于根据所述概率得到是否为电话背景音乐的判断结果。优选地,所述音频CNN层还包括第一池化层和Flatten层,所述第一池化层连接于所述一维卷积层的尾部,所述Flatten层连接于所述第一池化层的尾部;所述第一池化层用于对所述一维卷积层对所述预设维度的特征进行卷积计算得到的结果进行池化;所述Flatten层用于对所述池化的结果进行压平得到所述第一特征数据;和/或,所述卷积层包括多层二维卷积层和第二池化层,所述第二池化层设置于每层所述二维卷积层的尾部,所述多层二维卷积层用于对所述第二特征数据进行逐层卷积计算,所述第二池化层用于对逐层卷积计算的结果进行池化得到所述第三特征数据;和/或,所述全连接层包括随机失活层和多层全连接网络层,所述随机失活层设置于所述多层全连接网络层的相邻的两层之间。一种电话背景音乐检测方法,所述电话背景音乐检测方法应用如上所述的电话背景音乐检测模型实现,所述电话背景音乐检测方法包括:对输入电话语音进行静音切割得到音频片段;对所述音频片段进行分帧得到对应的帧信息;将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果。优选地,所述将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果的步骤之前还包括:对所述帧信息进行过滤得到有效的所述帧信息;将所述有效的帧信息输入至所述电话背景音乐检测模型。优选地,所述对所述帧信息进行过滤得到有效的所述帧信息的步骤包括:对所述帧信息作预加重处理;对预加重后的所述帧信息放大;对放大后的所述帧信息进行能量计算得到对应的帧能量;根据所述帧能量得到有效的所述帧信息。优选地,所述根据所述帧能量得到有效的所述帧信息的步骤包括:设置预设阈值能量;判断所述帧能量是否大于所述预设阈值能量,若判断结果为是,则确定所述帧能量对应的所述帧信息为有效的所述帧信息。优选地,所述电话背景音乐检测方法还包括对所述电话背景音乐检测模型进行训练的步骤,所述对所述电话背景音乐检测模型进行训练的步骤包括:分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值;设置损失函数和优化方法;利用样本音频片段作为输入;根据所述样本音频片段设置是否为电话背景音乐的标签,将所述标签作为输出;根据所述损失函数和所述优化方法对所述电话背景音乐检测模型进行迭代训练。优选地,分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值的步骤包括:根据所述帧信息设置所述输入层的预设维度的值;分别设置所述音频CNN层中所述一维卷积层的卷积核尺寸、滤波器数据;分别设置所述音频CNN层中第一池化层的尺寸;分别设置所述卷积层中每层二维卷积层的参数值;当所述全连接层包括随机失活层和多层全连接网络层时,分别设置所述全连接层中所述多层全连接网络层的维度,以及随机失活层的参数值。一种电话背景音乐检测系统,所述电话背景音乐检测系统应用如上所述的电话背景音乐检测模型实现,所述电话背景音乐检测系统包括切割模块、分帧模块和预测模块;所述切割模块用于对输入电话语音进行静音切割得到音频片段;所述分帧模块用于对所述音频片段进行分帧得到对应的帧信息;所述预测模块用于将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果。优选地,所述电话背景音乐检测系统还包括预处理模块,所述预处理模块用于对所述帧信息进行过滤得到有效的所述帧信息,并将所述有效的帧信息输入至所述电话背景音乐检测模型。优选地,所述预处理模块还用于对所述帧信息作预加重处本文档来自技高网
...

【技术保护点】
1.一种电话背景音乐检测模型,其特征在于,所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;/n所述输入层用于接收电话背景音乐的帧信息并对所述帧信息进行特征提取得到预设维度的特征;/n所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;/n所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;/n所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;/n所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;/n所述输出层用于根据所述概率得到是否为电话背景音乐的判断结果。/n

【技术特征摘要】
1.一种电话背景音乐检测模型,其特征在于,所述电话背景音乐检测模型包括输入层、音频CNN层、拼接层、卷积层、全连接层和输出层;
所述输入层用于接收电话背景音乐的帧信息并对所述帧信息进行特征提取得到预设维度的特征;
所述音频CNN层包括若干路相并行的一维卷积层,所述音频CNN层用于通过所述一维卷积层分别对所述预设维度的特征进行卷积计算并得到每一路所述一维卷积层对应的第一特征数据;
所述拼接层用于对所述第一特征数据进行连接得到第二特征数据;
所述卷积层用于对所述第二特征数据进行卷积计算得到第三特征数据;
所述全连接层用于根据所述第三特征数据得到所述帧信息的概率;
所述输出层用于根据所述概率得到是否为电话背景音乐的判断结果。


2.如权利要求1所述的电话背景音乐检测模型,其特征在于,所述音频CNN层还包括第一池化层和Flatten层,所述第一池化层连接于所述一维卷积层的尾部,所述Flatten层连接于所述第一池化层的尾部;所述第一池化层用于对所述一维卷积层对所述预设维度的特征进行卷积计算得到的结果进行池化;所述Flatten层用于对所述池化的结果进行压平得到所述第一特征数据;
和/或,
所述卷积层包括多层二维卷积层和第二池化层,所述第二池化层设置于每层所述二维卷积层的尾部,所述多层二维卷积层用于对所述第二特征数据进行逐层卷积计算,所述第二池化层用于对逐层卷积计算的结果进行池化得到所述第三特征数据;
和/或,
所述全连接层包括随机失活层和多层全连接网络层,所述随机失活层设置于所述多层全连接网络层的相邻的两层之间。


3.一种电话背景音乐检测方法,其特征在于,所述电话背景音乐检测方法应用如权利要求1或2所述的电话背景音乐检测模型实现,所述电话背景音乐检测方法包括:
对输入电话语音进行静音切割得到音频片段;
对所述音频片段进行分帧得到对应的帧信息;
将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果。


4.如权利要求3所述的电话背景音乐检测方法,其特征在于,所述将所述帧信息输入至所述电话背景音乐检测模型得到所述判断结果的步骤之前还包括:
对所述帧信息进行过滤得到有效的所述帧信息;
将所述有效的帧信息输入至所述电话背景音乐检测模型。


5.如权利要求4所述的电话背景音乐检测方法,其特征在于,所述对所述帧信息进行过滤得到有效的所述帧信息的步骤包括:
对所述帧信息作预加重处理;
对预加重后的所述帧信息放大;
对放大后的所述帧信息进行能量计算得到对应的帧能量;
根据所述帧能量得到有效的所述帧信息。


6.如权利要求5所述的电话背景音乐检测方法,其特征在于,所述根据所述帧能量得到有效的所述帧信息的步骤包括:
设置预设阈值能量;
判断所述帧能量是否大于所述预设阈值能量,若判断结果为是,则确定所述帧能量对应的所述帧信息为有效的所述帧信息。


7.如权利要求3所述的电话背景音乐检测方法,其特征在于,所述电话背景音乐检测方法还包括对所述电话背景音乐检测模型进行训练的步骤,所述对所述电话背景音乐检测模型进行训练的步骤包括:
分别设置所述输入层、所述音频CNN层、所述拼接层、所述卷积层、所述全连接层的参数值;
设置损失函数和优化方法;
利用样本音频片段作为输入;
根据所述样本音频片段设置是否为电话背景音乐的标签,将所述标签作为输出;
根据所述损失函数和所述优化方法对所述电话背景音乐检测模型进...

【专利技术属性】
技术研发人员:郝竹林罗超胡泓王俊彬
申请(专利权)人:携程计算机技术上海有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1
相关领域技术