本发明专利技术公开了一种基于时序马尔科夫过程的自适应音量优化方法,包括以下步骤:设置多个声音采集单元和图像采集单元,进行不同音源信号采集;对采集到的音源信号进行特征提取并将声音提供者与音源信号进行匹配;将音源信号进行自适应音源增益、噪音识别和串音识别;将优化后的音源信号进行音源输出;本发明专利技术通过自适应音源增益、噪音识别和串音识别实现准确的音源识别,实时分析各通道的音源音量,判断出保持理想识别效果的音量增益参数,实时分析多路通道的声学信息,判断各通道是否存有干扰语音,并进行相应的防串音抑制,提高声音识别率,对于硬件要求低,不受周围环境影响,解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。音识别效果。音识别效果。
【技术实现步骤摘要】
一种基于时序马尔科夫过程的自适应音量优化方法
[0001]本专利技术涉及声音信号处理
,尤其涉及一种基于时序马尔科夫过程的自适应音量优化方法。
技术介绍
[0002]公共场所如广场、公共汽车站、地铁等具有人流量大、地域广等特点,且公共场所的安全防范一直受到各国政府和人民的广泛关注。目前以视频监控为主的监控技术为公共场所的安全防范起到了积极的作用,然而视频监控技术存在监控死角、阴雨天监控模糊等问题。众所周知,在异常事件发生时常常伴随着尖叫声、枪声、玻璃破碎声、爆炸声等异常声音,因此音频监控与视频监控的协作运行已经成为公共场所安全监控领域的发展方向。
[0003]而在进行以语音识别为基础的多人实录系统中,室内环境结构、麦克风硬件、说话人位置和声音,都显著影响现场识别效果,各因素的变动容易造成收音微弱、麦克风串音,进而导致明显的识别率下降和识别结果错误等。
[0004]例如,中国专利CN202010825664.7公开了声音优化方法及声音优化系统。系统能够根据客户属性为其配置相应的声音优化模式,将人工坐席或语音机器人的音色音调转换为目标优化模式,提升客户体验;但是对于音源的识别效率并没有有效改进。
技术实现思路
[0005]本专利技术主要解决现有的技术中多音源识别效率低的问题;提供一种基于时序马尔科夫过程的自适应音量优化方法。
[0006]本专利技术的上述技术问题主要是通过下述技术方案得以解决的:一种基于时序马尔科夫过程的自适应音量优化方法,包括以下步骤:设置多个声音采集单元和图像采集单元,进行不同音源信号采集;对采集到的音源信号进行特征提取并将声音提供者与音源信号进行匹配;将音源信号进行自适应音源增益、噪音识别和串音识别;将优化后的音源信号进行音源输出。通过自适应音源增益、噪音识别和串音识别实现准确的音源识别,实时分析各通道的音源音量,判断出保持理想识别效果的音量增益参数,实时分析多路通道的声学信息,判断各通道是否存有干扰语音,并进行相应的防串音抑制,提高声音识别率,对于硬件要求低,不受周围环境影响,极大程度上解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。
[0007]作为优选,所述的声音采集单元为相互之间距离小于1m的多个有线麦克风或相互之间距离大于5m的多个无线麦克风。降低无线传输造成的音源接收干扰。
[0008]作为优选,音源信号采集的方法为:在同一时间帧内将全部通道的音源信号进行汇集。降低音源采集对于硬件的要求,减少成本。
[0009]作为优选,所述的音源增益的方法为:获取当前帧某一音源通道内的音源信号,并获取该帧音源信号声音提供者K帧历史帧信号,将K+1帧音源信号输入前馈记忆网络得到增益后的音源信号。
[0010]作为优选,所述的串音识别的方法为:对各通道的特征数据进行相似度计算,对相似度高的通道,再通过时序马尔可夫过程进行数字信号的时序对齐,识别出在时间上有向后延迟的相似通道,将识别出的时间上有向后延迟的相似通道判定为串音通道。
[0011]作为优选,取每个通道在当前时间的特征和历史时间帧上的特征进行异常检测,识别出麦克风突然采集声音的过程,并计算该过程是串音发生的概率,将串音发生概率和串音通道判定结果进行加权计算,得到最终的串音识别结果。
[0012]作为优选,前馈记忆网络的损失函数为二元逻辑损失函数。通过二元逻辑损失函数进行样本调整,实现前馈记忆网络的参数调整。
[0013]本专利技术的有益效果是:通过自适应音源增益、噪音识别和串音识别实现准确的音源识别,实时分析各通道的音源音量,判断出保持理想识别效果的音量增益参数,实时分析多路通道的声学信息,判断各通道是否存有干扰语音,并进行相应的防串音抑制,提高声音识别率,对于硬件要求低,不受周围环境影响,极大程度上解决了声音小的音源丢失和各通道串音问题,有效提升语音识别效果。
附图说明
[0014]图1是本专利技术实施例的音量优化方法的流程框图。
具体实施方式
[0015]以下通过特定的具体实例说明本专利技术的实施方式,本领域技术人员可由本说明书所揭露的内容轻易地了解本专利技术的其他优点与功效。本专利技术还可以通过另外不同的具体实施方式加以实施或应用,本说明书中的各项细节也可以基于不同观点与应用,在没有背离本专利技术的精神下进行各种修饰或改变。需说明的是,在不冲突的情况下,以下实施例及实施例中的特征可以相互组合。
[0016]需要说明的是,在下述描述中,参考附图,附图描述了本专利技术的若干实施例。应当理解,还可使用其他实施例,并且可以在不背离本专利技术的精神和范围的情况下进行机械组成、结构、电气以及操作上的改变。下面的详细描述不应该被认为是限制性的,并且本专利技术的实施例的范围仅由公布的专利的权利要求书所限定。这里使用的术语仅是为了描述特定实施例,而并非旨在限制本专利技术。空间相关的术语,例如“上”、“下”、“左”、“右”、“下面”、“下方”、“下部”、“上方”、“上部”等,可在文中使用以便于说明图中所示的一个元件或特征与另一元件或特征的关系。
[0017]为了使本专利技术的目的、技术方案及优点更加清楚明白,通过下述实施例并结合附图,对本专利技术实施例中的技术方案的进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定专利技术。
[0018]实施例1:一种基于时序马尔科夫过程的自适应音量优化方法,如图1所示,包括以下步骤:
[0019]S1:设置多个声音采集单元和图像采集单元,进行不同音源信号采集;声音采集单元为相互之间距离小于1m的多个有线麦克风或相互之间距离大于5m的多个无线麦克风,音源信号采集的方法为:在同一时间帧内将全部通道的音源信号进行汇集,通过采音麦克风及相关拾音组件采集的各通道语音信号,分别提取声源的数字信号和声学信息;在实际应
用中,因采集设备已被标记区分,因此可以取到每个讲话人实时的语音数字信号。
[0020]S2:对采集到的音源信号进行特征提取并将声音提供者与音源信号进行匹配;根据提供的预设的特征量化和分析,确定原信号的音量指标,例如:对于某个通道的数据其共有4000个数,取窗口大小为200,窗口总数为20,则将获得维度为20
×
200的窗口数据,该数据再通过特征融合,最后表达为一个长度为512的矢量在对所有通道进行如上操作后,将输出维度为4
×
512的特征数据。
[0021]S3:将音源信号进行自适应音源增益、噪音识别和串音识别;音源增益的方法为:获取当前帧某一音源通道内的音源信号,并获取该帧音源信号声音提供者K帧历史帧信号,将K+1帧音源信号输入前馈记忆网络得到增益后的音源信号,具体为:对某个通道的发言人在当前桢采集到的声学数字信号除词之外,还需K帧该发言人的历史桢信号共K+1帧信号通过前馈记忆网络,网络经过多层前向神经网络和记忆网络,输出长度为H的表征局部声学信息特征的浮点数向量和维度为H的表征历史声学信息特征的浮点数向量二者加权激活后输出一个浮点数其中Relu是一种激活本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于时序马尔科夫过程的自适应音量优化方法,其特征在于,包括以下步骤:设置多个声音采集单元和图像采集单元,进行不同音源信号采集;对采集到的音源信号进行特征提取并将声音提供者与音源信号进行匹配;将音源信号进行自适应音源增益、噪音识别和串音识别;将优化后的音源信号进行音源输出。2.根据权利要求1所述的一种基于时序马尔科夫过程的自适应音量优化方法,其特征在于,所述声音采集单元为相互之间距离小于1m的多个有线麦克风或相互之间距离大于5m的多个无线麦克风。3.根据权利要求1所述的一种基于时序马尔科夫过程的自适应音量优化方法,其特征在于,音源信号采集的方法为:在同一时间帧内将全部通道的音源信号进行汇集。4.根据权利要求1所述的一种基于时序马尔科夫过程的自适应音量优化方法,其特征在于,所述音源增益的方法为:获取当前帧某一音源通道内的音源信号,并获取该帧音源信号声音提供者K帧历...
【专利技术属性】
技术研发人员:麦联韬,唐海江,朱宇,袁宇豪,
申请(专利权)人:杭州云嘉云计算有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。