本发明专利技术一种智能语音处理方法,属于信息处理技术领域,本发明专利技术通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音;与传统助听器不同,该方法可以根据用户个人需求从而自动为用户提供其所需的声音,减少了除噪音外的非目标人声的干扰,体现了该方法的个性化、互动化和智能化。
【技术实现步骤摘要】
【专利摘要】本专利技术,属于信息处理
,本专利技术通过建立对话人声音模型库,实现在多人语音环境下智能识别多个对话人的身份同时分离混合语音得到每个对话人的独立语音,根据用户需求为用户放大要听取的对话人的语音同时消除非用户要求的对话人的语音;与传统助听器不同,该方法可以根据用户个人需求从而自动为用户提供其所需的声音,减少了除噪音外的非目标人声的干扰,体现了该方法的个性化、互动化和智能化。【专利说明】
本专利技术属于信息处理
,具体涉及。
技术介绍
据2013年世界卫生组织(WHO)发布的最新评估数据显示,全球目前共有3.6亿人存在不同程度的听力障碍,占全球总人口的5%。助听产品的使用可以有效地补偿听力障碍患者的听力损失,提高他们的生活和工作质量。然而,当今助听系统相关技术的研究仍然集中在噪声抑制和源声音幅值放大两个方面,很少涉及到基于声音特征的建模和多声源自动分离技术。当实际应用场景非常复杂时,例如:聚会时,多个说话人同时发声,甚至是伴有音乐等背景声音,由于助听系统无法从混合后的声音输入中分离出感兴趣的声音对象,简单的声音强度扩大功能只能增加使用者的听力负担甚至伤害,不会带来有效的声音输入和理解。因此,针对当前助听系统的技术缺陷,设计一款具有特定声音对象识别功能的、更加智能化和个性化的新型助听系统,具有非常重要的意义。
技术实现思路
针对现有技术存在的不足,本专利技术提出,以达到保证用户根据自己的需求获得纯净的声音接收和放大,实现助听系统的智能化、互动化和个性化的目的。,包括以下步骤:步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练;具体过程如下:步骤1-1、采集样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数作为语音信号特征参数,并建立高斯混合模型;模型公式如下:【权利要求】1.,其特征在于,包括以下步骤: 步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练; 具体过程如下: 步骤1-1、采集样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数作为语音信号特征参数,并建立高斯混合模型; 模型公式如下: 2.根据权利要求1所述的智能语音处理方法,其特征在于,步骤2-4所述的阈值取值范围为Kr2~10-16。3.根据权利要求1所述的智能语音处理方法,其特征在于,步骤6-1所述的^?取0~I内的随机数,且满足 【文档编号】G10L15/07GK103811020SQ201410081493【公开日】2014年5月21日 申请日期:2014年3月5日 优先权日:2014年3月5日 【专利技术者】王 义, 魏阳杰, 陈瑶, 关楠 申请人:东北大学本文档来自技高网...
【技术保护点】
一种智能语音处理方法,其特征在于,包括以下步骤:步骤1、采集样本语音段构建样本语音库,对样本语音进行特征提取,获得特征参数,并对特征参数进行训练;具体过程如下:步骤1‑1、采集样本语音段,将采集的语音段进行离散化处理,提取语音信号的梅尔频率倒谱系数作为语音信号特征参数,并建立高斯混合模型;模型公式如下:p(XIG)=Σi=1Mpibi(X)---(1)]]>其中,p(XIG)表示样本语音特征参数在模型参数为G的模型中的概率;G表示高斯混合模型参数集,G={pi,μi,∑i},i=1,2,...,I;I表示高斯混合模型中单一高斯模型个数;pi表示第i个单一高斯模型的权重系数,μi表示第i个单一高斯模型的均值矢量;∑i表示第i个单一高斯模型的协方差矩阵;X表示样本语音特征参数,X={x1,x2,...,xT},T表示特征向量的个数;bi(X)表示第i个单一高斯模型的密度函数,bi(X)=N(μi,∑i),N(.)表示标准高斯分布的密度函数;步骤1‑2、利用语音信号特征参数训练高斯混合模型;即采用k均值聚类算法对语音信号特征参数进行聚类,获得高斯混合模型参数集初始值G0={pi0,μi0,∑i0},i=1,2,...,I;并根据获得的高斯混合模型参数集初始值,采用最大期望算法对模型进行估计,进而获得高斯混合模型参数,即完成特征参数的训练;步骤2、采用M个麦克风组成的麦克风阵列采集被测环境音频信号,确定该环境声音源个数和每个声音源波束到达的方向,即声源到麦克风阵列的入射角度;具体过程如下:步骤2‑1、采用M个麦克风组成的麦克风阵列采集被测环境的混合音频信号,并对采集的混合音频信号进行离散化处理,获得每个采样点的幅值;步骤2‑2、将每个采样点的幅值进行矩阵化,获得每个麦克风采集到的混合音频矩阵;上述混合音频矩阵的列数为一,行数为采样点个数,矩阵中元素为每个采样点的幅值;步骤2‑3、根据每个麦克风采集到的混合音频矩阵和麦克风个数,获得被测环境的混合音频信号的矢量协方差矩阵的估计值;矢量协方差矩阵的估计值公式如下:Rxx=1MΣm=1MX(m)XH(m)---(2)]]>其中,Rxx表示被测环境的混合音频信号的矢量协方差矩阵的估计值;X(m)表示第m个麦克风采集到的混合音频矩阵;XH(m)表示第m个麦克风采集到的混合音频矩阵的转置矩阵;步骤2‑4、对矢量协方差矩阵的估计值进行特征值分解,获得特征值,并对特征值从大到小进行排序,确定特征值大于阈值的个数,即为声音源的个数;步骤2‑5、将麦克风个数减去声音源个数获得噪音源个数,进而对应获得噪音矩阵;步骤2‑6、根据各个麦克风与阵列中心之间的距离、混合音频信号的波长、麦克风对于阵列中心的方向角度和声音源的波束到达方向获得麦克风阵列的导向矢量,再根据噪音矩阵和麦克风阵列的导向矢量获得混合音频信号的角度谱函数;混合音频信号的角度谱函数公式如下:P(θ)=1αH(θ)VuVHuα(θ)---(3)]]>其中,P(θ)表示混合音频信号的角度谱函数;α(θ)表示麦克风阵列的导向矢量,α(θ)=(α1(θ),...,αm(θ),...,αM(θ)),其中,j表示虚数单位,k=2π/λ,λ表示混合音频信号的波长,dm表示第m个麦克风与阵列中心的距离,表示第m个麦克风对于阵列中心的方向角度;θ表示声音源的波束到达方向;αH(θ)表示麦克风阵列的导向矢量的转置矩阵;Vu表示噪音矩阵;VHu表示噪音矩阵的转置矩阵;步骤2‑7、根据混合音频信号的角度谱函数的波形,由大到小选取该波形的多个峰值,选择峰值的个数即为声音源的个数;步骤2‑8、确定选取峰值对应的角度值,即获得每个声音源的波束到达方向;步骤3、根据每个声音源的音频信号、声音源与麦克风之间的转换关系,获得麦克风接收到的麦克风阵列声压、麦克风阵列水平方向声压梯度和麦克风阵列垂直方向的声压梯度;麦克风阵列声压信号公式如下:pw(t)=Σn=1N0.5Σm=1Mhmn(t)sn(t)---(4)]]>其中,pw(t)表示t时刻麦克风阵列声压;N表示声音源个数;t表示时间;sn(t)表示第n个声音源的音频信号;hmn(t)表示第n个声音源与第m个麦克风之间的转换矩阵,hmn(t)=p0(t)αm(θn(t)),p0(t)表示t时刻由声波造成的麦克风阵列中心声压;αm(θn(t))表示在t时刻第m个麦克风关于第n个声音源的导向矢量,其中,θn(t)表示t时刻第n个声音源的波束到达方向;麦克风阵列水平方向声压梯度公式如下:其中,px(t)表示麦克风阵列水平方向声压梯度;麦克风阵列垂直方向的声压梯度公式如下:其中,py(t)表示麦克风阵列垂直方向的声压梯度;步骤4、采用傅...
【技术特征摘要】
【专利技术属性】
技术研发人员:王义,魏阳杰,陈瑶,关楠,
申请(专利权)人:东北大学,
类型:发明
国别省市:辽宁;21
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。