本发明专利技术公开一种病人虚弱语音端点检测方法,包括以下步骤:将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像;对语音信号的波形包络所在区域进行开操作,即其中Θ为腐蚀,为膨胀,再取边界β(A);β(A)=A-A(AΘB)进一步取波形轮廓,其中取边界β(A)为一个像素点;使用平滑滤波器h(x)对信号进行滤波,得到其中为卷积;对g(x)求两阶导数以检测边缘点;找到音频最高点,搜索最高点两边的店,将前点和后点比较,若前点小于后点,则认为此最高点两边的两个点分别为词或音节的起始和结束点。
【技术实现步骤摘要】
本专利技术属于语音通信领域,具体涉及。
技术介绍
未来人机交互最基本、最重要的手段是语音,而语音识别与合成是促使其普及发展的最关键技术。因此对语音识别的关键技术研究变的尤为重要。语音识别主要包括:语言特征提取、模式匹配和语言模型处理,其研究的对象分别是:语言特征序列、识别算法和语法语义分析。其中的关键技术有:端点检测,动态时间规整(DTW),隐形马尔科夫模型(HMM),人工神经网络(ANN)等。端点检测通常依据的语音特征有短时能量、过零率、LPC距离、频谱熵、倒谱特征、TF参数、分形特征以及几种参数相结合,例如能零积、能零比、频能比、对数能量谱熵、子带谱熵、能频值等,但是这些参数性能过于单一,在低信噪比的条件下很难满足实际的需求。传统的端点检测特征参数LPC距离、倒谱特征、TF参数和分形特征等参数计算量太大,对硬件要求很高,阻碍了人机交互技术在日常生活中的普及适用。
技术实现思路
本专利技术提出,通过对语音信号波形的图像,或语音信号的频谱图像,包括时域的包络图像进行图像处理,运用图像处理中对图像轮廓边缘的检测,进行端点检测。本专利技术的技术方案是:,包括以下步骤:将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像;对语音信号的波形包络所在区域进行开操作,即= 十B,其中Θ为腐蚀, 为膨胀,再取边界β (A);β (A) = A-A(AOB)进一步取波形轮廓,其中取边界β (A)为一个像素点;使用平滑滤波器h (x)对信号进行滤波,得到丨办)=fix) /φν),其中 为卷积;对g(x)求两阶导数以检测边缘点;找到音频最高点,搜索最高点两边的店,将前点和后点比较,若前点小于后点,则认为此最高点两边的两个点分别为词或音节的起始和结束点。本专利技术的明显效果是:这种方法比以往利用语音信号特征,例如能量,倒谱等人为找到的语音信息特征更为自然,更为简单和精确。因为人的肉眼对轮廓,边缘,间隔点的分辨率是相当高的。通过与人眼相对应的图像识别来区分语音信号的端点。图像处理从根本上说就是对人眼看到东西然后进行处理这一过程的一种机器模拟,所以这里用图像来识别比用机器对语音的其它特征进行处理来得更精确。语音特征参数和图像识别结合在一起,能够发挥他们各自的长处,同时又可以在一定程度上规避他们各自的缺点,扩大了端点检测的隔离度,从而能够有效的应对各种不同类型的背景噪声。把图像识别应用于语音端点检测中具有重大的理论和现实意义。尤其是病人说话语音和普通话中的一些清音的检测效果更为明显。附图说明图1为本专利技术的流程图;图2为本专利技术实施例中未经处理的原始语音波形图;图3为本专利技术实施例中图2放大2.3倍后的波形 图4为本专利技术实施例中图3进一步拉伸后的波形图;图5为本专利技术实施例中图2的二值图的语音波形图;图6为本专利技术实施例中图5的波形轮廓图;图7为本专利技术实施例中图2经平滑滤波和端点检测后的示意图;图8为本专利技术实施例中通过传统特征进行检测方法检测后的波形图;图9为本专利技术实施例中图8纵向横向拉伸后的波形图。具体实施例方式以下结合附图和实施例对本专利技术进行进一步描述。如图1所示,,包括以下步骤:将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像;对语音信号的波形包络所在区域进行开操作,即=其中Θ为腐蚀, 为膨胀,再取边界β (A);β (A) = A-A(AOB)进一步取波形轮廓,其中取边界β (A)为一个像素点;使用平滑滤波器h(x)对信号进行滤波,得到=其中 为卷积;对g(x)求两阶导数以检测边缘点;找到音频最高点,搜索最高点两边的店,将前点和后点比较,若前点小于后点,则认为此最高点两边的两个点分别为词或音节的起始和结束点。本专利技术的技术原理是:2.1短时平均过零率过零率可以反映信号的频谱特性。当离散时间信号相邻的两个样本点的正负号异号时,我们称之为“过零”。统计单位时间内样点值改变符号的次数即可以得到平均过零率。由于语音是一种短时平稳信号,因此在统计平均过零率时往往按帧来计算,这样的得到的就是短时平均过零率的定义。OCZx=Yj |sgn[x(m)] -sgn[x(m -1)]| ( - m)( 1 )其中,sgn[]为符号函数,ω (η)为窗函数,计算时常采用矩形窗,窗长为N。过零分析是语音的时域分析中最简单的一种分析。它可以区别语音的发音是清音还是浊音。由于清音语音的多数能量出现在较高的频率上,因此清音的过零率较高;而浊音语音具有高频跌落的频谱,因此浊音的过零率低。通过仿真分析,我们看出语音信号静音段过零率较高,语音段的过零率较低;噪声的过零率很高且在时间轴上分布均匀;对于带背景噪声的语音信号,噪声段过零率很高,而在信号与噪声叠加的语音段的过零率明显降低。2.2短时能量由于语音信号的能量随时间而变化,能量可以用于区别发音的清音段和浊音段,能量值较大的对应于清音段,能量值较小的对应于浊音段。所谓短时能量,就是先对音频信号进行分帧处理,然后对每一帧求其能量,它被定义为一帧中所有采样值平方的和。 En= ^ m).coin - w)]'(,,,当测试信号帧的短时能量超过噪声能量门限并持续一定时间,则第一次超过能量门限的点被认为是语音段的起点,然后当被测信号帧的能量低于另一噪声能量门限并持续一定时间,则被判为是语音段的终止点。这种方法在对噪声能量的门限估计有较大的限制和要求。2.3基本谱熵信息熵是由Shannon引用到信息论中来的,在语音编码中经常被使用,而Shen等人第一次用谱熵作为端点检测的特征参数。对一段语音信号进行采样、预加重、分帧、加窗等预处理,然后按帧间50%的重叠求FFT,得到其在频率分量的能量谱SnKfi),则每个频率分量的归一化概率密度函数(HF)定义。本文档来自技高网...
【技术保护点】
一种病人虚弱语音端点检测方法,其特征在于,包括以下步骤:将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像;对语音信号的波形包络所在区域进行开操作,即其中Θ为腐蚀,为膨胀,再取边界β(A);β(A)=A?A(AΘB)进一步取波形轮廓,其中取边界β(A)为一个像素点;使用平滑滤波器h(x)对信号进行滤波,得到其中为卷积;对g(x)求两阶导数以检测边缘点;找到音频最高点,搜索最高点两边的店,将前点和后点比较,若前点小于后点,则认为此最高点两边的两个点分别为词或音节的起始和结束点。FDA00002696890100011.jpg,FDA00002696890100012.jpg,FDA00002696890100013.jpg,FDA00002696890100014.jpg
【技术特征摘要】
1.一种病人虚弱语音端点检测方法,其特征在于,包括以下步骤: 将语音信号转换为图像,对此图像进行拉伸和放大,将拉伸和放大后的图像转换成二值图像; 对语音信号的波形包络所在区域进行开操作,即』。Β = 十/ ,其中Θ为腐蚀,Φ为膨胀,再取边界β (A); β (A) =A-A(AOB)进一步取波形轮廓...
【专利技术属性】
技术研发人员:尹岩岩,殷业,肖龙,关吉萍,
申请(专利权)人:上海师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。