一种融合GMM模型和HMM模型的婴儿哭声检测方法技术

技术编号:33249273 阅读:18 留言:0更新日期:2022-04-27 18:07
本发明专利技术涉及互联网技术领域,公开了一种融合GMM模型和HMM模型的婴儿哭声检测方法,包括以下步骤:建立短哭声数据模型C1;建立中哭声数据模型C2;建立长哭声数据模型C3:将上述得到的每种哭声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的HMM模型;建立短噪声数据模型N1;建立中噪声数据模型N2:建立长噪声数据模型N3:将上述得到的每种噪声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的GMM模型,能够充分利用GMM模型。本发明专利技术的技术方案能够显著提高哭声检测准确率,降低虚警率和漏报率。和漏报率。和漏报率。

【技术实现步骤摘要】
一种融合GMM模型和HMM模型的婴儿哭声检测方法


[0001]本专利技术涉及互联网
,特别涉及一种融合GMM模型和HMM模型的婴儿哭声检测方法。

技术介绍

[0002]婴儿哭声检测技术在教育、陪护领域具有广泛的应用前景。目前业界的主要通过统计模型方法来实现,通过建立婴儿哭声数据库,训练得到婴儿哭声的GMM模型或HMM模型,再经过对应的解码器打分得到匹配分数,通过设置的置信度阈值判断出是否为真实的婴儿哭声。这类方法主要的缺点是仅使用单一的模型结构(仅使用GMM模型结构,或者仅使用HMM模型结构),无法针对具体应用场景的需求充分发挥两种主流模型结构各自的优点,同时规避其不足。

技术实现思路

[0003]本专利技术的主要目的是提出一种融合GMM模型和HMM模型的婴儿哭声检测方法,旨在能够充分利用GMM模型与时序无关的特点和HMM模型与时序相关的特点,建立婴儿哭声模型和与之适应的噪声模型,实现婴儿哭声检测聚类和识别性能的提升,提高哭声检测准确率,降低虚警率和漏报率。
[0004]为实现上述目的,本专利技术提出的融合GMM模型和HMM模型的婴儿哭声检测方法,包括如下步骤:建立短哭声数据模型C1;建立中哭声数据模型C2;建立长哭声数据模型C3:将上述得到的每种哭声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的HMM模型;建立短噪声数据模型N1;建立中噪声数据模型N2:建立长噪声数据模型N3:将上述得到的每种噪声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的GMM模型。
[0005]进一步地,所述的建立短哭声数据模型C1包括如下步骤:(1)针对剔除静音后的纯哭声,选取有效语音时长为0.5秒~1秒之间的短时长婴儿哭声语音5000条,通过训练得到其对应的GMM模型C1_G;(2)从上个步骤中的5000条哭声语音中,随机选取整体语音时长为0.5秒~1秒之间的短时长婴儿哭声语音2000条,通过训练得到其对应的HMM模型C1_H。
[0006]进一步地,所述的建立中哭声数据模型C2包括如下步骤:(1)针对剔除静音后的纯哭声,选取有效语音时为1秒~2秒之间的中等时长婴儿哭
声语音5000条,通过训练得到其对应的GMM模型C2_G;(2)从上个步骤中的5000条哭声语音中随机选取整体语音时长为1秒~2秒之间的短时长婴儿哭声语音2000条,通过训练得到其对应的HMM模型C2_H。
[0007]进一步地,所述的建立长哭声数据模型C3包括如下步骤:(1)针对剔除静音后的纯哭声,选取有效语音时长为2秒~3秒之间的短时长婴儿哭声语音5000条,通过训练得到其对应的GMM模型C3_G;(2)从上个步骤中的5000条哭声语音中随机选取整体语音时长为2秒~3秒之间的短时长婴儿哭声语音2000条,通过训练得到其对应的HMM模型C3_H。
[0008]进一步地,所述的建立短噪声数据模型N1包括如下步骤:(1)依比例混合已有的M类噪声库声音数据;(2)针对剔除静音后的声音,选取有效语音时长为0.5秒~1秒之间的短时长噪声语音5000条,通过训练得到其对应的GMM模型N1_G;(3)从上个步骤中的5000条噪声语音中随机选取整体语音时长为0.5秒~1秒之间的短时长噪声语音2000条,通过训练得到其对应的HMM模型N1_H。
[0009]进一步地,所述的建立中噪声数据模型N2包括如下步骤:(1)依比例混合已有的M类噪声库声音数据;(2)针对剔除静音后的声音,选取有效语音时长为1秒~2秒之间的中等时长噪声语音5000条,通过训练得到其对应的GMM模型N2_G;(3)从上个步骤中的5000条噪声语音中随机选取整体语音时长为1秒~2秒之间的中等时长噪声语音2000条,通过训练得到其对应的HMM模型N2_H。
[0010]进一步地,所述的建立长噪声数据模型N3包括如下步骤:(1)依比例混合已有的M类噪声库声音数据;(2)针对剔除静音后的声音,选取有效语音时长为2秒~3秒之间的长噪声语音5000条,通过训练得到其对应的GMM模型N3_G;(3)从上个步骤中的5000条噪声语音中随机选取整体语音时长为2秒~3秒之间的长噪声语音2000条,通过训练得到其对应的HMM模型N3_H。
[0011]进一步地,所述的将上述得到的每种哭声数据模型,针对各自训练集5000条婴儿哭声声音进行识别训练测试:如果识别率≥97%则保留该哭声模型,如果识别率低于97%则丢弃该模型,从其对应的原始5000条哭声数据库中重新组合出2000条哭声语音重复训练直至识别率满足上述要求。
[0012]进一步地,所述的将上述得到的每种噪声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的GMM模型:如果识别率≥97%则保留该噪声模型,如果识别率低于97%则丢弃该模型,从其对应的原始5000条噪声数据库中重新组合出2000条噪声语音重复训练直至识别率满足上述要求。
[0013]采用本专利技术的技术方案,具有以下有益效果:本专利技术的技术方案,能够充分利用GMM模型时序无关的特点和HMM模型时序相关的特点,建立婴儿哭声模型和与之适应的噪声模型,实现婴儿哭声检测聚类和识别性能的提升,能够显著提高哭声检测准确率,降低虚警率和漏报率。
附图说明
[0014]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图示出的结构获得其他的附图。
[0015]图1为本专利技术提出的一种融合GMM模型和HMM模型的婴儿哭声检测方法的整体框架流程结构示意图;图2为本专利技术提出的一种融合GMM模型和HMM模型的婴儿哭声检测方法的针对婴儿哭声数据库的GMM模型和HMM模型融合流程图;图3为本专利技术提出的一种融合GMM模型和HMM模型的婴儿哭声检测方法的针对噪声数据库的GMM模型和HMM模型融合的流程图。
[0016]本专利技术目的的实现、功能特点及优点将结合实施例,参照附图做进一步说明。
具体实施方式
[0017]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术的一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0018]需要说明,本专利技术实施例中所有方向性指示(诸如上、下、左、右、前、后
……
)仅用于解释在某一特定姿态(如附图所示)下各部件之间的相对位置关系、运动情况等,如果该特定姿态发生改变时,则该方向性指示也相应地随之改变。
[0019]另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种融合GMM模型和HMM模型的婴儿哭声检测方法,其特征在于,包括如下步骤:建立短哭声数据模型C1;建立中哭声数据模型C2;建立长哭声数据模型C3:将上述得到的每种哭声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的HMM模型;建立短噪声数据模型N1;建立中噪声数据模型N2:建立长噪声数据模型N3:将上述得到的每种噪声数据模型,分别针对多条婴儿哭声声音进行识别训练测试,通过训练得到其对应的GMM模型。2.根据权利要求1所述的融合GMM模型和HMM模型的婴儿哭声检测方法,其特征在于,所述的建立短哭声数据模型C1包括如下步骤:(1)针对剔除静音后的纯哭声,选取有效语音时长为0.5秒~1秒之间的短时长婴儿哭声语音5000条,通过训练得到其对应的GMM模型C1_G;(2)从上个步骤中的5000条哭声语音中,随机选取整体语音时长为0.5秒~1秒之间的短时长婴儿哭声语音2000条,通过训练得到其对应的HMM模型C1_H。3.根据权利要求1所述的融合GMM模型和HMM模型的婴儿哭声检测方法,其特征在于,所述的建立中哭声数据模型C2包括如下步骤:(1)针对剔除静音后的纯哭声,选取有效语音时为1秒~2秒之间的中等时长婴儿哭声语音5000条,通过训练得到其对应的GMM模型C2_G;(2)从上个步骤中的5000条哭声语音中随机选取整体语音时长为1秒~2秒之间的短时长婴儿哭声语音2000条,通过训练得到其对应的HMM模型C2_H。4.根据权利要求1所述的融合GMM模型和HMM模型的婴儿哭声检测方法,其特征在于,所述的建立长哭声数据模型C3包括如下步骤:(1)针对剔除静音后的纯哭声,选取有效语音时长为2秒~3秒之间的短时长婴儿哭声语音5000条,通过训练得到其对应的GMM模型C3_G;(2)从上个步骤中的5000条哭声语音中随机选取整体语音时长为2秒~3秒之间的短时长婴儿哭声语音2000条,通过训练得到其对应的HMM模型C3_H。5.根据权利要求1所述的融合GMM模型和HMM模型的婴儿哭声检测方法,其特征在于,所述的建立短噪声数据模型N1包括如下步骤:(1)依比例混合已有的M类噪声库声音数据;(2)针对剔除静音后的声...

【专利技术属性】
技术研发人员:何宇新肖溪何海滨
申请(专利权)人:深圳声联网科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1