本发明专利技术公开了一种婴儿哭声识别方法、系统及装置,属于数字信号处理领域,包括基于表示已经被公开的用于表征婴儿哭声含义的数据集合,通过设置环境噪声数据,生成数据集;通过对数据集进行特征提取,依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络,进行训练,构建用于识别婴儿哭声的神经网络模型;基于神经网络模型,对采集的婴儿哭声进行识别,获取儿哭声对应的婴儿哭声识别数据集代表的婴儿哭声含义;本发明专利技术通过使用小波散射网络来更高效地提取声音信号的特征,提高了哭声识别的准确率,并且在保证效果的同时,使得用于识别的神经网络模型的参数量大大降低,进而节约硬件资源,节省了软硬件开发成本,降低了产品功耗。产品功耗。产品功耗。
【技术实现步骤摘要】
一种婴儿哭声识别方法、系统及装置
[0001]本专利技术涉及数字信号处理领域,具体而言,涉及一种婴儿哭声识别方法、系统及装置。
技术介绍
[0002]婴儿哭声识别是指利用相关技术对婴儿的啼哭声进行识别,判断婴儿啼哭的原因,如饥饿、不适、犯困等。在日常生活中,婴儿主要通过哭声向外界传达生理和心理需求,有效地识别婴儿哭声并将其“翻译”成易于理解的成人语言,对于婴儿看护者尤其是新手父母来说具有重大的实际意义和社会价值。婴儿哭声识别装置能够快速准确地识别婴儿哭声的类型,帮助看护者更好地了解婴儿的需求和情绪,并及时采取相应的措施。
[0003]目前大多数对婴儿哭声识别的研究主要集中在特征提取和模式识别两个技术方向:对于特征提取而言,由于时域特征不能充分反应声音的特性,而且在嘈杂环境下容易受环境噪声的干扰,容易导致误判,采用频域特征作为声音信号的提取特征,频域特征一般是通过在时域上把声音信号切分成一个个小片段(通常为20
‑
30ms),然后对每个小片段做傅里叶变换得到的,这种基于小片段的傅里叶变换也被称为短时傅里叶变换;但通过这种方式得到的特征有以下缺点:时域信号切分后的小片段长度,即窗口长度,是固定的,所以时间分辨率和频率分辨率是固定的,导致无法获得信号的全部有效特征;只能获取短时特征(20
‑
30ms内),无法获得长时特征(几秒内),造成信息丢失;短时傅里叶变换不具备稳定性,即时域上的小变形将导致高频特征的严重变形,这将影响声音分类的效果。所以,短时傅里叶变换不是非常高效的声音特征提取方法,它将加大模式识别的难度,降低训练神经网络模型的效率。正是由于这个原因,在模式识别阶段,一般需要大量数据来训练神经网络模型,使得训练过程非常耗时。同时,为了达到更好的声音分类效果,神经网络模型的结构通常设计得非常复杂,模型参数量非常大,这将进一步加大模型训练和部署的难度,耗费硬件资源,增加产品功耗和开发成本;因此,急需开发一种新的婴儿哭声识别技术,以提升识别的稳定性和准确率。
技术实现思路
[0004]为了解决基于短时傅里叶变换方法的特征提取过程中信息丢失和特征变形等问题,本专利技术的目的是提出一种新的婴儿哭声识别技术,通过使用小波散射网络来更高效地提取声音信号的特征,以提高哭声识别的准确率,并且在保证效果的同时,使得用于识别的神经网络模型的参数量大大降低,进而节约硬件资源,节省开发成本,降低产品功耗。
[0005]为了实现上述技术目的,本申请提供了一种婴儿哭声识别方法,包括以下步骤:
[0006]基于婴儿哭声识别数据集,通过设置环境噪声数据,生成数据集,其中,婴儿哭声识别数据集用于表示已经被公开的用于表征婴儿哭声含义的数据集合;
[0007]通过对数据集进行特征提取,依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络,进行训练,构建用于识别婴儿哭声的神经网络模型;
[0008]基于神经网络模型,对采集的婴儿哭声进行识别,获取儿哭声对应的婴儿哭声识别数据集代表的婴儿哭声含义。
[0009]优选地,在生成数据集的过程中,使用ESC
‑
50数据集作为环境噪声数据,通过婴儿哭声识别数据集,生成数据集。
[0010]优选地,在对数据集进行特征提取的过程中,通过小波散射网络,对数据进行特征提取,生成特征提取结果。
[0011]优选地,在构建神经网络模型的过程中,依据交叉熵损失值对神经网络进行训练,构建神经网络模型。
[0012]本专利技术公开了一种婴儿哭声识别系统,包括:
[0013]声音收集模块,用于获取婴儿哭声;
[0014]声音预处理模块,用于对获取的婴儿哭声进行滤波、降噪处理,去除杂音部分;
[0015]特征提取模块,用于通过小波散射网络,对预处理后的婴儿哭声进行特征提取,获取哭声特征;
[0016]模式识别模块,用于基于构建的神经网络模型,对哭声特征进行识别,获取婴儿哭声代表的含义,其中,基于由已经被公开的用于表征婴儿哭声含义的数据集合形成的婴儿哭声识别数据集,通过设置环境噪声数据,生成数据集,通过小波散射网络对数据集进行特征提取,依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络,进行训练,构建用于识别婴儿哭声的神经网络模型。
[0017]优选地,模式识别模块,还用于使用ESC
‑
50数据集作为环境噪声数据,通过婴儿哭声识别数据集,生成数据集。
[0018]优选地,模式识别模块,还用于依据交叉熵损失值对神经网络进行训练,构建神经网络模型。
[0019]本专利技术还公开了一种婴儿哭声识别装置,包括:
[0020]训练端,用于通过上位机,依据婴儿哭声识别方法,构建用于识别婴儿哭声的神经网络模型;
[0021]识别端,用于通过婴儿哭声识别系统,依据训练端生成的神经网络模型,通过采集婴儿哭声,识别婴儿哭声代表的含义。
[0022]优选地,识别端以ARM低功耗芯片为核心,将婴儿哭声识别系统以计算机程序的形式嵌入ARM低功耗芯片的逻辑端,通过在识别端设置声音收集装置,采集婴儿哭声至ARM低功耗芯片,通过设置在逻辑端的婴儿哭声识别系统,判断婴儿哭声代表的含义。
[0023]优选地,识别端还包括显示屏或者LED灯,用于显示婴儿哭声代表的不同含义;
[0024]识别端还与智能移动终端产品进行远程数据交互,通过智能移动终端产品控制识别端的开启规律,并将识别端识别的不同含义传输到智能移动终端产品。
[0025]本专利技术公开了以下技术效果:
[0026]本专利技术使用小波散射网络提取声音信号特征具有优良特性,使得婴儿哭声识别准确率高;
[0027]本专利技术提出的神经网络模型结构简单,参数量少,使得训练过程耗时短,模型部署简单;
[0028]本专利技术提出的整套装置所需硬件资源少,系统功耗低,开发成本低。
附图说明
[0029]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0030]图1是本专利技术所述的婴儿哭声识别方法逻辑示意图;
[0031]图2是本专利技术所述的方法步骤示意图;
[0032]图3是本专利技术所述的系统结构图。
具体实施方式
[0033]为使本申请实施例的目的、技术方案和优点更加清楚,下面将结合本申请实施例中附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请的实施例,本领域技术人员本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种婴儿哭声识别方法,其特征在于,包括以下步骤:基于婴儿哭声识别数据集,通过设置环境噪声数据,生成数据集,其中,所述婴儿哭声识别数据集用于表示已经被公开的用于表征婴儿哭声含义的数据集合;通过对所述数据集进行特征提取,依据特征提取结果对具有3层深度可分离卷积层和3层全连层的神经网络,进行训练,构建用于识别婴儿哭声的神经网络模型;基于所述神经网络模型,对采集的婴儿哭声进行识别,获取所述儿哭声对应的所述婴儿哭声识别数据集代表的所述婴儿哭声含义。2.根据权利要求1所述一种婴儿哭声识别方法,其特征在于:在生成数据集的过程中,使用ESC
‑
50数据集作为所述环境噪声数据,通过所述婴儿哭声识别数据集,生成所述数据集。3.根据权利要求2所述一种婴儿哭声识别方法,其特征在于:在对数据集进行特征提取的过程中,通过小波散射网络,对所述数据进行特征提取,生成所述特征提取结果。4.根据权利要求3所述一种婴儿哭声识别方法,其特征在于:在构建神经网络模型的过程中,依据交叉熵损失值对所述神经网络进行训练,构建所述神经网络模型。5.一种婴儿哭声识别系统,其特征在于,包括:声音收集模块,用于获取婴儿哭声;声音预处理模块,用于对获取的所述婴儿哭声进行滤波、降噪处理,去除杂音部分;特征提取模块,用于通过小波散射网络,对预处理后的所述婴儿哭声进行特征提取,获取哭声特征;模式识别模块,用于基于构建的神经网络模型,对所述哭声特征进行识别,获取所述婴儿哭声代表的含义,其中,基于由已经被公开的用于表征婴儿哭声含义的数据集合形成的婴儿哭声识别数据集,通过设置环境噪声数据,生成数据集,通过所述小波散射网络对所述数据集进行特征提取,依据特征提取结果...
【专利技术属性】
技术研发人员:刘诚,曹海涛,陈海山,
申请(专利权)人:广州番禺职业技术学院,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。