一种唇腭裂术后说话发音及鼻音矫正方法及系统技术方案

技术编号:38731318 阅读:14 留言:0更新日期:2023-09-08 23:20
本发明专利技术涉及发音矫正技术领域,本发明专利技术公开了一种唇腭裂术后说话发音及鼻音矫正方法及系统,包括获取发音练习音视频,对发音练习音视频进行评测,筛选出患者的缺陷发音数据;基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,并进行提醒。醒。醒。

【技术实现步骤摘要】
一种唇腭裂术后说话发音及鼻音矫正方法及系统


[0001]本专利技术涉及发音矫正
,更具体地说,本专利技术涉及一种唇腭裂术后说话发音及鼻音矫正方法及系统。

技术介绍

[0002]唇腭裂,是口腔颌面部最常见的先天性畸形之一,是一种出生时口腔和面部发育异常的情况,也被称为唇腭裂缺陷;它是由于婴儿在母体发育期间口腔和面部结构未能完全闭合所引起的;唇腭裂可以是唇部裂缺(唇裂)、腭部裂缺(腭裂)或同时存在两者;目前,随着医疗技术水平的不断提高,虽然通过外科手术已经能够成功修复各种类型的唇腭裂,但由于各种原因不能早期实施手术,使得患者术前形成了不良的发音习惯,进而导致术后仍有相当数量患者存在不同程度的语音障碍,而这些患者在术后需要配合多角度和个性化的言语治疗,才能恢复到正常发音水平;因此如何对唇腭裂术后的患者进行有效的说话发音及鼻音矫正就成为当下研究热点。
[0003]目前,现有的唇腭裂术后说话发音及鼻音矫正方法大多是通过言语治疗康复师进行“一对一”式的矫正指导实现,然而由于受制于言语治疗的发展速度和普及广度,导致现有言语治疗康复师的数量无法满足现有的言语治疗需求,并且唇腭裂术后说话发音及鼻音矫正属于长期的工作,仅依赖于言语治疗康复师也是远远不够的;当然也存在部分智能化的发音矫正方式或系统,例如授权公告号CN109410664B的中国专利公开了一种发音纠正方法及电子设备,再例如授权公告号CN110085261B的中国专利公开了一种发音纠正方法、装置、设备以及计算机可读存储介质,上述方法虽能实现发音矫正,但经专利技术人对上述方法以及现有技术进行研究和实际应用发现,上述方法以及现有技术至少存在以下部分缺陷:(1)应用场景限制性较大,仅依赖言语治疗康复师,导致唇腭裂术后患者说话发音及鼻音矫正成效缓慢;(2)无法精确识别并评测患者的发音内容,难以针对性、个性化的实施发音矫正,且无法解析患者发音缺陷的具体原因;(3)仅起到标准发音的示范作用,无法指导陪护人员(如唇腭裂患者家长等)实施正确的矫正方式,难以长期辅助及指导陪护人员完成对行为力低下唇腭裂患者(行为力低下唇腭裂患者是指因为患者年幼而缺乏自控力或自我纠正能力的人)的发音矫正。

技术实现思路

[0004]为了克服现有技术的上述缺陷,本专利技术的实施例提供一种唇腭裂术后说话发音及鼻音矫正方法及系统。
[0005]为实现上述目的,本专利技术提供如下技术方案:一种唇腭裂术后说话发音及鼻音矫正方法,所述方法基于客户端和云服务器实现,所述客户端与云服务器远程通信连接,所述方法包括:获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛
选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒。
[0006]进一步地,对所述发音练习音视频进行评测,包括:分别提取发音练习音频文件和发音练习视频文件的时间戳,基于时间戳对发音练习音频文件和发音练习视频文件进行同步;基于预设起始标记和预设跟读时间跨度,分别对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,得到i个音频细分段和j个视频细分段,i、j为大于零的正整数集;分别对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据。
[0007]进一步地,对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,包括:基于预设起始标记分别确定发音练习音频文件和发音练习视频文件的起始时间;获取每个单音素的预设播放时长;基于发音练习音频文件和发音练习视频文件的起始时间、每个单音素的预设播放时长以及预设跟读时间跨度,分别对发音练习音频文件和发音练习视频文件进行划分,得到X个音频段和Y个视频段,X、Y为大于零的正整数集;基于每个单音素的预设播放时长,分别对X个音频段和Y个视频段中的播放部分进行剔除,得到i个音频细分段和j个视频细分段。
[0008]进一步地,对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据,包括:a.确定第W个音频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准时频波形;b.将对应音频细分段转化为实际时频图,提取实际时频图中的实际时频波形,将实际时频波形与标准时频波形比较,提取实际时频波形中与标准时频波形满足最大相似度的波形部分作为每个音频细分段的相似波形;c.分别提取相似波形的波形频率值与标准时频波形的波形频率值,计算相似波形的波形频率值与标准时频波形的波形频率值之间的频率平均差值,d.确定第S个视频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准发音口型图,S为大于零的正整数集;
e.将对应视频细分段进行视频帧逐帧分解,基于分解后的每个视频帧进行口型区域提取,以得到C幅患者发音口型图像,将每幅患者发音口型图像与标准发音口型图进行比较,提取C幅患者发音口型图像中与标准发音口型图满足最大相似度的患者发音口型图像作为相似图像;f.将相似图像与标准发音口型图均划分为Z个区域,对相似图像与标准发音口型图中相同位置区域的像素点进行比较,以获取差异区域个数;Z为大于零的正整数;g.根据频率平均差值和差异区域个数计算缺陷评测系数,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,若存在,将对应单音素标记为错误发音音素,并进行记录,若不存在,则判定对应单音素不存在发音缺陷;令W+Q、S+D,并返回至步骤a;H.重复上述步骤a~步骤g,直至W+Q=i和S+D=j,得到缺陷发音数据。
[0009]进一步地,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,包括:设置缺陷评测阈值,将缺陷评测系数与缺陷评测阈值进行比较,若缺陷评测系数大于等于缺陷评测阈值,则判定对应单音素是存在发音缺陷,反之,若缺陷评测系数小于缺陷评测阈值,则判定对应单音素不存在发音缺陷。
[0010]进一步地,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因,包括:提取每个音频细分段的相似波形,对每个音频细分段的相似波形进行傅里叶变换,得到若干错误发音音素的发音频谱图;将错误发音音素的发音频谱图与标准频谱特征图进行比较,若错误发音音素的发音频谱图与标准频谱特征图相一致,则将标准频谱特征图关联的发音缺陷原因作为错误发音音素的对应发音缺陷原因。
[0011]进一步地,将错误发音音素的发音频谱图本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,所述方法基于客户端和云服务器实现,所述客户端与云服务器远程通信连接,所述方法包括:获取唇腭裂术后患者的发音练习音视频,对所述发音练习音视频进行评测,以筛选出患者的缺陷发音数据;所述发音练习音视频包括发音练习音频文件和发音练习视频文件,所述缺陷发音数据包括M个错误发音音素,M为大于零的正整数集;基于预设缺陷发音数据与发音分析数据之间的关系,确定与缺陷发音数据的对应发音分析数据;所述发音分析数据包括N个发音缺陷原因、与每个发音缺陷原因对应的标准频谱特征图、以及与每个发音缺陷原因对应的标准矫正动作视频,N为大于零的正整数集;基于对应发音分析数据,确定缺陷发音数据中每个错误发音音素的对应发音缺陷原因;基于对应发音缺陷原因将对应的标准矫正动作视频反馈至客户端进行演示播放,基于对应的标准矫正动作视频实时获取矫正动作画面;匹配对应的预构建机器学习模型,利用对应的预构建机器学习模型对矫正动作画面进行识别,识别矫正动作画面中陪护人员的错误的发音矫正动作,基于错误的发音矫正动作对陪护人员进行提醒。2.根据权利要求1所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对所述发音练习音视频进行评测,包括:分别提取发音练习音频文件和发音练习视频文件的时间戳,基于时间戳对发音练习音频文件和发音练习视频文件进行同步;基于预设起始标记和预设跟读时间跨度,分别对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,得到i个音频细分段和j个视频细分段,i、j为大于零的正整数集;分别对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据。3.根据权利要求2所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对同步后的发音练习音频文件和发音练习视频文件进行划分和剔除,包括:基于预设起始标记分别确定发音练习音频文件和发音练习视频文件的起始时间;获取每个单音素的预设播放时长;基于发音练习音频文件和发音练习视频文件的起始时间、每个单音素的预设播放时长以及预设跟读时间跨度,分别对发音练习音频文件和发音练习视频文件进行划分,得到X个音频段和Y个视频段,X、Y为大于零的正整数集;基于每个单音素的预设播放时长,分别对X个音频段和Y个视频段中的播放部分进行剔除,得到i个音频细分段和j个视频细分段。4.根据权利要求3所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对i个音频细分段和j个视频细分段进行分析,以获取缺陷发音数据,包括:a.确定第W个音频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准时频波形;b.将对应音频细分段转化为实际时频图,提取实际时频图中的实际时频波形,将实际时频波形与标准时频波形比较,提取实际时频波形中与标准时频波形满足最大相似度的波形部分作为每个音频细分段的相似波形;
c.分别提取相似波形的波形频率值与标准时频波形的波形频率值,计算相似波形的波形频率值与标准时频波形的波形频率值之间的频率平均差值,d.确定第S个视频细分段的对应单音素,根据对应单音素调取预存于数据库中对应单音素的标准发音口型图,S为大于零的正整数集;e.将对应视频细分段进行视频帧逐帧分解,基于分解后的每个视频帧进行口型区域提取,以得到C幅患者发音口型图像,将每幅患者发音口型图像与标准发音口型图进行比较,提取C幅患者发音口型图像中与标准发音口型图满足最大相似度的患者发音口型图像作为相似图像;f.将相似图像与标准发音口型图均划分为Z个区域,对相似图像与标准发音口型图中相同位置区域的像素点进行比较,以获取差异区域个数;Z为大于零的正整数;g.根据频率平均差值和差异区域个数计算缺陷评测系数,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,若存在,将对应单音素标记为错误发音音素,并进行记录,若不存在,则判定对应单音素不存在发音缺陷;令W+Q、S+D,并返回至步骤a;H.重复上述步骤a~步骤g,直至W+Q=i和S+D=j,得到缺陷发音数据。5.根据权利要求4所述的一种唇腭裂术后说话发音及鼻音矫正方法,其特征在于,对缺陷评测系数进行比较,以判定对应单音素是否存在发音缺陷,包括:设置缺陷评测阈值,将缺陷评测系数与缺陷评测阈值进行比较,若缺陷评测系数大于等于缺陷评测阈值,则判定对应单音素是存在发音缺陷,反之,若缺陷评测系...

【专利技术属性】
技术研发人员:何燕姬陈国新
申请(专利权)人:南京优道言语康复研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1