当前位置: 首页 > 专利查询>天津大学专利>正文

多模态言语评估系统技术方案

技术编号:38563102 阅读:7 留言:0更新日期:2023-08-22 21:02
本发明专利技术公开了多模态语音评估系统。包括采集数据的设备方法,言语诊断算法的构建,诊断交互系统的界面及使用。采集数据使用相机,超声探头,麦克风并设计承载相机的机构,并使用串口的方法适时提取数据后进行对齐。数据进入后由KALDI的GOP特征提取方法,Block WHT

【技术实现步骤摘要】
多模态言语评估系统


[0001]本专利技术涉及语音信号处理领域,具体为一种采集数据后进行运算并输出可视化结果的多模态言语评估系统。

技术介绍

[0002]目前,在言语评估领域,市面上存在一些产品,如“健朗医疗”的言语训练康复系统,“COGNI”的言语认知训练评估系统,“人来康复”的言语认知康复评定和训练系统,这些系统都能对病人的言语进行评估。
[0003]但是就具体的内容来看,这种诊断系统或是依赖医生诊断,系统仅仅提供展示页面以及记录处理数据,匹配训练语句,或是只对患者的语音信号进行诊断,仅仅依靠患者的语音来判断患者言语障碍等级,而对于形成语音这一言语过程无法进行涉及。
[0004]由于发声是一个综合性的结果,发音除了产生语音这一实际结果之外,其伴随的唇的运动,舌的运动也是言语障碍患者可能区别于正常人的言语特征,同时舌的运动与唇的运动与形成言语这一过程有关,也可以作为言语患者与正常人的重要区分特征来判断言语障碍级别,而随着信号提取和处理技术的发展,提取处理后的唇和超声舌图像已有足够的可靠用于人工智能医疗诊断用途。
[0005]为解决上述问题,我们开发出一种新型多模态言语评估系统用于言语的诊断。

技术实现思路

[0006]为解决上述技术问题,本专利技术采用如下技术方案:本专利技术提供一种多模态言语评估系统,其特征在于,包括语音信号提取模块、唇部图像捕捉模块、超声舌图像采集模块和上位机电脑;所述语音信号提取模块为上位机电脑自带麦克风,用于对语音信号进行提取;所述唇部图像捕捉模块为佩戴固定机架的摄像头,用于对患者说话时的唇部图像进行捕捉采集;所述超声舌图像采集模块为超声探头,用于对患者说话时的舌图像进行采集;所述上位机电脑用于接收语音信号提取模块、唇部图像捕捉模块以及超声舌图像采集模块传输的语音信号、唇部图像信号以及超声舌图像信号,并将其按时间同步;上位机电脑将唇图像和舌图像进行切割,以减少提取特征中的噪音干扰;对于言语信号,使用KALDI中的GOP特征提取工具,提取语音的GOP特征;上位机电脑对于超声舌图像和唇部图像,运用Block WHT

PCA方法提取其特征;上位机电脑对于原始的文本数据,分割为具体的标准音素,对具体音素提取特征同样进行输入;上位机电脑将上述提取到的不包括原始文本所得的言语特征,进行处理后进行加和,加和所用权重由权重到结果的映射逐渐优化得到,对加和得到的数据作为输入数据输入神经网络模型中,经模型处理后得到该言语的准确度得分、流利度得分、完成度得分以及
总得分。
[0007]上位机电脑将患者每一句的各项得分留存,在结束评估时,将得分进行加和,输出用户的得分情况,同时结合医院的评估量表,输出用户的言语障碍评定报告,报告包括用户的个人信息,各项得分,以及最终的言语障碍级别。
[0008]进一步的,所述固定机架包括固定杆、凹槽物块、滚杆、摇杆和滑块;所述滚杆置于凹槽物块中,沿凹槽物块进行移动;所述滚杆设置为两个,两个摇杆设置于凹槽物块两侧,所述摇杆分别主杆和分支杆,分支杆顶端和主杆相铰接,主杆和分支杆底端分别与两个滚杆相连,主杆顶端与固定杆相连,主杆可绕固定杆转动;所述滑块承载摄像头,置于凹槽物块之间;滑块底座宽度大于凹槽物块上凹槽上方的宽度,而小于凹槽物块凹槽下方的宽度;滑块底座可沿凹槽物块之间的凹槽进行移动,滑块底座和一个滚杆相连。
[0009]有益效果在于:本专利配套提取数据的硬件机构,以及三模态处理数据的软件系统的内部算法以及UI界面,从而准确全面的评估用户的言语情况。
附图说明
[0010]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0011]图1为本专利技术提供的多模态言语评估系统的整体流程示意图;图2为本专利技术提供的多模态言语评估系统所采集并用言语诊断后端模型的模型构建及使用原理示意图:图3为本专利技术提供的多模态言语诊断系统的交互系统页面示意图:图4为本专利技术专利提供的多模态言语诊断系统对用户进行唇部数据采集的固定机架的结构示意图;附图标记说明:1、固定杆;2、摇杆;3、滚杆;4、凹槽物块;5、滑块。
具体实施方式
[0012]下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
实施例一
[0013]图1所示为该言语诊断系统的使用流程示意图,用户首先通过账号登录系统后,正确调整坐姿,手持超声探头,调节相机机架,并自行或在指导下读出系统页面上所示文本,所采集到的数据会在交互式系统前端进行展示,用户根据系统页面所展示数据进行检查是否语音有明显噪声或缺少,唇部图像是否有大量位置偏差,所录制超声舌图像是否清晰连续。若有明显误差,对该条文本重新开始录制,若无明显误差,点击进行评估,所采集数据会输入到后端模型中,后端模型进行处理后,所得评级结果反馈在页面上,且已经进行评估的
条数被记录,用户根据已评估条数,自行决定是否要继续,是则切换至下一条语句,用户再次调整坐姿和设备进行评估,否则导出评定报告,且退出系统。
[0014]图2为本专利技术所用算法的内部原理及构建流程,用户阅读文本,分别用超声探头,上位机所带麦克风,相机采集到用户的超声舌图像,语音和唇部图像之后。由于所采集到的超声舌模型以及唇部边缘所含有关言语发音的有关的信息较少,将图像边缘剪裁,将特征提取集中到大信息两部分。同时,由于数据传输有一定延迟,上位机将所采集到的成绩按时间进行对齐。系统接受到用户的语音,唇图像,超声舌模型数据之后,分别提取其特征,对语音信号的特征提取为采用Goodness of pronunciation 方法提取信号的GOP特征,GOP特征待测信号与标准信号的似然比(即相似程度,同时蕴含着上下文相关信息,具体过程用KALDI(语音识别工具)中的GOP工具包实现。对唇部图像以及超声舌模型的信号提取采用Block WHT

PCA提取。将所提取到的不同的特征进一步进行提取得到相同长度的特征向量,之后唇部图像以及超声舌图像所得的特征与对应权重相乘后与语音特征经特征提取后所得特征做加和处理(权重根据训练数据中权重

评级结果误差进行优化)得到言语特征,之后结合最初输入的原始文本,提取原始文本的音素的One

hot Encoding得到原始文本的特征,将言语特征和原始文本特征作为输入transformer网络中,加以不同的标签头层输出言语的总得分,准确度得分,流利度得分以及完成度得分。采用同步对齐后所得数据进行标注后构建数据集进行模型训练。
[0015]本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.多模态言语评估系统,其特征在于,包括语音信号提取模块、唇部图像捕捉模块、超声舌图像采集模块和上位机电脑;所述语音信号提取模块为上位机电脑自带麦克风,用于对语音信号进行提取;所述唇部图像捕捉模块为佩戴固定机架的摄像头,用于对患者说话时的唇部图像进行捕捉采集;所述超声舌图像采集模块为超声探头,用于对患者说话时的舌图像进行采集;所述上位机电脑用于接收语音信号提取模块、唇部图像捕捉模块以及超声舌图像采集模块传输的语音信号、唇部图像信号以及超声舌图像信号,并将其按时间同步;上位机电脑将唇图像和舌图像进行切割,以减少提取特征中的噪音干扰;对于言语信号,使用KALDI中的GOP特征提取工具,提取语音的GOP特征;上位机电脑对于超声舌图像和唇部图像,运用Block WHT

PCA方法提取其特征;上位机电脑对于原始的文本数据,分割为具体的标准音素,对具体音素提取特征同样进行输入;上位机电脑将上述提取到的不包括原始文本所得的言语特征,进行处理后进行加和...

【专利技术属性】
技术研发人员:郭向阳魏建国何宇清王芳金成曦孔信柯张钲基
申请(专利权)人:天津大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1