一种基于帧预测网络的动态舌颤检测方法技术

技术编号:24411433 阅读:30 留言:0更新日期:2020-06-06 09:23
一种基于帧预测网络的动态舌颤检测方法,涉及计算机视觉,模式识别与医学工程领域。本发明专利技术针对动态视频这类具有强时空相关性数据的处理问题提出了一种新的P‑net网络,该网络不仅考虑了多种尺度的特征,又加入了ConvGRU模块进行时间上的建模,实现了时空信息的融合处理。为了准确提高舌颤的判断性能与网络的泛化能力,本发明专利技术在网络输入之前执行光流提取操作,进一步获取帧之间的颤动信息。本发明专利技术采取预测思路,使用生成对抗模型对网络进行联合判别训练,同时在计算颤动分数时使用了一种时空滑窗操作,最终实现了高精度的基于P‑net网络的动态舌颤检测算法。

A method of dynamic tongue tremor detection based on frame prediction network

【技术实现步骤摘要】
一种基于帧预测网络的动态舌颤检测方法
本专利技术属于计算机视觉,模式识别与医学工程领域,涉及一种基于帧预测网络的动态舌颤检测方法。
技术介绍
随着人民生活水平的提高与技术的发展,大数据分析与人工智能受到了广泛关注,而医学与人工智能相结合是一项具有重要意义的方向。医学可以为人们提供有力的帮助,而人工智能也可以为医学数据提供分析任务。两者相互交融非常具有前景,诸多企业与机构在这一方向进行了多项投入。在这其中,机器学习是将人工智能变为现实的重要方法,运用机器学习的算法,将收集到的数据加以分析与整理,并建立对应的模型,从而实现自动的分析过程。如果我们可以构建一些能够辅助医生进行病情诊断的系统,那么在极大方便医生诊断的同时,也可以一定程度上避免疾病的漏检情况的发生。舌诊是中医四诊的主要内容之一,其中舌颤是指伸舌时舌体颤动不定,不能控制的称舌颤。“舌战动者,病在脾”,通过观察舌头颤动的异样程度,我们可以从中得到一些有用的信息,为医生提供更多的数据参考。然而在这一领域也面临着很多困难,舌颤属于一种动态信息,如何对这种动态特征更优的建立模型是一个亟待解决的问题。为此,我们设计了本智能舌颤检测方法,意图帮助患者与医生,为更快更好的为病人确诊提供有力的客观数据。
技术实现思路
目前此领域的相关工作还显得十分空白,为此本专利技术提出了一个高精度的基于帧预测网络(P-net)的动态舌颤检测算法。在U-net网络中加入Context与ConvGRU结构,这种结构不仅可以加强网络对输入数据的多尺度建模的特点,同时通过ConvGRU模块又能对输入数据进行时间上的建模。本专利技术提出的P-net网络对视频这类具有强时空特点的数据具有很好的建模作用,可以较为优秀的分辨出舌头颤动与否。本专利技术提供一种高精度基于P-net网络的动态舌颤检测算法,总体思路是对正常的动态舌头预处理后,输入到设计的网络中进行训练,期望建立一个能够较好地预测正常舌头下一帧状态的模型;在测试时,由于舌颤舌头与正常舌头的运动差异,训练好的模型无法正确预测到舌颤舌头的状态,因此通过我们设计的ST-Pscore评分机制,当出现颤动舌头时,会自动地检测出来。方法主要包括以下特征:(1)基于舌头颤动信息的光流提取预处理将原始采集到的舌头动态数据逐个提取为单独的图片后,将相邻的每两幅图片输入到在大规模数据集上预训练好的光流网络中提取光流信息,从而减少静态信息的干扰,更好地获得舌头的颤动信息。(2)新设计的P-net网络具体提出的网络搭建结构如下:P-net由三个部分组成:编码阶段,多尺度特征与时间信息融合阶段,解码阶段。编码阶段的特征在于通过三个“2层卷积层,1层下采样层”的结构设计完成对输入舌头动态信息的初步编码;多尺度特征与时间信息融合阶段的特征在于通过联合设计的“Context模块与ConvGRU模块”,能够将上一阶段提取到的特征进行时空融合,为下一阶段提供更佳的特征表达;解码阶段的特征在于通过三个“2层卷积层,1层上采样层”的结构设计实现对底层特征的恢复,从而为检测舌颤状态做准备。综上所述,我们设计的P-net是一个能够对多尺度特征与时间特征进行编码并将两者进行融合的网络结构。其中Context模块由四条支路组成,三条支路由3个卷积层组成,一条支路由2个卷积层组成;前后两个卷积层的作用是升维与降维,中间的卷积层通过采用不同的atrousrate设计,达到多尺度特征提取的目的;ConvGRU模块由两个convgru-cell组成,通过输入连续T个特征图,并更新h1,h2两个状态信息实现对输入的舌头动态信息提取时间特征,提取的特征是最后一个输出。(3)使用P-net网络实现舌头运动状态的预测,并对舌颤进行检测的过程训练时的特征:我们输入到P-net的形式是连续的T个光流图,并且对每一个光流图单独进行编码,最终预测得到第T+1个光流图;以实际的第T+1个光流图作为groundtruth,将groundtruth与预测得到的图片输入到多种损失函数中进行网络的优化,并使用了生成对抗网络模型,将预测的图像与对应的groundtruth同时输入到判别器中进行联合判别,使得判别模型无法辨别输入的是预测的图像还是原始的groundtruth,从而进一步优化预测过程,提高检测结果。预测时的特征:测试集同样提取光流,并取连续的T帧分别输入到已经训练好的网络中,最终得到每一帧的预测图片。检测舌颤时的特征:将预测图片与原始图片输入到我们设计的ST-Pscore评分框架中,此评价方法联合了时间与空间上的滑窗操作,进一步融合时空内容,得到最终的颤动分数,通过比较颤动分数与所设阈值之间的关系(这里阈值取0.432),来判定该输入的动态数据中的舌头是否属于颤动状态。有益效果1、本专利技术利用P-net网络实现了基于预测的动态舌颤检测据我们所知,这是现有的第一项将深度学习技术与动态舌颤检测相结合的专利技术。本专利技术提出利用P-net网络实现动态信息的预测,进一步实现了对舌头颤动与否的判断。2、本专利技术对输入的动态数据通过预训练网络提取光流由于舌颤的动态性质,需要分析不同帧之间的时间信息,为此我们首先通过提取光流的方法得到舌头之间的颤动信息,其亦可以提取出关键的重要的时间特征进行处理,也可以减少静态信息对结果的干扰,两方面相结合从而提高算法的准确性。3、本专利技术提出了一种P-net网络普通的U-net网络的特点在于其在上采样的过程中,每上采样一次就和特征提取部分(即下采样过程)对应的相同尺度的输出进行融合,故U-net网络在空间上对输入图像有很好的建模效果,然而其考虑的特征尺寸是单一的,并且没有加入时间信息的考量,因此对于视频这类输入数据具有强时间相关性的问题,必须通过时间模块的设定才可以获得好的效果,本专利技术提出的P-net网络,不仅添加了Context这种能够提取多尺度特征的模块,同时加入了ConvGRU层来加强对输入数据时间上特征的提取,更适合处理该类问题。4、本专利技术提出基于时空滑窗操作的颤动分数(ST-Pscore)计算方法为进一步提高准确率,本专利技术在获得每一帧对应的颤动分数后,又进行了时空滑窗操作,不仅在时间上对前后几帧进行了加权处理,同时也对每一帧上的小区域图像执行了各区域颤动分数平均值处理。两者结合可以进一步建立时空上的联系,得到更优的检测效果。附图说明:图1为本专利技术提取光流图。图2为本专利技术的P-net网络图。图3为本专利技术中的Context结构图。图4为本专利技术中的ConvGRU结构图。图5为本专利技术利用P-net实现舌颤检测的训练流程。图6为本专利技术的测试流程图。具体实施方法下面结合附图对本专利技术的具体实施方法进行详细说明。1、预处理将原始采集到的舌头动态数据逐个提取为单独的图片后,将相邻的每两幅图片输入到在大规模数据集上预训练好的光流网络中提取光流信息,具体网络本文档来自技高网...

【技术保护点】
1.基于P-net的动态舌颤检测算法,其特征在于:/n(1)基于舌头颤动信息的光流提取预处理/n将原始采集到的舌头动态数据逐个提取为单独的图片后,将相邻的每两幅图片输入到在大规模数据集上预训练好的光流网络中提取光流信息;/n(2)设计P-net网络/n具体提出的网络搭建结构如下:/nP-net由三个部分组成:编码阶段,多尺度特征与时间信息融合阶段,解码阶段;编码阶段的特征在于通过三个“2层卷积层,1层下采样层”的结构设计完成对输入舌头动态信息的初步编码;多尺度特征与时间信息融合阶段的特征在于通过联合设计的“Context模块与ConvGRU模块”,能够将上一阶段提取到的特征进行时空融合,为下一阶段提供更佳的特征表达;解码阶段的特征在于通过三个“2层卷积层,1层上采样层”的结构设计实现对底层特征的恢复,从而为检测舌颤状态做准备;/n其中Context模块由四条支路组成,三条支路由3个卷积层组成,一条支路由2个卷积层组成;前后两个卷积层的作用是升维与降维,中间的卷积层通过采用不同的atrous rate设计,达到多尺度特征提取的目的;ConvGRU模块由两个convgru-cell组成,通过输入连续T个特征图,并更新h1,h2两个状态信息实现对输入的舌头动态信息提取时间特征,提取的特征是其最后一个输出;/n(3)使用P-net网络实现舌头运动状态的预测,并对舌颤进行检测训练时的特征:/n输入到P-net的形式是连续的T个光流图,并且对每一个光流图单独进行编码,最终预测得到第T+1个光流图;以实际的第T+1个光流图作为ground truth,将ground truth与预测得到的图片输入到多种损失函数中进行网络的优化,并使用了生成对抗网络模型,将预测的图像与对应的ground truth同时输入到判别器中进行联合判别,使得判别模型无法辨别输入的是预测的图像还是原始的ground truth,从而进一步优化预测过程,提高检测结果;/n预测时的特征:/n测试集同样提取光流,并取连续的T帧分别输入到已经训练好的网络中,最终得到每一帧的预测图片;/n检测舌颤时的特征:/n将预测图片与原始图片输入到设计的ST-Pscore评分框架中,此评价方法联合了时间与空间上的滑窗操作,进一步融合时空内容,得到最终的颤动分数,通过比较颤动分数与所设阈值之间的关系来判定该输入的动态数据中的舌头是否属于颤动状态,如果大于等于阈值就视为属于颤动状态,阈值取0.432。/n...

【技术特征摘要】
1.基于P-net的动态舌颤检测算法,其特征在于:
(1)基于舌头颤动信息的光流提取预处理
将原始采集到的舌头动态数据逐个提取为单独的图片后,将相邻的每两幅图片输入到在大规模数据集上预训练好的光流网络中提取光流信息;
(2)设计P-net网络
具体提出的网络搭建结构如下:
P-net由三个部分组成:编码阶段,多尺度特征与时间信息融合阶段,解码阶段;编码阶段的特征在于通过三个“2层卷积层,1层下采样层”的结构设计完成对输入舌头动态信息的初步编码;多尺度特征与时间信息融合阶段的特征在于通过联合设计的“Context模块与ConvGRU模块”,能够将上一阶段提取到的特征进行时空融合,为下一阶段提供更佳的特征表达;解码阶段的特征在于通过三个“2层卷积层,1层上采样层”的结构设计实现对底层特征的恢复,从而为检测舌颤状态做准备;
其中Context模块由四条支路组成,三条支路由3个卷积层组成,一条支路由2个卷积层组成;前后两个卷积层的作用是升维与降维,中间的卷积层通过采用不同的atrousrate设计,达到多尺度特征提取的目的;ConvGRU模块由两个convgru-cell组成,通过输入连续T个特征图,并更新h1,h2两个状态信息实现对输入的舌头动态信息提取时间特征,提取的特征是其最后一个输出;
(3)使用P-net网络实现舌头运动状态的预测,并对舌颤进行检测训练时的特征:
输入到P-net的形式是连续的T个光流图,并且对每一个光流图单独进行编码,最终预测得到第T+1个光流图;以实际的第T+1个光流图作为groundtruth,将groundtruth与预测得到的图片输入到多种损失函数中进行网络的优化,并使用了生成对抗网络模型,将预测的图像与对应的groundtruth同时输入到判别器中进行联合判别,使得判别模型无法辨别输入的是预测的图像还是原始的groundtruth,从而进一步优化预测过程,提高检测结果;
预测时的特征:
测试集同样提取光流,并取连续的T帧分别输入到已经训练好的网络中,最终得到每一帧的预测图片;
检测舌颤时的特征:
将预测图片与原始图片输入到设计的ST-Pscore评分框架中,此评价方法联合了时间与空间上的滑窗操作,进一步融合时空内容,得到最终的颤动分数,通过比较颤动分数与所设阈值之间的关系来判定该输入的动态数据中的舌头是否属于颤动状态,如果大于等于阈值就视为属于颤动状态,阈值取0.432。


2.根据权利要求1所述的方法,其特征在于,P-net网络的各层具体参数如下:
①C1、C2两卷积层:输入尺寸为256×256,输入通道数为3,卷积核为3×3,步长为1,边缘填充方式为‘valid’,激活函LeaklyRelu,输出尺寸为256×256,输出通道数为64;
②P1下采样层:输入尺寸为256×256,输入通道数为64,池化核为2×2,步长为1,边缘填充方式为‘same’,输出尺寸为128×128;
③C3、C4两卷积层:输入尺寸为128×128,输入通道数为64,卷积核为3×3,步长为1,边缘填充方式为‘valid’,激活函数为LeaklyRelu,输出尺寸为128×128,输出通道数为128;
④P2下采样层:输入尺寸为128×128,输入通道数为128,池化核为2×2,步长为1,边缘填充方式为‘same’,输出尺寸为64×64,
⑤C5、C6两卷积层:输入尺寸为64×64,输入通道数为128,卷积核为3×3,步长为1,边缘填充方式为‘valid’,激活函数为LeaklyRelu,输出尺寸为64×64,输出通道数为256;
⑥P3下采样层:输入尺寸为64×64,输入通道数为256,池化核为2×2,步长为1,边缘填充方式为‘same’,输出尺寸为32×32;
⑦CT1Context层:输入尺寸为32×32,输入通道数为25...

【专利技术属性】
技术研发人员:蔡轶珩刘嘉琦郭雅君胡绍斌张新峰
申请(专利权)人:北京工业大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1