一种基于帧预测网络的动态舌颤检测方法技术

技术编号：24411433 阅读：33 留言：0更新日期：2020-06-06 09:23

一种基于帧预测网络的动态舌颤检测方法，涉及计算机视觉，模式识别与医学工程领域。本发明专利技术针对动态视频这类具有强时空相关性数据的处理问题提出了一种新的P‑net网络，该网络不仅考虑了多种尺度的特征，又加入了ConvGRU模块进行时间上的建模，实现了时空信息的融合处理。为了准确提高舌颤的判断性能与网络的泛化能力，本发明专利技术在网络输入之前执行光流提取操作，进一步获取帧之间的颤动信息。本发明专利技术采取预测思路，使用生成对抗模型对网络进行联合判别训练，同时在计算颤动分数时使用了一种时空滑窗操作，最终实现了高精度的基于P‑net网络的动态舌颤检测算法。

A method of dynamic tongue tremor detection based on frame prediction network

全部详细技术资料下载

【技术实现步骤摘要】
一种基于帧预测网络的动态舌颤检测方法
本专利技术属于计算机视觉，模式识别与医学工程领域，涉及一种基于帧预测网络的动态舌颤检测方法。
技术介绍
随着人民生活水平的提高与技术的发展，大数据分析与人工智能受到了广泛关注，而医学与人工智能相结合是一项具有重要意义的方向。医学可以为人们提供有力的帮助，而人工智能也可以为医学数据提供分析任务。两者相互交融非常具有前景，诸多企业与机构在这一方向进行了多项投入。在这其中，机器学习是将人工智能变为现实的重要方法，运用机器学习的算法，将收集到的数据加以分析与整理，并建立对应的模型，从而实现自动的分析过程。如果我们可以构建一些能够辅助医生进行病情诊断的系统，那么在极大方便医生诊断的同时，也可以一定程度上避免疾病的漏检情况的发生。舌诊是中医四诊的主要内容之一，其中舌颤是指伸舌时舌体颤动不定，不能控制的称舌颤。“舌战动者，病在脾”，通过观察舌头颤动的异样程度，我们可以从中得到一些有用的信息，为医生提供更多的数据参考。然而在这一领域也面临着很多困难，舌颤属于一种动态信息，如何对这种动态特征更优的建立模型是一个亟待解决的问题。为此，我们设计了本智能舌颤检测方法，意图帮助患者与医生，为更快更好的为病人确诊提供有力的客观数据。
技术实现思路
目前此领域的相关工作还显得十分空白，为此本专利技术提出了一个高精度的基于帧预测网络(P-net)的动态舌颤检测算法。在U-net网络中加入Context与ConvGRU结构，这种结构不仅可以加强网络对输入数据的多尺度建模的特点，同时通过...

【技术保护点】
1.基于P-net的动态舌颤检测算法，其特征在于：/n(1)基于舌头颤动信息的光流提取预处理/n将原始采集到的舌头动态数据逐个提取为单独的图片后，将相邻的每两幅图片输入到在大规模数据集上预训练好的光流网络中提取光流信息；/n(2)设计P-net网络/n具体提出的网络搭建结构如下：/nP-net由三个部分组成：编码阶段，多尺度特征与时间信息融合阶段，解码阶段；编码阶段的特征在于通过三个“2层卷积层，1层下采样层”的结构设计完成对输入舌头动态信息的初步编码；多尺度特征与时间信息融合阶段的特征在于通过联合设计的“Context模块与ConvGRU模块”，能够将上一阶段提取到的特征进行时空融合，为下一阶段提供更佳的特征表达；解码阶段的特征在于通过三个“2层卷积层，1层上采样层”的结构设计实现对底层特征的恢复，从而为检测舌颤状态做准备；/n其中Context模块由四条支路组成，三条支路由3个卷积层组成，一条支路由2个卷积层组成；前后两个卷积层的作用是升维与降维，中间的卷积层通过采用不同的atrous rate设计，达到多尺度特征提取的目的；ConvGRU模块由两个convgru-cell组成，通...

【技术特征摘要】
1.基于P-net的动态舌颤检测算法，其特征在于：
(1)基于舌头颤动信息的光流提取预处理
将原始采集到的舌头动态数据逐个提取为单独的图片后，将相邻的每两幅图片输入到在大规模数据集上预训练好的光流网络中提取光流信息；
(2)设计P-net网络
具体提出的网络搭建结构如下：
P-net由三个部分组成：编码阶段，多尺度特征与时间信息融合阶段，解码阶段；编码阶段的特征在于通过三个“2层卷积层，1层下采样层”的结构设计完成对输入舌头动态信息的初步编码；多尺度特征与时间信息融合阶段的特征在于通过联合设计的“Context模块与ConvGRU模块”，能够将上一阶段提取到的特征进行时空融合，为下一阶段提供更佳的特征表达；解码阶段的特征在于通过三个“2层卷积层，1层上采样层”的结构设计实现对底层特征的恢复，从而为检测舌颤状态做准备；
其中Context模块由四条支路组成，三条支路由3个卷积层组成，一条支路由2个卷积层组成；前后两个卷积层的作用是升维与降维，中间的卷积层通过采用不同的atrousrate设计，达到多尺度特征提取的目的；ConvGRU模块由两个convgru-cell组成，通过输入连续T个特征图，并更新h1，h2两个状态信息实现对输入的舌头动态信息提取时间特征，提取的特征是其最后一个输出；
(3)使用P-net网络实现舌头运动状态的预测，并对舌颤进行检测训练时的特征：
输入到P-net的形式是连续的T个光流图，并且对每一个光流图单独进行编码，最终预测得到第T+1个光流图；以实际的第T+1个光流图作为groundtruth，将groundtruth与预测得到的图片输入到多种损失函数中进行网络的优化，并使用了生成对抗网络模型，将预测的图像与对应的groundtruth同时输入到判别器中进行联合判别，使得判别模型无法辨别输入的是预测的图像还是原始的groundtruth，从而进一步优化预测过程，提高检测结果；
预测时的特征：
测试集同样提取光流，并取连续的T帧分别输入到已经训练好的网络中，最终得到每一帧的预测图片；
检测舌颤时的特征：
将预测图片与原始图片输入到设计的ST-Pscore评分框架中，此评价方法联合了时间与空间上的滑窗操作，进一步融合时空内容，得到最终的颤动分数，通过比较颤动分数与所设阈值之间的关系来判定该输入的动态数据中的舌头是否属于颤动状态，如果大于等于阈值就视为属于颤动状态，阈值取0.432。

2.根据权利要求1所述的方法，其特征在于，P-net网络的各层具体参数如下：
①C1、C2两卷积层：输入尺寸为256×256，输入通道数为3，卷积核为3×3，步长为1,边缘填充方式为‘valid’,激活函LeaklyRelu,输出尺寸为256×256，输出通道数为64；
②P1下采样层：输入尺寸为256×256，输入通道数为64，池化核为2×2，步长为1，边缘填充方式为‘same’，输出尺寸为128×128；
③C3、C4两卷积层：输入尺寸为128×128，输入通道数为64，卷积核为3×3，步长为1,边缘填充方式为‘valid’,激活函数为LeaklyRelu,输出尺寸为128×128，输出通道数为128；
④P2下采样层：输入尺寸为128×128，输入通道数为128，池化核为2×2，步长为1，边缘填充方式为‘same’，输出尺寸为64×64，
⑤C5、C6两卷积层：输入尺寸为64×64，输入通道数为128，卷积核为3×3，步长为1,边缘填充方式为‘valid’,激活函数为LeaklyRelu,输出尺寸为64×64，输出通道数为256；
⑥P3下采样层：输入尺寸为64×64，输入通道数为256，池化核为2×2，步长为1，边缘填充方式为‘same’，输出尺寸为32×32；
⑦CT1Context层：输入尺寸为32×32,输入通道数为25...

【专利技术属性】
技术研发人员：蔡轶珩，刘嘉琦，郭雅君，胡绍斌，张新峰，
申请(专利权)人：北京工业大学，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人