一种列车驾驶员动作指令识别方法技术

技术编号:36985298 阅读:22 留言:0更新日期:2023-03-25 18:03
本发明专利技术属于公共交通安全保障技术领域,涉及一种列车驾驶员动作指令识别方法;包括:1)、驾驶员动作识别网络结构模型的训练,2)、将采集的图像输入驾驶员动作识别网络结构模型,获得人体各个关键点的热力图、人体目标数量的热力图、人体各个关键点对应的坐标值,3)、处理人体目标数量的热力图得到响应最大的值作为目标的中心位置,4)、修正人体各个关键点的热力图,获得人体姿态特征,5)、动作识别线性分类器进行种类识别;所述方法能够实时检测驾驶员的操作行为,精准的分析驾驶员的动作,有助于及时发现驾驶员不规范的操作行为,进而保障公共交通安全,保护乘客生命健康。保护乘客生命健康。保护乘客生命健康。

【技术实现步骤摘要】
一种列车驾驶员动作指令识别方法


[0001]本专利技术属于公共交通安全保障
涉及一种通过监控列车驾驶员的驾驶、指引动作等方面,对出现的危险驾驶行为进行及时识别的方法;特别是一种列车驾驶员动作指令识别方法,及时发现列车运行中驾驶员的不规范行为,有助于及时进行纠正,防止交通事故的发生。

技术介绍

[0002]为了地铁列车行驶安全,地铁列车驾驶员在工作时,需要执行一些指令并做出相应动作。而目前,需要人工查看分析列车驾驶员动作与口令执行规范性,耗时长、效率低,占用人力资源较多。而且列车驾驶员出现疲劳驾驶或者瞌睡,难以被及时发现。
[0003]在现有技术中,公开号为CN115359462A的中国专利,公开了一种公交驾驶员疲劳参数补偿以及双轨并行检测方法,包括:S1、对驾驶员的眨眼、打哈欠的图像数据制定标签;S2、利用人脸关键点算法计算出公交驾驶员在正脸状态下闭眼、张嘴的帧数,并与当前数据预处理方法进行比较,根据比值进行补偿;
[0004]S3、疲劳状态时间序列双轨划分;图像帧按时间序列检测完毕后输出各项区域检测结果,结合车速车况按完整时间片段结果划分至双轨时间序列;S4、设定疲劳状态时间序列双轨预警机制;可分析数据包括眨眼帧数、眨眼频率、张嘴帧数、打哈欠次数;定义PERCLOSE计算单位内闭眼帧数与总帧数的比例关系,能反映出眼睛闭合持续时间占检测时间的比值以及驾驶员疲劳状态。公开号为CN112686097A的中国专利,公开了一种人体图像关键点姿态估计方法,包括:对输入的训练图像预处理,用基于空洞卷积的大感受野特征金字塔网络的行人检测网络对输入图像进行检测;将检测到的人体形成的边界框进行裁剪,只保留框内图像;将裁剪后图像输入到设计的模型中,进行人体姿态关键点估计。
[0005]及时发现并纠正列车驾驶员不规范的操作行为,对保障公共交通的安全运行极为重要。因此如何快速、准确的发现列车驾驶员存在的驾驶员疲劳、驾驶动作、口令错误等问题,是保障地铁系统安全运行的重要前提,而在现有技术中,列车驾驶员疲劳驾驶的及时发现,列车驾驶员语音口令核验判定等技术依旧不够成熟,且缺少能够实际应用的可靠技术。

技术实现思路

[0006]本专利技术的目的在于克服现有技术存在的缺点,针对列车驾驶员存在的驾驶动作、列车停靠指挥动作存在不规范的问题,设计一种列车驾驶员动作指令识别方法,快速发现列车驾驶员的不规范行为,保障乘客生命安全。
[0007]为了实现上述目的,本专利技术涉及的一种列车驾驶员动作指令识别方法,对驾驶员动作进行检测分析的具体步骤为:
[0008]1)、驾驶员动作识别网络结构模型的训练:驾驶员动作识别网络结构模型输入的图像数据为进行人工标注的17个关键点的数据,经过驾驶员动作识别网络结构模型一层层的计算得到预测值,最后通过损失函数计算预测值和真实值之间的差距,指导、调整下一次
驾驶员动作识别网络结构模型的训练,一次次训练学习驾驶员动作识别网络结构模型的参数,直到驾驶员动作识别网络结构模型收敛,即得到的差距值小且稳定;从而保证驾驶员动作识别网络结构模型输出结果的准确度;
[0009]2)、采集图像的模型处理:将采集的图像输入驾驶员动作识别网络结构模型,通过模型第四部分网络结构得到人体各个关键点的热力图;通过模型第五部分网络结构得到人体目标数量的热力图;通过模型第六部分网络结构得到人体各个关键点对应的坐标值;
[0010]3)、处理人体目标数量的热力图:通过argmax()处理模型第五部分中得到的人体目标数量的热力图中出现多个高亮的高斯核的值,得到响应最大的值作为目标的中心位置[cx,cy];
[0011]4)、获得人体姿态特征:模型第四部分中得到的人体各个关键点的热力图的值作为检测目标的各个关键点;模型第四部分中得到的人体各个关键点的热力图相对整个模型输入图像的尺寸而言,缩减为输入图像的1/4,利用模型第六部分中得到的结果来修正模型第四部分得到的结果,消除预测的人体关键点和实际关键点之间的偏移,最终获得人体姿态特征;
[0012]5)、动作识别线性分类器进行种类识别:采用一个动作识别线性分类器对驾驶员动作识别网络结构模型得到的人体姿态特征进行分类;具体的:
[0013]将上述模型第四部分的最终输出人体姿态特征作为语义特征,特征长度的大小设置为17*48*48=39168,语义特征经过两个全连接层的操作;两个全连接层为:全连接层1(fc1)的输入特征长度为39168,全连接层1(fc1)的输出特征长度为4028,全连接层2(fc2)的输入特征长度为4028,全连接层2(fc2)的输出特征长度为1024;操作后的语义特征输入线性分类器,线性分类器的输入特征长度为1024,线性分类器输出为动作的识别种类N;识别种类N有:正常、打电话、手指口呼动作、动作异常。
[0014]本专利技术所述通过损失函数计算预测值和真实值之间差距的方式为:对驾驶员动作识别网络结构模型第四部分、第五部分得到的人体各个关键点的热力图和人体目标数量的热力图,分别采用加权均方误差MSE损失函数进行核验;对驾驶员动作识别网络结构模型第六部分得到的人体各个关键点的坐标采用L1loss作为损失函数进行核验;
[0015][0016]其中,y
i
表示实际值,y
i
'表示模型预测的结果;
[0017]上述损失函数作用是用来计算驾驶员动作识别网络结构模型最终得到的预测值与真实值之间的差距;差距越小说明驾驶员动作识别网络结构模型得到的预测值越好。
[0018]本专利技术所述驾驶员动作识别网络结构,具体如下:
[0019]驾驶员动作识别网络结构要求输入图像的尺寸为[1,3,192,192],其中1代表输入网络结构的图片数量,默认为1;3为输入图像的通道数,一般为3个通道的彩色图像;[192,192]代表图像的输入图像的高度和宽度;
[0020]所述驾驶员动作识别网络结构包括六部分网络层,每部分的网络结构设计目的都是为了得到图像的特征,具体为:
[0021]第一部分为:第一部分有三个单元;
[0022](1)第一部分第一单元的网络结构为:卷积层conv:输入通道3,输出通道64,滤波
核k为3x3,步长s为2,padding为1;归一化层norm:FrozenBatchNorm2d,激活层relu:ReLU;第一部分第一单元的图像输出尺寸为[1,64,96,96],其中1是指输入图像的数量,1代表一张图像;64代表改成网络输出的特征图数量;[96,96]表示该层网络输出的每张特征图的尺寸都是96*96;96是根据[(192

3+2*1)/2]+1结果向下取整得到;计算每张特征图的尺寸通用的公式是:
[0023][(W

k+2p)/s]+1,
[0024]其中值W指该层网络的输入,k指该层网络的滤波核尺寸,s指步长,p指padding;同理,之后的每一层网络结构得到的结果都适用这个本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种列车驾驶员动作指令识别方法,其特征在于:对驾驶员动作进行检测分析的具体步骤为:1)、驾驶员动作识别网络结构模型的训练:驾驶员动作识别网络结构模型输入的图像数据为进行人工标注的17个关键点的数据,经过驾驶员动作识别网络结构模型一层层的计算得到预测值,最后通过损失函数计算预测值和真实值之间的差距,指导、调整下一次驾驶员动作识别网络结构模型的训练,一次次训练学习驾驶员动作识别网络结构模型的参数,直到驾驶员动作识别网络结构模型收敛,即得到的差距值小且稳定;从而保证驾驶员动作识别网络结构模型输出结果的准确度;2)、采集图像的模型处理:将采集的图像输入驾驶员动作识别网络结构模型,通过模型第四部分网络结构得到人体各个关键点的热力图;通过模型第五部分网络结构得到人体目标数量的热力图;通过模型第六部分网络结构得到人体各个关键点对应的坐标值;3)、处理人体目标数量的热力图:通过argmax()处理模型第五部分中得到的人体目标数量的热力图中出现多个高亮的高斯核的值,得到响应最大的值作为目标的中心位置[cx,cy];4)、获得人体姿态特征:模型第四部分中得到的人体各个关键点的热力图的值作为检测目标的各个关键点;模型第四部分中得到的人体各个关键点的热力图相对整个模型输入图像的尺寸而言,缩减为输入图像的1/4,利用模型第六部分中得到的结果来修正模型第四部分得到的结果,消除预测的人体关键点和实际关键点之间的偏移,最终获得人体姿态特征;5)、动作识别线性分类器进行种类识别:采用一个动作识别线性分类器对驾驶员动作识别网络结构模型得到的人体姿态特征进行分类;具体的:将上述模型第四部分的最终输出人体姿态特征作为语义特征,特征长度的大小设置为17*48*48=39168,语义特征经过两个全连接层的操作;两个全连接层为:全连接层1(fc1)的输入特征长度为39168,全连接层1(fc1)的输出特征长度为4028,全连接层2(fc2)的输入特征长度为4028,全连接层2(fc2)的输出特征长度为1024;操作后的语义特征输入线性分类器,线性分类器的输入特征长度为1024,线性分类器输出为动作的识别种类N;识别种类N有:正常、打电话、手指口呼动作、动作异常。2.根据权利要求1所述的列车驾驶员动作指令识别方法,其特征在于:所述通过损失函数计算预测值和真实值之间差距的方式为:对驾驶员动作识别网络结构模型第四部分、第五部分得到的人体各个关键点的热力图和人体目标数量的热力图,分别采用加权均方误差MSE损失函数进行核验;对驾驶员动作识别网络结构模型第六部分得到的人体各个关键点的坐标采用L1loss作为损失函数进行核验;其中,y
i
表示实际值,y
i
'表示模型预测的结果;上述损失函数作用是用来计算驾驶员动作识别网络结构模型最终得到的预测值与真实值之间的差距;差距越小说明驾驶员动作识别网络结构模型得到的预测值越好。3.根据权利要求2所述的列车驾驶员动作指令识别方法,其特征在于:所述驾驶员动作识别网络结构输入图像的尺寸为[1,3,192,192],其中1代表输入网络结构的图片数量,默
认为1;3为输入图像的通道数,一般为3个通道的彩色图像;[192,192]代表图像的输入图像的高度和宽度。4.根据权利要求3所述的列车驾驶员动作指令识别方法,其特征在于:所述驾驶员动作识别网络结构包括六部分网络层,每部分的网络结构设计目的都是为了得到图像的特征,具体为:第一部分为:第一部分有三个单元;(1)第一部分第一单元的网络结构为:卷积层conv:输入通道3,输出通道64,滤波核k为3x3,步长s为2,padding为1;归一化层norm:FrozenBatchNorm2d,激活层relu:ReLU;第一部分第一单元的图像输出尺寸为[1,64,96,96],其中1是指输入图像的数量,1代表一张图像;64代表改成网络输出的特征图数量;[96,96]表示该层网络输出的每张特征图的尺寸都是96*96;96是根据[(192

3+2*1)/2]+1结果向下取整得到;计算每张特征图的尺寸通用的公式是:[(W

k+2p)/s]+1,其中值W指该层网络的输入,k指该层网络的滤波核尺寸,s指步长,p指padding;同理,之后的每一层网络结构得到的结果都适用这个公式;(2)第一部分第二单元的网络结构为:卷积层conv:输入通道64,输出通道64,滤波核k为3x3,步长s为1,padding为1;归一化norm:FrozenBatchNorm2d;激活层relu:ReLU;第一部分第二单元的图像输出尺寸为[1,64,96,96];(3)第一部分第三单元的网络结构为:卷积层conv:输入通道64,输出通道128,滤波核k为3x3,步长s为2,padding为1;归一化层norm:FrozenBatchNorm2d;激活层relu:ReLU;第一部分第三单元的图像输出尺寸为[1,128,48,48];第二部分为:第二部分由两个分支部构成;(1)第二部分第一分支部由两个单元构成:第二部分第一分支部第一单元包括三个子单元;每个子单元为:卷积层conv:输入通道128,输出通道128,滤波核K为3x3,步长为s为1,padding为1,归一化层norm:FrozenBatchNorm2d;激活层:Re...

【专利技术属性】
技术研发人员:纪刚周粉粉臧强
申请(专利权)人:青岛联合创智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1