System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种音视耳机唇语视频帧校正方法及装置制造方法及图纸_技高网

一种音视耳机唇语视频帧校正方法及装置制造方法及图纸

技术编号:42489065 阅读:10 留言:0更新日期:2024-08-21 13:06
本发明专利技术公开了一种音视耳机唇语视频帧校正方法及装置,该方法包括:获取音视耳机的唇语采集摄像头的优化内参矩阵和优化外参矩阵;使用唇语采集摄像头采集唇语视频;利用优化内参矩阵和优化外参矩阵,对唇语视频中的每个唇语视频帧进行处理,得到去畸变唇语视频帧;提取每个去畸变唇语视频帧的关键特征点集合;利用关键特征点集合对齐去畸变唇语视频帧,得到矫正唇语视频帧。本发明专利技术方法能够有效提高视听耳机唇语识别的精度,且算法简单,硬件要求低,能够在计算性能受限的芯片上快速部署。

【技术实现步骤摘要】

本专利技术属于唇语识别,具体为一种音视耳机唇语视频帧校正方法及装置


技术介绍

1、传统的语音识别技术是通过分析声音信号来识别说话人的语言内容,它依赖于声音的质量和清晰度,对于噪声干扰、语速变化、口音差异等因素非常敏感,容易导致识别错误或失败。唇语识别技术是通过分析说话人的口型运动来识别说话人的语言内容,它不依赖于声音信号,对于噪声干扰、口音差异等因素具有较强的鲁棒性,可以在无声或者嘈杂的环境中实现语言交互。唇语识别技术可以为聋哑人、隐私通信等领域提供一种新的解决方案,具有重要的实际意义和应用价值。

2、当前唇语识别技术应用,主要采用室内固定摄像头获取唇部图像,随着穿戴式技术的不断发展,集唇语识别功能的音视耳机被研究出,这种耳机在咪头处安装了摄像头,可用于捕捉人包括唇部区域的面部图像。音视耳机具有更强的场景灵活性,对解决消防救援、伐木作业等强噪声环境下语音通信问题,提出了一种可行技术方案。

3、相比于通过远距离固定摄像头获取人的面部或者唇部运动信息,音视耳机由于摄像头离面部距离近,所以必须采用鱼眼相机扩大视场角以捕获整个嘴唇区域,因此带来了较为严重的图像畸变问题,从而导致运动信息畸变,影响了算法识别准确率。

4、另外,唇语识别关键是分辨出唇部随语言发声的运动规律,而人通常会有姿态动作,这种人体姿态运动与唇部运动会叠加在一起,进一步影响唇语识别精度。对于室内固定安装摄像头的方法,由于可以持续不间断的获取电源,芯片算力较强,通常部署脸部追踪算法抵抗人体姿态运动带来的唇图位置移动。但音视耳机因为功耗、芯片算力等限制,将大部分算力赋予了唇部识别算法,从而更倾向于轻量化算法实现唇部图像位置的纠正。


技术实现思路

1、本专利技术所要解决的技术问题在于,提供一种音视耳机唇语视频帧校正方法及装置,能够有效提高音视耳机唇语的识别精度,且算法简单,硬件要求低,能够在计算性能受限的芯片上快速部署。

2、为了解决上述技术问题,本专利技术实施例第一方面公开了一种音视耳机唇语视频帧校正方法,所述方法包括:

3、s1,获取音视耳机的唇语采集摄像头的优化内参矩阵和优化外参矩阵;

4、s2,使用所述唇语采集摄像头采集唇语视频;

5、s3,利用所述优化内参矩阵和所述优化外参矩阵,对所述唇语视频中的每个唇语视频帧进行处理,得到去畸变唇语视频帧;

6、s4,提取每个所述去畸变唇语视频帧的关键特征点集合;

7、s5,利用所述关键特征点集合对齐所述去畸变唇语视频帧,得到矫正唇语视频帧。

8、作为一种可选的实施方式,本专利技术实施例第一方面中,所述获取音视耳机的唇语采集摄像头的优化内参矩阵和优化外参矩阵,包括:

9、s11,利用所述唇语采集摄像头拍摄定制棋盘格,得到n个标定图像;

10、s12,检测每个所述标定图像中所有角点的像素坐标(xp,yp)和世界坐标(xw,yw);

11、s13,利用所述像素坐标(xp,yp)和所述世界坐标(xw,yw),计算每个所述标定图像的特征矩阵;

12、s14,利用所述特征矩阵计算内参矩阵和外参矩阵;

13、s15,对所述内参矩阵和所述外参矩阵进行优化,得到优化内参矩阵和优化外参矩阵。

14、作为一种可选的实施方式,本专利技术实施例第一方面中,所述利用所述优化内参矩阵和所述优化外参矩阵,对所述唇语视频中的每个唇语视频帧进行处理,得到去畸变唇语视频帧,包括:

15、s31,预设缩放因子s;

16、s32,创建尺寸与所述唇语视频帧相同的映射唇语视频帧;所述映射唇语视频帧的所有像素均为黑色;

17、s33,利用去畸变映射模型,对所述缩放因子s、所述优化内参矩阵m、所述优化外参矩阵r和所述唇语视频帧中每个像素的原始坐标(x,y)进行处理,得到每个像素的去畸变映射坐标(u,v);

18、所述去畸变映射模型为:

19、

20、式中,a0、a1、a2和a3均为预设的常数,且a0和a2均不为0;

21、s34,依次将所述映射唇语视频帧中,每个所述去畸变映射坐标(u,v)处的像素颜色,设置为所述唇语视频帧中与所述去畸变映射坐标(u,v)对应的所述原始坐标(x,y)处的所述像素颜色,得到初始去畸变唇语视频帧;

22、s35,裁剪所述初始去畸变唇语视频帧四周的黑边,得到所述去畸变唇语视频帧。

23、作为一种可选的实施方式,本专利技术实施例第一方面中,所述提取每个所述去畸变唇语视频帧的关键特征点集合,包括:

24、s41,提取每个所述去畸变唇语视频帧的特征点集合;

25、s42,对每个所述去畸变唇语视频帧进行预处理,得到预处理去畸变唇语视频帧;

26、s43,对所述预处理去畸变唇语视频帧进行边缘检测,得到原始轮廓线组和原始轮廓线组中每条轮廓线的轮廓长度;

27、s44,删除所述原始轮廓线组中,所述轮廓长度小于或等于轮廓线阈值的所述轮廓线,得到基础轮廓线组。

28、s45,利用所述基础轮廓线组对所述特征点集合进行筛选,得到每个所述去畸变唇语视频帧的所述关键特征点集合。

29、作为一种可选的实施方式,本专利技术实施例第一方面中,所述对每个所述去畸变唇语视频帧进行预处理,得到预处理去畸变唇语视频帧,包括:

30、s421,预设灰度阈值;

31、s422,将所述去畸变唇语视频帧转换为灰度图像,得到灰度去畸变唇语视频帧;

32、s423,利用灰度阈值判断并修改所述灰度去畸变唇语视频帧中的每个像素值,得到预处理去畸变唇语视频帧;

33、当所述像素值小于等于灰度阈值时,将像素值修改为0;当所述像素值大于等于所述灰度阈值时,将像素值修改为1。

34、作为一种可选的实施方式,本专利技术实施例第一方面中,所述利用所述基础轮廓线组对所述特征点集合进行筛选,得到每个所述去畸变唇语视频帧的所述关键特征点集合,包括:

35、s431,预设第一左侧水平阈值和第一右侧水平阈值;

36、s432,获取所述基础轮廓线组的所有所述轮廓线中每个像素的水平坐标,得到轮廓水平坐标集合;

37、s433,获取所述轮廓水平坐标集合中,小于所述第一左侧水平阈值,且最接近所述第一左侧水平阈值的水平坐标,得到第二左侧水平阈值;

38、s434,获取所述轮廓水平坐标集合中,大于所述第一右侧水平阈值,且最接近所述第一右侧水平阈值的水平坐标,得到第二右侧水平阈值;

39、s435,删除每个所述特征点集合中,所述水平坐标小于所述第二左侧水平阈值,或大于所述第二右侧水平阈值的所述特征点,得到每个所述去畸变唇语视频帧的所述关键特征点集合。

40、作为一种可选的实施方式,本专利技术实施例第一方面中,所述利用所述关键特征点集合对齐所述去畸变唇语视频帧,得本文档来自技高网...

【技术保护点】

1.一种音视耳机唇语视频帧校正方法,其特征在于,所述方法包括:

2.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述获取音视耳机的唇语采集摄像头的优化内参矩阵和优化外参矩阵,包括:

3.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述利用所述优化内参矩阵和所述优化外参矩阵,对所述唇语视频中的每个唇语视频帧进行处理,得到去畸变唇语视频帧,包括:

4.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述提取每个所述去畸变唇语视频帧的关键特征点集合,包括:

5.根据权利要求4所述的音视耳机唇语视频帧校正方法,其特征在于,所述对每个所述去畸变唇语视频帧进行预处理,得到预处理去畸变唇语视频帧,包括:

6.根据权利要求4所述的音视耳机唇语视频帧校正方法,其特征在于,所述利用所述基础轮廓线组对所述特征点集合进行筛选,得到每个所述去畸变唇语视频帧的所述关键特征点集合,包括:

7.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述利用所述关键特征点集合对齐所述去畸变唇语视频帧,得到矫正唇语视频帧,包括:

8.一种音视耳机唇语视频帧校正装置,其特征在于,所述装置包括优化参数计算模块、唇语视频采集模块、唇语视频帧去畸变模块、关键特征点提取模块和视频帧对齐模块;

9.一种音视耳机唇语视频帧校正装置,其特征在于,所述装置包括:

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质存储有计算机指令,所述计算机指令被调用时,用于执行如权利要求1-7任一项所述的音视耳机唇语视频帧校正方法。

...

【技术特征摘要】

1.一种音视耳机唇语视频帧校正方法,其特征在于,所述方法包括:

2.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述获取音视耳机的唇语采集摄像头的优化内参矩阵和优化外参矩阵,包括:

3.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述利用所述优化内参矩阵和所述优化外参矩阵,对所述唇语视频中的每个唇语视频帧进行处理,得到去畸变唇语视频帧,包括:

4.根据权利要求1所述的音视耳机唇语视频帧校正方法,其特征在于,所述提取每个所述去畸变唇语视频帧的关键特征点集合,包括:

5.根据权利要求4所述的音视耳机唇语视频帧校正方法,其特征在于,所述对每个所述去畸变唇语视频帧进行预处理,得到预处理去畸变唇语视频帧,包括:

6.根据权利要求4所述的音...

【专利技术属性】
技术研发人员:印二威郑昌艳林久权张亚坤张星昱赵少楷罗治国张敬闫野
申请(专利权)人:中国人民解放军军事科学院国防科技创新研究院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1