一种电子助视器及其适用的智能手机文本辅助阅读方法技术

技术编号:27577450 阅读:12 留言:0更新日期:2021-03-09 22:28
本发明专利技术涉及一种电子助视器及其适用的智能手机文本辅助阅读方法,未识别到手势时抓拍一帧图像并保存,得到图像中文本的检测识别结果,为第一帧图像则将文本输出至语音播放模块播放,否则以该文本与上一帧的识别文本进行相似文本识别,基于是否相似选择去重播报或要求用户重选页面;基于是否收到关闭信息进行程序的关闭或反复。本发明专利技术使得低视力人群在手机使用场景下能通过电子助视器实现文本的流畅阅读,极大改善视障用户在使用智能手机时的文本阅读体验,一定程度解决手机应用在不支持无障碍模式下的文本阅读问题,亦可在用户自行选择下对文本进行识别播报,使视障用户可以从繁忙操作中解放出来,改善文本阅读体验,提高阅读效率。效率。效率。

【技术实现步骤摘要】
一种电子助视器及其适用的智能手机文本辅助阅读方法


[0001]本专利技术涉及数字数据处理,特别涉及文件或类似物的扫描、传输或重现,例如传真传输;其零部件的
,特别涉及一种电子助视器及其适用的智能手机文本辅助阅读方法。

技术介绍

[0002]随着图像处理技术的发展和智能终端设备应用的普及,时代也迈上了万物互联的快车道,智能手机作为重要的设备入口,已经成为日常生活中不可或缺的一部分,移动支付、健康码、导航、线上购物、智能家居等都依托于智能手机这个终端设备。即使是视障用户,也有相当大的比例每天都在使用智能手机,享受时代变革带来的便利,各家设备制造厂商也兼顾盲人用户群体,相继推出无障碍模式辅助视障用户更便捷的使用主要以图形交互为主的智能手机。然而,现阶段的无障碍模式仍在一定的局限性,为视障人群使用智能手机带来障碍。
[0003]目前国内至少有1700万的视障人群,其中绝大多数都在生活中使用着智能手机,同时也面临着相当多的不方便之处。智能手机上无障碍模式的局限性主要体现在:
[0004](1)操作方式复杂,区别于正常人单指的操作,视障用户要依托于单指和双指的交替使用;
[0005](2)弹窗广告无法识别、无法引导视障用户关闭,更存在连正常用户都无法关闭广告的特殊情况存在,视障用户使用体验感差;
[0006](3)文本识别适用范围小,绝大部分的软件应用商并未针对无障碍模式进行特殊优化,无法被读屏软件识别;
[0007](4)语音播放没有顺序性,尤其对文本的完整流畅阅读存在极大障碍。<br/>[0008]申请号为202010132964.7的专利“一种盲用电脑及适配于盲用电脑的智能手机辅助控制方法”中,增加对智能手机能否使用无障碍模式读屏的判断,以手势指示位置为文本识别范围的方法;然而,使用手势来引导盲用电脑对手势位置进行文字识别并播报的方式不能解决文本阅读不连贯的问题,视障用户仍存在不能完整阅读完文本的情况。
[0009]申请号为201811129893.4的专利“一种辅助盲人阅读的文本转换方法及系统”中,提供增加了对盲人用户视线内文本进行拼接,并最后交由语音输出的过程,有助于盲人用户流畅阅读体验的改善;然而,这种方法依旧不能解决阅读逻辑性问题,盲人用户视线范围内的文本内容存在不相关性的可能,也不能确保盲人用户视线内皆为文本内容。

技术实现思路

[0010]本专利技术解决了现有技术中存在的问题,提供了一种优化的电子助视器及其适用的智能手机文本辅助阅读方法,着重针对于视障人群接触最多的文本流畅阅读方面,对于提升视障人群的使用体验和生活获得感有十分积极的意义。
[0011]为实现本专利技术目的,本专利技术所采用的技术方案为,一种适用于电子助视器的智能
手机文本辅助阅读方法,所述方法包括以下步骤:
[0012]步骤1:启动电子助视器,初始化首帧标识符;
[0013]步骤2:用训练好的视频手势识别网络检测手势,当未识别到手势时进入步骤3,否则重复步骤2;
[0014]步骤3:抓拍一帧图像并保存在本地,对图像进行预处理,用训练好的分类器对文本进行特征提取,得到文本的检测识别结果,将检测识别结果保存至文件;
[0015]步骤4:根据首帧标识符判断是否为第一帧图像的文字的识别文本,若是,则将文本输出至语音播放模块进行播放,执行步骤8,否则,以该文本为当前帧的识别文本,进行步骤5;
[0016]步骤5:将当前帧的识别文本和上一帧的识别文本进行相似文本识别,若不相似,则执行步骤6,否则执行步骤7;
[0017]步骤6:丢弃当前帧和识别后包含检测识别结果的文本,语音提示用户适当向上滑动,返回步骤2;
[0018]步骤7:去除当前帧识别文本内容中包含的相似文本内容,将最终的文件传给语音播放模块;
[0019]步骤8:若收到电子助视器的关闭信息,则程序关闭,否则语音提示当前已播放完毕并提示用户继续滑动页面,返回步骤2。
[0020]优选地,所述步骤1中,所述首帧标识符用于识别当前是否已经保存有一帧图像,若为首帧则直接识别播放,否则进行相似度判断。
[0021]优选地,所述步骤2包括以下步骤:
[0022]步骤2.1:对摄像头拍摄到的视频使用光流法提取特征,检测移动对象,通过比较相邻帧之间的运动变化分离移动的物体和背景,得到光流信息数据流;
[0023]步骤2.2:使用基于聚类的关键帧提取方法,获取视频关键帧;
[0024]步骤2.3:将步骤2.1得到的光流信息数据流和步骤2.2得到的关键帧的图像数据流输入训练好的手势识别网络中,检测是否有手势出现,以此来判断用户是选择手机自带的无障碍功能还是使用电子助视器来阅读文本,当未识别到手势时,则为使用电子助视器,进入步骤3,否则重复步骤2。
[0025]优选地,所述步骤3包括以下步骤:
[0026]步骤3.1:抓拍一帧图像并保存在本地,将所述图像进行上下边界裁剪;
[0027]步骤3.2:将裁剪后的图像依次进行直方图均衡化、中值滤波处理和去除前景孤立点的操作,完成图像预处理;
[0028]步骤3.3:将预处理后的图像输入训练好的图像特征提取网络,提取并融合图像不同维度的特征,得到特征图;
[0029]步骤3.4:将特征图输入卷积层,基于文本框从小到大,产生不同的文本预测结果,使用基于PSENet的渐进尺度扩展方法解决分离相邻文本的问题,得到输入图片的预测的文字检测结果;
[0030]步骤3.5:对于预测的文字检测结果,通过最小矩形区域去除无关的文本识别框;
[0031]步骤3.6:输入图片经过编码网络和解码网络后得到最终的识别结果,将结果保存到文件中。
[0032]优选地,所述步骤3.1中,将图像的上下边界各缩进原长的1/20。
[0033]优选地,所述步骤3.4包括以下步骤:
[0034]步骤3.4.1:特征图经过卷积层得到n个从小到大不同的文本预测结果W1,W2,
……
,W
n

[0035]步骤3.4.2:将最小尺寸的预测结果W1按行或文本块分割为不同的文本区域;
[0036]步骤3.4.3:使用广度优先算法将W1逐像素扩展到W2,再将新得到的W2继续扩展到W3,以此类推,扩展至W
n
,得到最终的文本检测结果。
[0037]优选地,所述步骤5包括以下步骤:
[0038]步骤5.1:对上一帧的识别内容和当前帧的识别内容分别进行分词处理,将一定长度的字符串分割为多个部分得到特征项集合,将各分词中使用频率超过阈值的词和标点符号去除;
[0039]步骤5.2:将取到的每个特征项运用哈希算法变换为签名值,得到128位Hash数字串;
[0040]步骤5.3:采用TF-IDF相似度算法计算每个数字串在文本表示向量中的权值,并利用步骤5.2生成的签名数据,赋予权重后累加,得到128位未降维的Simha本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种适用于电子助视器的智能手机文本辅助阅读方法,其特征在于:所述方法包括以下步骤:步骤1:启动电子助视器,初始化首帧标识符;步骤2:用训练好的视频手势识别网络检测手势,当未识别到手势时进入步骤3,否则重复步骤2;步骤3:抓拍一帧图像并保存在本地,对图像进行预处理,用训练好的分类器对文本进行特征提取,得到文本的检测识别结果,将检测识别结果保存至文件;步骤4:根据首帧标识符判断是否为第一帧图像的文字的识别文本,若是,则将文本输出至语音播放模块进行播放,执行步骤8,否则,以该文本为当前帧的识别文本,进行步骤5;步骤5:将当前帧的识别文本和上一帧的识别文本进行相似文本识别,若不相似,则执行步骤6,否则执行步骤7;步骤6:丢弃当前帧和识别后包含检测识别结果的文本,语音提示用户适当向上滑动,返回步骤2;步骤7:去除当前帧识别文本内容中包含的相似文本内容,将最终的文件传给语音播放模块;步骤8:若收到电子助视器的关闭信息,则程序关闭,否则语音提示当前已播放完毕并提示用户继续滑动页面,返回步骤2。2.根据权利要求1所述的一种适用于电子助视器的智能手机文本辅助阅读方法,其特征在于:所述步骤1中,所述首帧标识符用于识别当前是否已经保存有一帧图像,若为首帧则直接识别播放,否则进行相似度判断。3.根据权利要求1所述的一种适用于电子助视器的智能手机文本辅助阅读方法,其特征在于:所述步骤2包括以下步骤:步骤2.1:对摄像头拍摄到的视频使用光流法提取特征,检测移动对象,通过比较相邻帧之间的运动变化分离移动的物体和背景,得到光流信息数据流;步骤2.2:使用基于聚类的关键帧提取方法,获取视频关键帧;步骤2.3:将步骤2.1得到的光流信息数据流和步骤2.2得到的关键帧的图像数据流输入训练好的手势识别网络中,检测是否有手势出现,以此来判断用户是选择手机自带的无障碍功能还是使用电子助视器来阅读文本,当未识别到手势时,则为使用电子助视器,进入步骤3,否则重复步骤2。4.根据权利要求1所述的一种适用于电子助视器的智能手机文本辅助阅读方法,其特征在于:所述步骤3包括以下步骤:步骤3.1:抓拍一帧图像并保存在本地,将所述图像进行上下边界裁剪;步骤3.2:将裁剪后的图像依次进行直方图均衡化、中值滤波处理和去除前景孤立点的操作,完成图像预处理;步骤3.3:将预处理后的图像输入训练好的图像特征提取网络,提取并融合图像不同维度的特征,得到特征图;步骤3.4:将特征图输入卷积层,基于文本框从小到大,产生不同的文本预测结果,使用基于PSENet的渐进尺度扩展方法解决分离相邻文本的问题,得到输入图片的预测的文字检测结果;
步骤3.5:对于预测的文字检测结果,通过最小矩形区域去除无关的文本识别框;步骤3.6:输入图片经过编码网络和解码网络后得到最终的识别结果,将结果保存到文件中。5.根据权利要求4所述的一种适用于电子助视器的智能手机文本辅助阅读方法,其特征在于:所述步骤3.1中,将图像的上下边界各缩进原长的1/20。6.根据权利要求4所述的一种适用于电子助视器的智能手机文本辅助阅读方法,其特征在于:所述步骤3.4包括以下步骤:步骤3.4.1:特征图经过卷积层得到n个从小到大...

【专利技术属性】
技术研发人员:郑雅羽王豪张子涵
申请(专利权)人:浙江工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1