一种离线盲人视觉辅助方法及装置制造方法及图纸

技术编号:32328390 阅读:23 留言:0更新日期:2022-02-16 18:35
本发明专利技术提供一种离线盲人视觉辅助方法及装置,属于计算机视觉领域。所述方法包括:获取图像,其中,获取的图像为盲人在日常生活中拍摄的图像;提取图像的特征点,利用提取的特征点对信息不完整的图像进行拼接;将拼接后的图像输入基于模型压缩与加速算法处理的图像描述模型,得到图像描述信息。采用本发明专利技术,能够降低图像处理所消耗的时间和能耗。低图像处理所消耗的时间和能耗。低图像处理所消耗的时间和能耗。

【技术实现步骤摘要】
一种离线盲人视觉辅助方法及装置


[0001]本专利技术涉及计算机视觉领域,特别是指一种离线盲人视觉辅助方法及装置。

技术介绍

[0002]视觉障碍群体是残疾人群中容易被忽略的庞大人群,眼睛的缺陷让他们无法通过视觉系统来感知外界的信息,从而给日常生活和出行带来极大不便。随着深度学习的发展,图像和语言处理的相关研究发展取得了很大的进步,为如何给盲人提供视觉帮助这一课题带来了新的思路。采用计算机视觉技术,设计一款能够搭载在低成本便携设备的视觉辅助系统成为帮助盲人的迫切需求。
[0003]由于神经网络模型的不断发展,带来了运算量巨大、相关技术难以实际应用等问题。深度神经网络层数的加深使得精度有较大提升,但导致运算量大幅度增加同时还伴随着大量的冗余。造成了实现深度学习网络模型要么需要借助具备强大计算能力的设备、要么需要借助能够传输大量数据的网络,对于实现能够随身携带、帮助视觉障碍人群提供日常服务的小型移动设备带来了巨大的挑战。由于上述原因,当前视觉辅助设备存在价格昂贵、交互性差、无法离线等缺点。
[0004]基于此,在保证模型准确率的同时,尽可能的降低模型的复杂度,成为了一个热门的研究课题。近几年提出的模型压缩方法主要包括:模型剪枝、低秩分解、参数量化、知识蒸馏、重新训练一个紧凑的神经网络等。
[0005]Emily Denton等人提出了一种基于低秩分解调整网络权重的方法[Denton E,Zaremba W,Bruna J,et al.Exploiting Linear Structure Within Convolutional Networks for Efficient Evaluation,MIT Press,2014],能够在一定程度上降低网络模型的复杂度。但低秩分解的方法用于全连接层效果较好,当将低秩分解的压缩算法用于卷积层时,会出现误差累积的效果,对最后精度损失影像较大,需要对网络进行逐层的微调,费时费力。
[0006]采用模型压缩的方法为在便携式移动设备中运行复杂的深度网络模型提供了一条可行的技术途径。基于模型压缩,进一步开发更高效的压缩图像描述模型以解决使用低秩分解压缩方法计算量大却存在累计误差的问题以及使用原始图像描述模型为盲人提供视觉辅助的设施和可穿戴设备存在着价格昂贵、辅助功能有限、交互性差、无法离线、难以在日常生活场景中广泛使用等问题。

技术实现思路

[0007]本专利技术实施例提供了离线盲人视觉辅助方法及装置,能够降低图像处理所消耗的时间和能耗。所述技术方案如下:
[0008]一方面,提供了一种离线盲人视觉辅助方法,包括:
[0009]获取图像,其中,获取的图像为盲人在日常生活中拍摄的图像;
[0010]提取图像的特征点,利用提取的特征点对信息不完整的图像进行拼接;
[0011]将拼接后的图像输入基于模型压缩与加速算法处理的图像描述模型,得到图像描述信息。
[0012]进一步地,利用提取的特征点对信息不完整的图像进行拼接包括:
[0013]A1,对多张信息不完整的图像进行预处理并提取特征点,其中,特征点提取是在图像中提取出可供比较的特征;
[0014]A2,筛选出已提取的特征点中的相同或相似特征并进行特征点匹配;
[0015]A3,优化提纯已匹配的特征点;
[0016]A4,根据匹配的特征点间的匹配关系,得到变换矩阵,并利用变换矩阵将图像进行相应的变换;
[0017]A5,将变换后的多张信息不完整的图像拼接在一起,并消除接缝和光线差异,得到具有完整图像信息的图像。
[0018]进一步地,所述模型压缩与加速算法包括以下步骤:
[0019]B1,使用Oracle剪枝算法多次评估神经元的重要程度,使被剪枝的图像描述模型代价损失最小;
[0020]B2,在多次评估神经元重要程度这一操作后,移除最不重要的神经元;
[0021]B3,对剪枝后的图像描述模型进行微调;
[0022]B4,返回步骤B1继续执行,直至剪枝完成。
[0023]进一步地,多次评估神经元重要程度这一操作后,被剪枝的图像描述模型的代价函数表示为:
[0024][0025]其中,i为执行的评估次数,N表示执行评估神经元重要程度的总次数,M为每次评估后选取的特征图的个数,W表示图像描述模型的参数集合,W'表示剪枝后的图像描述模型参数集合,C(D|W')表示剪枝后的图像描述模型的损失函数,C(D|W)表示剪枝前的图像描述模型的损失函数,B表示非零参数的个数,D表示训练集。
[0026]进一步地,所述在多次评估神经元重要程度这一操作后,移除最不重要的神经元包括:
[0027]选取多次评估神经元重要程度这一操作后产生的评估结果重合的特征图;
[0028]计算所选取特征图的重要程度值并按从小到大排序;
[0029]剪掉排名靠前的特征图。
[0030]进一步地,所述对剪枝后的图像描述模型进行微调包括:
[0031]对剪枝后的图像描述模型重新训练。
[0032]进一步地,所述返回步骤B1继续执行,直至剪枝完成包括:
[0033]通过剪枝后的图像描述模型精度变化程度判断这是否为最终保留的经过模型压缩与加速算法处理后的图像描述模型;
[0034]若是,则停止剪枝;
[0035]否则,则返回步骤B1继续执行,直至剪枝完成。
[0036]进一步地,所述图像描述模型,用于将输入的拼接后的图像以文字的方式描述出来。
[0037]进一步地,在将拼接后的图像输入基于模型压缩与加速算法处理的图像描述模型,得到图像描述信息之后,所述方法包括:
[0038]将图像描述信息以语音的形式播报出来。
[0039]一方面,提供了一种离线盲人视觉辅助装置,包括:
[0040]拍摄模块,用于获取图像,其中,获取的图像为盲人在日常生活中拍摄的图像;
[0041]便携式计算模块,用于提取图像的特征点,利用提取的特征点对信息不完整的图像进行拼接,将拼接后的图像输入基于模型压缩与加速算法处理的图像描述模型,得到图像描述信息;
[0042]播报模块,用于将图像描述信息以语音的形式播报出来。
[0043]本专利技术实施例提供的技术方案带来的有益效果至少包括:
[0044]1)解决现有技术实现深度学习网络模型要么需要借助具备强大计算能力的设备、要么需要借助能够传输大量数据的网络的问题;
[0045]2)能够降低图像处理所消耗的时间和能耗,解决使用基于低秩分解的方法压缩网络模型时一次剪裁一个特征图带来的误差累计以及微调神经元耗时过久的问题;
[0046]3)解决基于图像描述模型的盲人辅助设备需要借助大型计算设备以及不能离线运行等问题;
[0047]4)提供能够在低成本、便携式移动处理器中工作的简单模型,以非视觉的方式让视觉障碍人士能够长时间稳定及时地感知周围的环境,在一定程度上提升其生活幸福感本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种离线盲人视觉辅助方法,其特征在于,包括:获取图像,其中,获取的图像为盲人在日常生活中拍摄的图像;提取图像的特征点,利用提取的特征点对信息不完整的图像进行拼接;将拼接后的图像输入基于模型压缩与加速算法处理的图像描述模型,得到图像描述信息。2.根据权利要求1所述的离线盲人视觉辅助方法,其特征在于,所述提取图像的特征点,利用提取的特征点对信息不完整的图像进行拼接包括:A1,对多张信息不完整的图像进行预处理并提取特征点,其中,特征点提取是在图像中提取出可供比较的特征;A2,筛选出已提取的特征点中的相同或相似特征并进行特征点匹配;A3,优化提纯已匹配的特征点;A4,根据匹配的特征点间的匹配关系,得到变换矩阵,并利用变换矩阵将图像进行相应的变换;A5,将变换后的多张信息不完整的图像拼接在一起,并消除接缝和光线差异,得到具有完整图像信息的图像。3.根据权利要求1所述的离线盲人视觉辅助方法,其特征在于,所述模型压缩与加速算法包括以下步骤:B1,使用Oracle剪枝算法多次评估神经元的重要程度,使被剪枝的图像描述模型代价损失最小;B2,在多次评估神经元重要程度这一操作后,移除最不重要的神经元;B3,对剪枝后的图像描述模型进行微调;B4,返回步骤B1继续执行,直至剪枝完成。4.根据权利要求3所述的离线盲人视觉辅助方法,其特征在于,多次评估神经元重要程度这一操作后,被剪枝的图像描述模型的代价函数表示为:其中,i为执行的评估次数,N表示执行评估神经元重要程度的总次数,M为每次评估后选取的特征图的个数,W表示图像描述模型的参数集合,W'表示剪枝后的图像描述模型参数集合,C(D|W')表示剪枝后的图像描述模型的损...

【专利技术属性】
技术研发人员:郭宇陈悦谢圆琰
申请(专利权)人:北京科技大学顺德研究生院
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1