【技术实现步骤摘要】
一种基于计算机视觉的图书盘点方法
[0001]本专利技术属于计算机视觉设计领域,具体涉及一种基于计算机视觉的图书盘点方法。
技术介绍
[0002]图书馆的图书流动性非常大,需要经常上新、倒架和整理读者归还的图书,而读者归还读书和工作人员整架过程中的失误会导致图书错架,这会反过来影响工作人员的整架效率,并使得读者找不到想要的图书。目前仍然有大量图书馆的图书管理采用扫描图书条码的方式,过程耗时又耗力:需要人工扫描,一次只能扫描一本图书;考虑到图书的美观和条码的安全性,通常将条码贴在图书内部,扫描时还需打开图书。为解决这一问题,技术人员提出自动化图书馆的想法,少数图书馆采用了智能书架,需要对图书馆进行整套的改造,代价高昂、流程繁琐。因此一些图书馆已经采用了更加智能化的盘点方式,将需要视线距离扫描的条码替换成RFID芯片,通过部署在可移动平台上的RFID阅读器和天线自动盘点图书,这样的扫描过程不需要人工干预,大大提升了盘点效率。
[0003]计算机视觉是一种代替人眼进行目标识别和理解的技术,通过机器视觉产品如相机将被摄取的图像转换为图像信号,视觉系统对这些信号进行各种运算来抽取目标的特征,解释拍摄的内容。相比于人类,计算机视觉成本低、识别速度快、系统稳定、易于集成。特别是在工业场景下,需要大量重复、精细的劳动,计算机视觉系统可以得到更加稳定、可靠、持续的结果。正是由于计算机视觉系统可以自动快速获取大量信息,它被广泛地用于工业制造、质量检测、医疗监护、交通监控、身份认证等领域,国内对于计算机视觉系统的需求越来越多。r/>[0004]中国专利CN111814935A公布了一种基于盘点机器人的图书定位方法,包括如下步骤: S1、数据采集:机器人利用RFID识别技术获取图书的电子标签,并将其与机器人坐标,天线高度一同传输至处理器模块中;S2、数据处理转换:从电子标签中提取图书编码,并将电子标签,图书编码,机器人坐标,天线高度存储于数据存储模块中,通过处理器读取数据,将其换成数组矩阵的形式,并对每个数据做均值化处理;S3、图书定位:将S2处理后的数据输入至图书定位模块中,通过网络模型找到位置标签后,将位置标签与图书信息一同传输至数据读取模块中实现图书定位,其利用网络模型进行特征提取可以更准确、更迅速地定位图书的位置,大大减少了图书馆管理员的工作量,提高了工作效率。但是其在数据的处理以及相机的视觉定位处理上明显存在巨大的问题。
[0005]中国专利CN112464682A公布了一种基于RFID技术的智能书架的图书定位装置、方法,所述装置包括:标签;选路器,选路器对应智能书架的每层设置;多个天线,智能书架的每层均匀分布多个天线;读写器;控制器,用于发出控制送指令控制选路器选择对应的天线工作,并获取读写器读取的标签信息、标签信息对应的天线编码和标签信息对应的 RSSI值,其中,若标签信息对应多个天线编码,则保存RSSI值较大的天线编码。该装置在每层书架设置多个天线,可以保证每个标签都被识别,在同个标签被多个天线读取时,选取RSSI值
的进行保存,可排除定位错架的问题,从而解决读全标签和定位精准矛盾的问题,达到精确定位图书的目的。
[0006]计算机视觉技术的快速发展推动了各行各业的智能化升级改造,也为图书馆盘点带来了新的方法和机遇。上述RFID图书馆盘点已经实现了全自动化,但是在从未部署过的图书馆中首先需要人工为图书插入芯片,而计算机视觉技术是一种开盒即用的技术,不需要任何事先准备工作;另外,RFID高频盘点即使在非常近的盘点距离仍有一定概率漏读,在高频盘点的基础上,加入计算机视觉技术,由于相机拍摄不会漏掉任何一本书,能够大大补足漏读的书。然而,在实际应用中,上述技术面临多项挑战:为满足机械臂抓取需要,图书定位精度必须足够高;而且图书馆书籍排列密集,纹理也高度相似,照片中书籍众多,增加了图书识别的障碍,导致定位技术难以实现。
技术实现思路
[0007]为解决上述问题,在不需要对环境加以改造的情形下,使用计算机视觉技术在较短时间内给出精确的识别结果,实现图书馆盘点的高效率和高准确性,方便图书馆管理员进行错架图书定位,也可以让读者更快更方便地找到所需要的书籍。
[0008]为达到上述效果,本专利技术设计一种基于计算机视觉的图书盘点方法。
[0009]一种基于计算机视觉的图书盘点方法,其包括以下步骤:
[0010]步骤S1、通过相机录像,并获取单层书架的视频,并对所述视频逐帧拆分,获得图片序列;
[0011]步骤S2、对图片序列进行光流预估,得到光流数据,进一步得到相邻两帧间每个像素的移动方向和距离;
[0012]步骤S3、构建并训练旋转实例目标检测模型,对所述图片序列进行实例目标检测,并进一步进行实例分割,获得出现的书脊和索书号在当前图片的位置,并根据坐标将索书号分配给相应的图书;
[0013]步骤S4、训练文本识别模型,对所述图片序列中识别出的图书书脊和索书号区域的图像进行文本识别,得到每张图片中包含的图书书名和索书号文本及文本所在的位置;
[0014]步骤S5、基于图片序列中识别的图书和索书号位置坐标和对应的文本,根据光流数据得到两两图片中包含的图书实例之间的对应关系,并进行目标跟踪,追踪同一图书或索书号实例在所有图片中的出现,从而得到每个图书在单层书架的具体位置,和同一图书在不同图片中的所有识别结果;
[0015]步骤S6、对于每一图书或索书号实例的所有识别文本,基于图书数据库候选集进行修正和匹配,得到真实书名结果,并输出图书实例位置和匹配的图书信息作为盘点结果。
[0016]优选地,所述步骤S2中,对图片序列进行光流预估的方法包括:
[0017]步骤S21、构建基于PWC
‑
Net实现的光流预估模型,其核心是使用多尺度网络预测光流,从低分辨率图片开始计算光流,逐级向更高分辨率的网络输入低分辨率的光流数据,计算出新的高分辨率光流,最后得到原图尺寸的光流数据;
[0018]步骤S22、预先拍摄若干书架真实图书的视频,在所拍摄视频上采用自监督方式训练光流预估模型,让模型自己学习前一图片的像素点该如何移动到后一图片的像素点;
[0019]步骤S23、从图片序列第一张图片开始,顺序计算相邻两张图片之间的光流数据;
将预估得到的光流数据按照原图尺寸与模型输入尺寸的比例进行相应的缩放。
[0020]优选地,所述步骤S3中,构建并训练旋转实例目标检测模型的方法包括:
[0021]步骤S301、基于真实拍摄的书架图片,合成实例分割数据集;
[0022]步骤S302、利用真实图片和合成数据集训练基于旋转候选框的目标检测模型 Mask
‑
RCNN,得到鲁棒、泛化性强的模型:
[0023]步骤S303、第一阶段,基于合成数据集训练,得到适用于多场景、泛化性强的充分训练的一阶段模型;
[0024]步骤S304、第二阶段,基于真实图片微调训练,使一阶段模型能够更好地适应真实的本文档来自技高网...
【技术保护点】
【技术特征摘要】
1.一种基于计算机视觉的图书盘点方法,其特征在于,其包括以下步骤:步骤S1、通过相机录像,并获取单层书架的视频,并对所述视频逐帧拆分,获得图片序列;步骤S2、对图片序列进行光流预估,得到光流数据,进一步得到相邻两帧间每个像素的移动方向和距离;步骤S3、构建并训练旋转实例目标检测模型,对所述图片序列进行实例目标检测,并进一步进行实例分割,获得出现的书脊和索书号在当前图片的位置,并根据坐标将索书号分配给相应的图书;步骤S4、训练文本识别模型,对所述图片序列中识别出的图书书脊和索书号区域的图像进行文本识别,得到每张图片中包含的图书书名和索书号文本及文本所在的位置;步骤S5、基于图片序列中识别的图书和索书号位置坐标和对应的文本,根据光流数据得到两两图片中包含的图书实例之间的对应关系,并进行目标跟踪,追踪同一图书或索书号实例在所有图片中的出现,从而得到每个图书在单层书架的具体位置,和同一图书在不同图片中的所有识别结果;步骤S6、对于每一图书或索书号实例的所有识别文本,基于图书数据库候选集进行修正和匹配,得到真实书名结果,并输出图书实例位置和匹配的图书信息作为盘点结果。2.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S2中,对图片序列进行光流预估的方法包括:步骤S21、构建基于PWC
‑
Net实现的光流预估模型,其核心是使用多尺度网络预测光流,从低分辨率图片开始计算光流,逐级向更高分辨率的网络输入低分辨率的光流数据,计算出新的高分辨率光流,最后得到原图尺寸的光流数据;步骤S22、预先拍摄若干书架真实图书的视频,在所拍摄视频上采用自监督方式训练光流预估模型,让模型自己学习前一图片的像素点该如何移动到后一图片的像素点;步骤S23、从图片序列第一张图片开始,顺序计算相邻两张图片之间的光流数据;将预估得到的光流数据按照原图尺寸与模型输入尺寸的比例进行相应的缩放。3.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S3中,构建并训练旋转实例目标检测模型的方法包括:步骤S301、基于真实拍摄的书架图片,合成实例分割数据集;步骤S302、利用真实图片和合成数据集训练基于旋转候选框的目标检测模型Mask
‑
RCNN,得到鲁棒、泛化性强的模型:步骤S303、第一阶段,基于合成数据集训练,得到适用于多场景、泛化性强的充分训练的一阶段模型;步骤S304、第二阶段,基于真实图片微调训练,使一阶段模型能够更好地适应真实的场景,修正由于合成数据集中噪声带来的训练数据分布不一致问题,得到贴合真实预测场景的高精度的目标检测模型。4.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S3中,对所述图片序列进行实例分割的方法包括:步骤S311、将图片序列中每一张图片送入目标检测模型,得到所有出现的书脊实例和索书号实例的包围框;具体来说,模型输出的是一个旋转包围框,除了包含原始长方形的坐
标,还有其旋转角度;步骤S312、根据得到的长方形框的位置坐标和倾斜角度,计算得到旋转包围框的四角坐标,其包围的图像区域即为真正识别的书脊或索书号实例;步骤S313、过滤面积太小的书脊和索书号实例包围框结果,判断包围框的四个角坐标是否都在图片的边界内,若有超出范围的角点,剔除对应实例识别结果;步骤S314、对于书脊实例包围框,将其分成左右两条线和上下两条线两组线对,仅取其左右线对,并将左右分别延长至图片的上下边缘,得到四个相交点组成的多边形作为新的实例包围框,相当于完成了图书的左右两边分割;步骤S315、对于索书号实例包围框不需要进行上述操作,直接取原始包围框范围作为分割结果;步骤S316、对于书脊和索书号实例分割框,分别作用非极大值抑制,仅保留置信度高且与其他实例重叠较少的实例作为最终的分割结果。5.根据权利要求1所述的一种基于计算机视觉的图书盘点方法,其特征在于,所述步骤S4中,训练文本识别模型并进文本识别的...
【专利技术属性】
技术研发人员:陈力军,刘佳,顾桥磊,徐毅晖,陈星宇,鄢伟,
申请(专利权)人:江苏图客机器人有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。