文本定位方法、装置、设备及存储介质制造方法及图纸

技术编号：41318243 阅读：21 留言：0更新日期：2024-05-13 14:58

本发明专利技术公开了一种文本定位方法、装置、设备及存储介质，通过检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。本实施例提供的定位方法及设备，不需要限定拍摄待识别文本图像的摄像头固定位置和角度，也不需要限定待识别文本在拍摄时需要完全水平放置，基于手指指尖的位置实现对待识别文本的准确定位，因此易于实现，应用场景广泛。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及信息识别，尤其涉及的是一种文本定位方法、装置、设备及存储介质。

技术介绍

1、在日常的生活和工作中，常常需要对文本进行识别和提取，例如：需要对文本页面中某一部分内容进行翻译时，或者需要对文本页面中某一部分内容复制时，均需要识别出该部分文本内容，并对识别出的该部分文本内容进行提取。在相关技术中，通过摄像头拍摄需要识别的文本，再对拍摄的文本图像进行裁剪，进而得到需要进行文字识别的区域图像，但由于在拍摄所需识别的文本时，摄像头的位置和拍摄角度固定，且需要待识别的文本水平放置，否则拍摄到的文本图像的文本是倾斜的，导致无法准确的定位出需要识别的文本内容。

技术实现思路

1、本专利技术的目的在于提供一种文本定位方法、装置、设备及存储介质，克服在拍摄含有待识别文本内容的文本图像时，需要满足摄像头和拍摄角度固定，且待识别文本需要完全水平放置，否则无法准确定位出需要识别的文本内容的缺陷。

2、本专利技术解决技术问题所采用的技术方案如下：

3、第一方面，本实施例公开了一种文本定位方法，其中，所述方法包括：

4、检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；

5、识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；

6、根据所述第一文本框和所述指尖位置确定目标文本框；

7、筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。

8、可选地，所述指尖位置包括位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；所述检测手指指尖在文本上的指尖位置，基于所述指尖位置确定待识别文本的区域图像的步骤，包括：

9、获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置；

10、计算所述第一指尖位置和第二指尖位置之间连接线的中点和所述连接线的长度值；

11、以所述连接线中点为截取图像中心，以连接线的长度值为截取图像的长和宽，从所述拍摄图像中截取图像，将截取得到的图像确定为待识别文本的区域图像。

12、可选地，所述获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置的步骤包括：

13、拍摄手指指尖位于文本页面上的拍摄图像；

14、从所述拍摄图像中定位出手部所在位置的手部区域框；

15、从所述拍摄图像中裁剪出所述手部区域框，得到手部图像；

16、对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置。

17、可选地，对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置的步骤之后，还包括：

18、检测摄像头的视轴是否发生变化；

19、当检测到摄像头的视轴发生变化时，则获取视轴发生变化后的更新图像；

20、分别提取所述手部图像和更新图像中的关键点和特征描述子；

21、利用所述关键点和特征描述子对所述手部图像和更新图像进行匹配，得到所述手部图像与更新图像之间的变换矩阵；

22、利用所述变换矩阵计算得到所述更新图像中的第一指尖位置，以所述更新图像中的第一指尖位置为更新后的第一指尖位置。

23、可选地，所述识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框的步骤包括：

24、将所述区域图像输入至已训练完成的文本检测模型，得到所述文本检测模型输出的所述区域图像中每行文本行对应的第二文本框；

25、根据每行文本行对应的第二文本框之间的几何位置关系，识别出各个文本行所在段落，进而得到各个段落对应的段落文本框；

26、从各个段落对应的段落文本框中筛选出面积最大的第一文本框。

27、可选地，所述指尖位置包括分别位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；

28、所述从各个段落对应的段落文本框中筛选出面积最大的第一文本框的步骤包括：

29、获取与所述第一指尖位置和第二指尖位置指尖的连接线相交的段落；

30、从相交的段落对应的段落文本框中筛选出面积最大的第一文本框。

31、可选地，所述根据所述第一文本框和所述指尖位置确定目标文本框的步骤包括：

32、获取所述第一文本框的长边方向；

33、根据所述第一文本框的长边方向及所述指尖位置确定目标文本框。

34、可选地，所述筛选出段落中心点位于所述目标文本框内的一个或多个段落的步骤包括:

35、获取目标文本框内各个段落对应段落文本框的四个角坐标；

36、根据各个段落对应段落文本框的四个角坐标依次计算每个段落对应段落文本框的段落中心点；

37、根据各个段落对应文本框的依次判断各个段落对应段落文本框的段落中心点是否位于所述目标文本框内；

38、依次判断各个段落对应段落文本框的段落中心点是否位于所述目标文本框内，得到段落中心点位于目标文本框内的一个或多个段落。

39、第二方面，本实施例公开了一种文本定位装置，其中，包括：

40、区域图像确定模块，用于检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定所述文本页面中待识别文本的区域图像；

41、文本框识别模块，用于识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；

42、目标文本框识别模块，用于根据所述第一文本框和所述指尖位置确定目标文本框；

43、文本区域确定模块，用于将段落中心点位于所述目标文本框内的各个段落确定为待识别文本所在的段落，定位得到所述待识别文本。

44、第三方面，本实施例还提供了一种智能设备，其中，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的文本定位程序，所述处理器执行所述文本定位程序时，实现所述的文本定位方法的步骤。

45、第四方面，本实施例还公开了一种计算机可读存储介质，其中，所述计算机可读存储介质存储有一个或多个程序，所述一个或多个程序可被一个或者多个处理器执行，以实现所述的文本定位中的步骤。

46、有益效果:

47、本实施例公开了一种文本定位方法、装置、设备及存储介质，通过检测手指指尖在文本页面上的指尖位置，基于所述指尖位置确定待识别文本的区域图像；识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框；根据第一文本框确定出目标文本框，筛选出段落中心点位于所述目标文本框内的一个或多个段落，并将筛选出的各个段落中含有的文本确定为待识别文本。在本申请实施例中，不需要限定拍摄待识别文本图像的摄像头固定位置和角度，也不需要限定待识别文本在拍摄时需要完全水平放置，基于手指指尖的位置即可实现对待识别文本的准确本文档来自技高网...

【技术保护点】

1.一种文本定位方法，其特征在于，所述方法包括：

2.根据权利要求1所述的文本定位方法，其特征在于，所述指尖位置包括位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；

3.根据权利要求2所述的文本定位方法，其特征在于，所述获取手指指尖在文本页面上的拍摄图像，并识别出所述拍摄图像中的第一指尖位置和第二指尖位置的步骤包括：

4.根据权利要求3所述的文本定位方法，其特征在于，对所述手部图像进行关键点检测，得到检测出的第一指尖位置和第二指尖位置的步骤之后，还包括：

5.根据权利要求1所述的文本定位方法，其特征在于，所述识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框的步骤包括：

6.根据权利要求5所述的文本定位方法，其特征在于，所述指尖位置包括位于文本页面内容左上点的第一指尖位置和位于文本页面内容右下点的第二指尖位置；

7.根据权利要求1所述的文本定位方法，其特征在于，所述根据所述第一文本框和所述指尖位置确定目标文本框的步骤包括：

8.根据权利要求1-7任一项所

9.一种文本定位装置，其特征在于，包括：

10.一种智能设备，其特征在于，包括存储器、处理器及存储在所述存储器中并可在所述处理器上运行的文本定位程序，所述处理器执行所述文本定位程序时，实现如权利要求1-8任一项所述的文本定位方法的步骤。

11.一种计算机可读存储介质，其特征在于，所述计算机可读存储介质存储有一个或多个程序，所述一个或多个程序可被一个或者多个处理器执行，以实现如权利要求1-8任一项所述的文本定位方法中的步骤。

...

【技术特征摘要】

1.一种文本定位方法，其特征在于，所述方法包括：

5.根据权利要求1所述的文本定位方法，其特征在于，所述识别出所述区域图像内各个段落对应的段落文本框中面积最大的第一文本框的步骤包括：

6.根据权利要求5所述的文本定位方法，其特征在于，所述指尖位置包括位于文本页面内容左上点的第一指...

【专利技术属性】
技术研发人员：谢迅，胡立天，
申请(专利权)人：珠海莫界科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人