一种基于大语言模型的通用证件识别方法技术

技术编号：41462669 阅读：8 留言：0更新日期：2024-05-30 14:19

本发明专利技术涉及图像识别技术领域，具体为一种基于大语言模型的通用证件识别方法，包括以下步骤：对卡证图像进行图像增强处理；对卡证图像进行OCR识别，得到文本内容与文本在图像中位置的坐标信息；根据OCR获得的文本与坐标信息，对文本进行排序，得到符合人类阅读顺序的文本序列；按照预定的格式将得到的文本输入大语言模型，判断卡证类别；有益效果为：本发明专利技术提出的基于大语言模型的通用证件识别方法，基于大语言模型的通用的对卡证图像内容进行识别提取的方法，解决卡证识别方法通用性差、文字识别错误率高的问题。本方法只需少量样本，不需要收集大量数据进行训练。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，具体为一种基于大语言模型的通用证件识别方法。

技术介绍

1、现有技术中，目前通常使用光学字符识别(optical character recognition,ocr)来对卡证图像进行识别，但卡证图像的种类繁多，版式也较为复杂，针对一种证件设计的识别方法难以应用于其它证件。而且卡证图像可能出现不清晰、有污迹、分辨率低等问题，对卡证图像进行ocr所得到的结果经常会有错别字和顺序错乱等问题。

2、目前也有基于深度学习的卡证识别技术，但都需要使用大量数据进行训练。而卡证图像很容易涉及到隐私敏感信息，难以大量收集进行训练。

技术实现思路

1、本专利技术的目的在于提供一种基于大语言模型的通用证件识别方法，以解决上述
技术介绍
中提出的卡证识别方法通用性差、文字识别错误率高的问题。

2、为实现上述目的，本专利技术提供如下技术方案：一种基于大语言模型的通用证件识别方法，所述方法包括以下步骤：

3、对卡证图像进行图像增强处理；

4、对卡证图像进行ocr识别，得到文本内容与文本在图像中位置的坐标信息；

5、根据ocr获得的文本与坐标信息，对文本进行排序，得到符合人类阅读顺序的文本序列；

6、按照预定的格式将得到的文本输入大语言模型，判断卡证类别；

7、根据卡证类别，按照预定格式将样例、用户指定的查询关键字与文本拼接在一起，使用大语言模型得到查询结果；

8、对查询结果进行后处理，校正查询结

9、优选的，图像增强处理的方式包括但不限于矫正图像的方向、增强对比度、对图像进行裁剪、对卡证区域进行仿射变换。

10、优选的，坐标信息为由ocr识别所得到的包围文本内容的四边形。

11、优选的，得到符合人类阅读顺序的文本序列的具体操作包括：

12、根据文本与其坐标信息，对文本进行分组，如果包围两段文本的坐标框有重叠，则将两段文本分到同一组中；

13、将同一组中的文本进行排序，排序顺序为不同行的文本按照从上到下的顺序排列，同一行的文本按照坐标框中心点从左到右的顺序排列；判断两段文本是否在同一行的方法如下：选择坐标框面积较小的文本作为活动文本，水平移动活动文本所在的坐标框，令其中心与非活动文本的坐标框中心具有相同纵坐标，计算两个坐标框重叠面积与活动文本坐标框面积的比值；如果该比值大于预定阈值，则认为两段文本在同一行；

14、将每个组的文本和坐标框进行合并，并进行组间排序；

15、按照排序结果合并得到最终的文本。

16、优选的，使用大语言模型得到查询结果的具体操作包括：

17、根据大语言模型反馈的证件类型，在预存的数据库中寻找信息提取样例，如果是未预存的类型，则使用空白样例，如果用户提供了样例，则与数据库中搜索到的样例拼接在一起；

18、如果用户没有提供信息查询关键字，则使用默认的查询关键字，将ocr文本、样例与查询关键字按照预定的格式拼接在一起，输入大语言模型，提取所需信息。

19、优选的，对查询结果进行后处理，删除多余的字符，校正查询结果的格式，并将结果向用户展示。

20、与现有技术相比，本专利技术的有益效果是：

21、本专利技术提出的基于大语言模型的通用证件识别方法，基于大语言模型的通用的对卡证图像内容进行识别提取的方法，解决卡证识别方法通用性差、文字识别错误率高的问题。本方法只需少量样本，不需要收集大量数据进行训练。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的通用证件识别方法，其特征在于：所述方法包括以下步骤：

2.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：图像增强处理的方式包括但不限于矫正图像的方向、增强对比度、对图像进行裁剪、对卡证区域进行仿射变换。

3.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：坐标信息为由OCR识别所得到的包围文本内容的四边形。

4.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：得到符合人类阅读顺序的文本序列的具体操作包括：

5.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：使用大语言模型得到查询结果的具体操作包括：

6.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：对查询结果进行后处理，删除多余的字符，校正查询结果的格式，并将结果向用户展示。

【技术特征摘要】

1.一种基于大语言模型的通用证件识别方法，其特征在于：所述方法包括以下步骤：

3.根据权利要求1所述的一种基于大语言模型的通用证件识别方法，其特征在于：坐标信息为由ocr识别所得到的包围文本内容的四边形。

...

【专利技术属性】
技术研发人员：张吉臣，段强，姜凯，魏子重，景伟，王慧平，李锐，
申请(专利权)人：山东浪潮科学研究院有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人