一种工业图纸关键符号语义识别方法及系统技术方案

技术编号：43926094 阅读：83 留言：0更新日期：2025-01-03 13:31

本发明专利技术涉及图像识别领域，公开了一种工业图纸关键符号语义识别方法及系统，方法包括通过设计基于基础模型SAM的通用图纸分割模型DrawSAM利用高效微调方法DoRA进行自适应微调SAM，结合Box Generator提示生成器进行图像分割，能够适应多样化的图纸类型和复杂结构布局，提升图纸中文字及符号的检测和识别准确率与效率；并通过优化的文本检测算法DrawDETR，减少了在识别工程图纸时的误识别率，提高了识别的准确性，有效解决了通用OCR模型在此领域的误识别和符号无法识别的问题，显著提升了图纸电子化数据的检索与应用，满足工业需求。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及图像识别，尤其涉及一种工业图纸关键符号语义识别方法及系统。

技术介绍

1、在工业领域，尤其是涉及复杂结构和精密制造的工程项目中，工业图纸是至关重要的工具。图纸不仅详细记录了设备的设计参数、规格要求、安装位置和连接方式等信息，还包含了各种物料编码、元器件编号以及特定的技术符号和注释，用以指导现场施工和后期维护。

2、目前，常用ocr模型进行识别，其在常规文档识别的准确率上已经达到了相当高的水平，但在工程图纸中物料编码、元器件编号等文字及符号的识别方面，这些通用模型却存在显著的不足。主要源于以下几个技术缺陷：工程图纸的图像尺寸通常很大，而其中的文字和符号相对较小。这种尺寸差异使得ocr模型在检测小尺寸文字时的识别能力受到限制，容易导致识别结果的不准确。其次，文字与符号框贴合较近的情况也使得识别过程变得复杂，ocr模型可能将相邻的字符或符号错误地合并，造成误识别。此外，工程图纸通常包含多个器件，且部分器件的符号容易被误识别为文字，增加了模型处理的难度；同时，符号在图纸上的分布方向往往非常随意，从而影响识别的全面性和准确性。另一方面，目标检测技术的进步使得图纸符号的自动定位变得更加高效，许多现有的研究采用卷积神经网络（cnn）等深度学习算法来准确地定位和分类图纸中的符号，但这些方法通常需要大量标注数据进行训练。

3、因此，需要一种能够提升工业图纸文本和符号的识别精度，同时实现更高效的信息提取和利用的方法。

技术实现思路

1、鉴于上述现有存在的问题，提出了本专利技术。

2、因此，本专利技术提供了一种工业图纸关键符号语义识别方法及系统解决目前工业图纸中小尺寸文字的识别、漏识别以及误识别，信息提取不够高效精准的问题。

3、为解决上述技术问题，本专利技术提供如下技术方案：

4、第一方面，本专利技术提供了一种工业图纸关键符号语义识别方法，包括：获取工业图纸；

5、对工业图纸进行图像分割，利用具有微调方法的图像编码器进行编码，得到图像嵌入向量，根据图纸中的器件图像生成边界框提示信息，基于边界框提示信息得到提示编码，将图像嵌入向量与提示编码联合输入生成最终器件掩码图，以得到最终器件图；

6、通过文本检测算法对分割得到的每个器件图进行文本检测，包括对器件图进行特征提取，并生成若干个候选检测框信息，通过候选检测框中心点和比例信息，得到参考点；基于参考点形成复合查询，用于生成文本检测框的坐标并优化，以定位器件图中的文本区域；

7、对所述文本区域通过文本识别算法进行文本识别，以得到文字和符号的语义信息。

8、作为本专利技术所述的工业图纸关键符号语义识别方法的一种优选方案，其中：利用具有微调方法的图像编码器进行编码，得到图像嵌入向量，包括：

9、在sam的图像编码器的每个transformer块中引入微调方法dora；

10、通过dora将图像编码器的权重参数分解为幅值和方向两个部分进行微调；

11、利用低秩结构lora更新方向部分的参数，幅值部分的参数不参与梯度更新，以得到图像嵌入向量。

12、作为本专利技术所述的工业图纸关键符号语义识别方法的一种优选方案，其中：根据图纸中器件图像生成边界框提示信息，包括：

13、将resnet-50作为骨干网络，结合多层次特征融合策略，将骨干网络的多层卷积通过上采样和拼接进行特征融合，以得到多层融合特征；

14、通过两个不同空洞率的第一卷积层和一个第二卷积层，将所述多层融合特征生成第一边界框提示信息；

15、设置loss-box进行不断的迭代训练，使得第一边界框提示信息更加接近真实值，更新得到第二边界框提示信息。

16、作为本专利技术所述的工业图纸关键符号语义识别方法的一种优选方案，其中：通过文本检测算法对分割得到的每个器件图进行文本检测，包括对器件图进行特征提取，并生成若干个候选检测框信息，通过候选检测框中心点和比例信息，得到参考点，具体包括：

17、提取器件图输入到resnet-50主干网络以及transformer编码器进行特征提取；

18、基于提取的特征在最终的编码层生成若干个候选检测框信息；

19、通过候选检测框的中心点和比例信息，在顶部和底部利用贝塞尔中心曲线的显式采样预设数量的参考点坐标，用作可变形交叉注意模块的参考点。

20、作为本专利技术所述的工业图纸关键符号语义识别方法的一种优选方案，其中：基于参考点形成复合查询，包括：

21、在解码器中，对贝塞尔中心曲线生成的参考点坐标进行编码，用于对象查询；

22、将对象查询添加到相应的参考点内容查询中，形成复合查询，并反馈至可变形交叉注意力模块。

23、作为本专利技术所述的工业图纸关键符号语义识别方法的一种优选方案，其中：生成文本检测框的坐标并优化，包括：

24、所述复合查询经过可变形交叉注意力模块的处理后，利用预测头生成文本检测框的坐标；

25、设置检测框损失函数，在每次迭代训练中，最小化所述损失函数，以提取每张器件图中每个文本的坐标，从而定位器件图中的文本区域。

26、作为本专利技术所述的工业图纸关键符号语义识别方法的一种优选方案，其中：对所述文本区域通过文本识别算法进行文本识别，以得到文字和符号的语义信息，包括：

27、通过svtr 模型将文本区域分割成若干小文本块，并表示为字符分量；

28、分阶段对所述字符分量，进行特征混合、合并和拼接操作，以感知字符内和字符间的特征模式；

29、基于所述特征模式，通过线性预测进行字符识别。

30、第二方面，本专利技术提供了一种工业图纸关键符号语义识别系统，包括：

31、获取模块，用于获取工业图纸；

32、分割模块，用于对工业图纸进行图像分割，利用具有微调方法的图像编码器进行编码，得到图像嵌入向量，根据图纸中的器件图像生成边界框提示信息，基于边界框提示信息得到提示编码，将图像嵌入向量与提示编码联合输入生成最终器件掩码图，以得到最终器件图；

33、文本检测模块，用于通过文本检测算法对分割得到的每个器件图进行文本检测，包括对器件图进行特征提取，并生成若干个候选检测框信息，通过候选检测框中心点和比例信息，得到参考点；基于参考点形成复合查询，用于生成文本检测框的坐标并优化，以定位器件图中的文本区域；

34、文本识别模块，用于对所述文本区域通过文本识别算法进行文本识别，以得到文字和符号的语义信息。

35、第三方面，本专利技术提供了一种电子设备，包括：

36、存储器和处理器；

37、所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现工业图纸关键符号语义识别方法的步骤。

38、第四方面，本专利技术提供了一种计算机可读存储介质，其存储有计算本文档来自技高网...

【技术保护点】

1.一种工业图纸关键符号语义识别方法，其特征在于，包括：

2.如权利要求1所述的工业图纸关键符号语义识别方法，其特征在于，利用具有微调方法的图像编码器进行编码，得到图像嵌入向量，包括：

3.如权利要求2所述的工业图纸关键符号语义识别方法，其特征在于，根据图纸中器件图像生成边界框提示信息，包括：

4.如权利要求3所述的工业图纸关键符号语义识别方法，其特征在于，通过文本检测算法对分割得到的每个器件图进行文本检测，包括对器件图进行特征提取，并生成若干个候选检测框信息，通过候选检测框中心点和比例信息，得到参考点，具体包括：

5.如权利要求4所述的工业图纸关键符号语义识别方法，其特征在于，基于参考点形成复合查询，包括：

6.如权利要求5所述的工业图纸关键符号语义识别方法，其特征在于，生成文本检测框的坐标并优化，包括：

7.如权利要求6所述的工业图纸关键符号语义识别方法，其特征在于，对所述文本区域通过文本识别算法进行文本识别，以得到文字和符号的语义信息，包括：

8.一种应用于权利要求1-7任一所述的工业图纸关

9.一种电子设备，包括：

10.一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至7任意一项所述工业图纸关键符号语义识别方法的步骤。

...

【技术特征摘要】

1.一种工业图纸关键符号语义识别方法，其特征在于，包括：

2.如权利要求1所述的工业图纸关键符号语义识别方法，其特征在于，利用具有微调方法的图像编码器进行编码，得到图像嵌入向量，包括：

3.如权利要求2所述的工业图纸关键符号语义识别方法，其特征在于，根据图纸中器件图像生成边界框提示信息，包括：

5.如权利要求4所述的工业图纸关键符号语义识别方法，...

【专利技术属性】
技术研发人员：陶淇，范子铃，陈伟，赵雷，
申请(专利权)人：苏州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人