System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于Swin Transformer的东巴文检测方法技术_技高网
当前位置: 首页 > 专利查询>西南大学专利>正文

一种基于Swin Transformer的东巴文检测方法技术

技术编号:42539353 阅读:7 留言:0更新日期:2024-08-27 19:44
一种基于Swin Transformer东巴文检测方法,包括以下步骤:步骤一:收集东巴文字图像,建立东巴文数据集;步骤二:将东巴文字图像划分为训练集与测试集,并进行数据增强处理;步骤三:构建基于Swin Transformer东巴文检测模型;步骤四:将训练集输入步骤三中的东巴文检测模型进行训练,得到训练好的基于Swin Transformer东巴文检测模型;步骤五:将待检测的含有东巴文字的图像送入到步骤四所得到的训练好的基于Swin Transformer东巴文检测模型中,进行文本检测,输出东巴文字。

【技术实现步骤摘要】

本专利技术涉及图像处理,具体涉及一种基于swin transformer的东巴文检测方法。


技术介绍

1、东巴文,中国云南少数民族纳西族的独特文字,是目前世界上惟一存活着的体系化的图画象形文字,至今已有千余年的历史。东巴文字的起源可以追溯到公元9世纪,当时纳西族社会逐渐走向繁荣,为了记录民间传说、历史事件和宗教信仰,纳西族先民创造了这种独特的文字。东巴文寓意深刻,它以生动的图形和线条,描绘出纳西族的历史、文化和日常生活。2003年,纳西族东巴古籍文献被联合国教科文组织列为“世界记忆遗产”,这充分体现了东巴文作为文化遗产的珍贵价值。虽然东巴古籍的地位如此崇高,由于缺乏东巴古籍相关专业知识的深入了解,使得非专业人士很难准确翻译东巴古籍。因此,对东巴古籍进行数字化分析,如单个字符识别、东巴文检索,及开展机器翻译研究显得尤为关键,这不仅有助于东巴文化的传承和深入研究,还对实现东巴古籍的紧急保护工作具有至关重要的意义。在这一过程中,精确地检测东巴文字是首要步骤,因为它的准确性将直接决定识别、检索和翻译的效果,提升检测精度的是必要的。

2、东巴古籍与现代文籍差异很大。它的正文通常呈现为三行文字,每行通过水平分割线隔开,并由单个或双重垂直分割线划分为多个独立句子。东巴文字形式多样,分布极其分散。此外,一些古籍不仅包含横竖分割线,还装饰有外边框或精美图案。由于年代久远,部分古籍上出现污点。图1展示了一幅东巴古籍图像。现有的文本检测方法,如基于区域的方法、基于连通组件的方法和基于纹理的方法,在处理简单或标准文本场景时表现尚可,但面对东巴文本这样的复杂多样结构时,常常难以准确识别出文本区域。因此,迫切需要开发出一种能够适应东巴文本特点的文本检测算法。


技术实现思路

1、本专利技术针对现有技术的不足,提出一种通过算法自动检测和定位东巴古籍中的东巴文字符,旨在提高检测准确率和效率,减少人工干预和错误率的基于swin transformer的东巴文检测方法,具体技术方案如下:

2、一种基于swin transformer东巴文检测方法,包括以下步骤:

3、步骤一:收集东巴文字图像,建立东巴文数据集;

4、步骤二:将东巴文字图像划分为训练集与测试集,并进行数据增强处理;

5、步骤三:构建基于swin transformer东巴文检测模型;

6、步骤四:将训练集输入步骤三中的东巴文检测模型进行训练,得到训练好的基于swin transformer东巴文检测模型;

7、步骤五:将待检测的含有东巴文字的图像送入到步骤四所得到的训练好的基于swin transformer东巴文检测模型中,进行文本检测,输出东巴文字。

8、作为优选:所述基于swin transformer东巴文检测模型包括1个swintransformer模块,2个fpem模块,1个相加层,1个拼接层和1个后处理模块;

9、输入图像的输出段连接swin transformer模块的输入端,swin transformer模块的输出端连接第一fpem模块的输入端,第一fpem模块的输出端连接第二fpem模块的输入端,第二fpem模块的输出端连接相加模块的输入端,相加模块的输出端连接拼接层的输入端,拼接层的输出端连接可微二值化模块的输入端,可微二值化模块的输出端作为模型的输出端。

10、作为优选:所述fpem模块由6个相加层组成,swin transformer模块的输出端f2、f3、f4、c5形成fpem的输入端,输入端c5和f4形成第一个相加层的输入端,第一个相加层的输出端c4和f3连接第二个相加层的输入端,第二个相加层的输出端c3和f2连接第三个相加层的输入端,第三个相加层的输出端c2和c3连接第四个相加层的输入端,第四个相加层的输出端c3_1和c4连接第五个相加层,第五个相加层的输出端c4_1和c5连接第六个相加层的输入端,第六个相加层的输出端c5_1、c4_1、c3_1、c2作为fpem的输出端。

11、作为优选:所述第一fpem的四个输出端形成第二fpem的四个输入端,第一fpem的四个输出端和第二fpem的四个输出端形成相加层的输入端,相加层的四个输出端经过拼接层得到一个输出端。

12、作为优选:所述后处理模块由2个3×3卷积层,4个批归一化层,4个反卷积层,1个sigmoid函数,1个可微二值化操作组成;

13、拼接层的输出端形成后处理模块的输入端,输入端形成两个分支,第一个分支形成第一个3×3卷积层的输入端,第一个3×3卷积层的输出端连接第一个批归一化层的输入端,第一个批归一化层的输出端连接第一个反卷积层的输入端,第一个反卷积层的输出端连接第二个批归一化层的输入端,第二个批归一化层的输出端连接第二个反卷积层的输入端,第二个反卷积层的输出端连接sigmoid函数的输入端,sigmoid函数的输出端p连接可微二值化的输入端;第二个分支形成第二个3×3卷积层的输入端,第二个3×3卷积层的输出端连接第三个批归一化层的输入端,第三个批归一化层的输出端连接第三个反卷积层的输入端,第三个反卷积层的输出端连接第四个批归一化层的输入端,第四个批归一化层的输出端连接第四个反卷积层的输入端,第四个反卷积层的输出端t连接可微二值化的输入端,可微二值化的输出端形成后处理模块的输出端。

14、本专利技术的有益效果为:本专利技术核心在于利用swin transformer的强大能力来提取复杂的文字特征,同时结合fpem模块实现多尺度特征的有效融合,进而增强模型对东巴文的检测能力。

15、首先,swin transformer的应用使得本方法能够深入捕获东巴文的细致特征,包括但不限于其独特的形状和复杂的布局。这一点对于提高检测准确性至关重要,尤其是在背景复杂或文字形状多变的场景中。进一步地,通过引入fpem模块,本方法能够级联并融合不同尺度的特征,这样不仅保留了细节信息,也增强了模型对于不同大小文字的检测能力。这种多尺度信息的保留是理解和精准定位东巴文的关键。最后,通过一个后处理模块,本专利技术动态调整每个像素的二值化阈值,进一步提高了前景东巴文与背景的区分度。本方法构建的文本检测方法能准确地定位和检测出东巴文字。

本文档来自技高网...

【技术保护点】

1.一种基于Swin Transformer东巴文检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于Swin Transformer东巴文检测方法,其特征在于:所述基于Swin Transformer东巴文检测模型包括1个Swin Transformer模块,2个FPEM模块,1个相加层,1个拼接层和1个后处理模块;

3.根据权利要求2所述基于Swin Transformer东巴文检测方法,其特征在于:所述FPEM模块由6个相加层组成,Swin Transformer模块的输出端F2、F3、F4、C5形成FPEM模块的输入端,输入端C5和F4形成第一个相加层的输入端,第一个相加层的输出端C4和F3连接第二个相加层的输入端,第二个相加层的输出端C3和F2连接第三个相加层的输入端,第三个相加层的输出端C2和C3连接第四个相加层的输入端,第四个相加层的输出端C3_1和C4连接第五个相加层,第五个相加层的输出端C4_1和C5连接第六个相加层的输入端,第六个相加层的输出端C5_1、C4_1、C3_1、C2作为FPEM模块的输出端。

4.根据权利要求2所述基于Swin Transformer东巴文检测方法,其特征在于:所述第一FPEM模块的四个输出端形成第二FPEM模块的四个输入端,第一FPEM模块的四个输出端和第二FPEM模块的四个输出端形成相加层的输入端,相加层的四个输出端经过拼接层得到一个输出端。

5.根据权利要求2所述基于Swin Transformer东巴文检测方法,其特征在于:所述后处理模块由2个3×3卷积层,4个批归一化层,4个反卷积层,1个Sigmoid函数,1个可微二值化操作组成;

...

【技术特征摘要】

1.一种基于swin transformer东巴文检测方法,其特征在于,包括以下步骤:

2.根据权利要求1所述基于swin transformer东巴文检测方法,其特征在于:所述基于swin transformer东巴文检测模型包括1个swin transformer模块,2个fpem模块,1个相加层,1个拼接层和1个后处理模块;

3.根据权利要求2所述基于swin transformer东巴文检测方法,其特征在于:所述fpem模块由6个相加层组成,swin transformer模块的输出端f2、f3、f4、c5形成fpem模块的输入端,输入端c5和f4形成第一个相加层的输入端,第一个相加层的输出端c4和f3连接第二个相加层的输入端,第二个相加层的输出端c3和f2连接第三个相加层的输入端,第三个相加层...

【专利技术属性】
技术研发人员:马雨琪陈善雄熊海灵肖文俊袁江
申请(专利权)人:西南大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1