一种基于大数据的古籍文字识别方法及系统技术方案

技术编号：44886463 阅读：6 留言：0更新日期：2025-04-08 00:22

本发明专利技术涉及古籍文字识别技术领域，公开了一种基于大数据的古籍文字识别方法及系统，其技术方案要点是：构建古籍图像数据集；基于神经网络对数据集进行预处理；构建古籍识别模型，对预处理后的数据集进行识别；构建评估模型，计算评估参数，验证古籍识别模型的性能；通过神经网络预测数据集中是否包含现代文字或图像，以便于对古籍图像进行细致分类；再利用古籍识别模型提高古籍的识别精度和对图像多尺度变化的感知能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及古籍文字识别领域，更具体地说，它涉及一种基于大数据的古籍文字识别方法及系统。

技术介绍

1、传统的古籍数字化通常需要人工操作，而这对于技术人员的要求极高，同时古籍识别也很繁琐：需要了解历朝历代的历史、语言、文字、纸张、字体等；其次，古书的多次触摸会降低纸张的质量。

2、由此，本专利技术提供了一种基于大数据的古籍文字识别方法及系统，改善了上述技术问题。

技术实现思路

1、本公开实施例旨在针对现有技术的不足，提供一种基于大数据的古籍文字识别方法及系统，本专利技术通过神经网络预测数据集中是否包含现代文字或图像，以便于对古籍图像进行细致分类；再利用古籍识别模型提高古籍的识别精度和对图像多尺度变化的感知能力。

2、本专利技术的上述技术目的是通过以下技术方案得以实现的：一种基于大数据的古籍文字识别方法及系统，包括如下步骤：1.一种基于大数据的古籍文字识别方法，其特征在于，所述方法包括以下步骤：

3、s1、构建古籍图像数据集；

4、s2、基于神经网络对数据集进行预处理；

5、s3、构建古籍识别模型，对预处理后的数据集进行识别；

6、s4、构建评估模型，计算评估参数，验证古籍识别模型的性能。

7、作为本专利技术的一种优选技术方案，所述构建古籍图像数据集的过程为：

8、收集不同的古籍图像构成数据集，所述数据集由4类组成，分别为：经、史、子、集；其中每类有100张图像；每张图像都设置为统一尺寸

9、作为本专利技术的一种优选技术方案，基于神经网络对数据集进行预处理的过程为：通过神经网络预测数据集中是否包含现代文字或图像；神经网络包括两层：隐藏层和输出层；

10、对于隐藏层中的每个神经元j，通过对输入特征与相应权重的乘积求和来计算加权和并添加偏差项隐藏神经元的输出通过sigmoid激活函数确定；如下式：

11、

12、作为本专利技术的一种优选技术方案，隐藏层的激活用于计算输出神经元的加权和z2；

13、将隐藏层输出与权重的乘积相加，并添加偏差项然后通过sigmoid激活函数σ(z2)获得最终输出如下式：

14、

15、作为本专利技术的一种优选技术方案，构建古籍识别模型，对预处理后的数据集进行识别的过程为：

16、多分支结构表明身份块和1×1conv块被添加到3×3conv的网络骨干中，4×512、2×512、1×512特征块由spp级联；通过l层的3×3卷积，获得的样本x＝(x1，...，xn)表示为：

17、

18、其中，x(l)＝γ(l)δ(x(l))+b(l)是层l输出的特征，和分别是样本i的隐藏层l的权重和偏差；xi是第i个样本，是第i次样本的第l-1层输出；n是样本总数；ξ(·)是激活函数；对于输入到层l池的卷积特征x＝(x1，...，xn)，其输出形式表示为：

19、x(l)＝γ(l)δ(x(l))+b(l)

20、其中x(l)＝γ(l)δ(x(l))+b(l)是池化层l的权重系数，δ(·)是最大池化的函数。

21、作为本专利技术的一种优选技术方案，通过引入多分支架构和spp，将古籍识别模型分为两个阶段：卷积特征融合阶段和识别阶段；跳跃连接可以将纹理信息从底层传输到顶层，改善反向传播过程中的梯度消失问题；使用身份块和1×1卷积分支，只跳过一个卷积层与下一层连接；由于网络的通道不同，身份块分支只出现在每个卷积阶段的最后几层。

22、作为本专利技术的一种优选技术方案，级联和其后续的卷积层可以从两个独立的卷积分支重构为等效的元素求和，表示为：

23、

24、式中，w＝cat(w1，w2)，b＝b1+b2；

25、其中，ab是输入，w是滤波器核，b是偏置，cat表示沿信道维度的级联运算，表示元素求和，*表示卷积运算。

26、作为本专利技术的一种优选技术方案，构建评估模型，计算评估参数，验证古籍识别模型的性能的过程为：

27、评估参数包括：准确度、精度、召回率和f1分数；

28、准确度a是指正确预测的比例，计算公式为：

29、

30、精度p是所有预测的正样本中实际正样本的概率，计算公式为：

31、

32、召回率r是在实际的正样本中被预测为正样本的概率，计算公式为：

33、

34、分数f是精确率和召回率的加权平均值，f的值越接近1，模型效果越好，计算公式为：

35、

36、其中，tp指示实际阳性样本和模型预测为阳性；tn表示实际负样本和模型预测为负；fp表示实际负样本；fn指示实际的正样本。

37、一种基于机器学习的古籍分类系统，包括：

38、数据采集模块，用于收集并预处理古籍文本数据；

39、特征提取模块，用于从古籍文本中抽取用于分类的特征信息；

40、分类器训练模块，用于训练古籍分类模型；

41、分类结果输出模块，用于展示分类结果并接收用户反馈

42、综上所述，本专利技术具有以下有益效果：先通过神经网络预测数据集中是否包含现代文字或图像，以便于对古籍图像进行细致分类；再利用古籍识别模型通过多分支结构融合cnn的底层和高级特征，以增强网络表达能力，然后利用spp对卷积特征进行多尺度去维性，增加cnn的空间尺度不变性，提高古籍的识别精度和对图像多尺度变化的感知能力，最后通过计算评估参数，验证古籍识别模型的性能。

本文档来自技高网...

【技术保护点】

1.一种基于大数据的古籍文字识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，所述构建古籍图像数据集的过程为：

3.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，基于神经网络对数据集进行预处理的过程为：通过神经网络预测数据集中是否包含现代文字或图像；神经网络包括两层：隐藏层和输出层；

4.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，隐藏层的激活用于计算输出神经元的加权和Z2；

5.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，构建古籍识别模型，对预处理后的数据集进行识别的过程为：

6.根据权利要求5所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，通过引入多分支架构和SPP，将古籍识别模型分为两个阶段：卷积特征融合阶段和识别阶段；跳跃连接可以将纹理信息从底层传输到顶层，改善反向传播过程中的梯度消失问题；使用身份块和1×1卷积分支，只跳过一个卷积层与下一层连接；由于

7.根据权利要求5所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，级联和其后续的卷积层可以从两个独立的卷积分支重构为等效的元素求和，表示为：

8.根据权利要求5所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，构建评估模型，计算评估参数，验证古籍识别模型的性能的过程为：

9.一种基于机器学习的古籍分类系统，用于实现权利要求1-8任一项所述的基于机器学习的古籍分类方法，其特征在于，包括：

...

【技术特征摘要】

1.一种基于大数据的古籍文字识别方法，其特征在于，所述方法包括以下步骤：

2.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，所述构建古籍图像数据集的过程为：

4.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，隐藏层的激活用于计算输出神经元的加权和z2；

5.根据权利要求1所述的一种基于大数据的古籍文字识别方法及系统，其特征在于，构建古籍识别模型，对预处理后的数据集进行识别的过程为：

6.根据权利要求5所述的一种基于大数据的古籍文字识...

【专利技术属性】
技术研发人员：刘涛，黄新平，王粟，金烨，
申请(专利权)人：南京海维可信数据服务有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人