一种基于多样特征生成的零样本汉字识别方法技术

技术编号：42153343 阅读：19 留言：0更新日期：2024-07-27 00:06

本发明专利技术提出一种基于多样特征生成的零样本汉字识别方法，解析汉字的部首组成获取表意描述序列；对表意描述序列进行混合语义嵌入获得多语义向量；对已见类汉字图像进行特征提取获取真实特征；构建特征生成网络学习多语义向量到真实特征的映射；通过已见类训练集进行训练后通过多种未见类语义向量生成未见类特征；利用未见类特征结合已见类训练集的特征共同训练识别模型使其具备识别已见类和未见类汉字能力。本发明专利技术通过混合语义嵌入提供多种语义来生成训练样本，有助于缓解合成特征的域迁移问题和特征混淆问题，提高特征生成的泛化能力和鲁棒性；通过为识别模型提供高质量的未见类特征，缓解零样本汉字识别的偏倚问题，提高了未见汉字的识别能力。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机视觉与模式识别，尤其是一种基于多样特征生成的零样本汉字识别方法。

技术介绍

1、汉字识别由于深度学习的发展而取得了许多重要进展。然而，现实情况下，我们经常需要应对许多不常见的汉字，想要全部收集和标注它们几乎不可能。例如手写数据集hwdb1.0-1.1，尽管该数据集收集了超过两百万个已标注数据，但也仅涵盖了3866类常用符号和汉字，不到中国国家标准gb18030-2000中的两成。于是，越来越多的研究开始关注零样本汉字识别，例如开放集的文本识别和历史文档识别等，试图通过零样本学习探索出一种更加鲁棒的模式识别方法。

2、零样本汉字识别通常采用汉字的部首或笔画作为可见汉字类和未见汉字类之间的中间表示。这些方法通过将输入图像编码解码为笔画或部首表示来匹配目标汉字。由于笔画和部首是汉字之间的共享属性，这些方法可以从可见汉字类中学习中间表示的知识，使它们能够识别未见汉字类。尽管最近的零样本汉字识别方法取得了重大进展，但性能仍远未达到实际应用的需要。大多数现有方法的一个主要问题是当前方法的识别性能很大程度上依赖于部首或笔画的预测，这种预测不可靠且容易出错，这会恶化后续的匹配或识别的性能。同时，一些开放问题，例如，训练数据不平衡，偏旁部首的零样本问题等，也需要进一步研究。

技术实现思路

1、本专利技术提出一种基于多样特征生成的零样本汉字识别方法，规避了对部首或笔画预测的依赖，从而增强了识别的容错能力和鲁棒性。另一方面，为了提高生成特征的多样性，我们设计了一种混合语义

2、本专利技术采用以下技术方案：一种基于多样特征生成的零样本汉字识别方法，旨在利用汉字部首的语义嵌入信息来生成多样化的未见类训练样本，用于零样本汉字识别任务，包括以下步骤；

3、步骤s1、通过把每个汉字的部首和结构表示成树状结构，对树状结构进行先序遍历获取汉字的表意描述序列（ids），表示为，y表示对应汉字类别标签；其中，表意描述序列根据是否对应有已见类汉字图像分为已见类表意描述序列和未见类表意描述序列；

4、步骤s2、将每个汉字的表意描述序列从层次分解、部首自信息、词向量三个方向进行嵌入获得对应三种语义向量,和；

5、步骤s3、已见类汉字图像经过densenet169网络编码为特征图,其中，和分别代表特征图的高、宽和通道数，然后将其展平得到一个维的真实特征，并由所有已见类汉字图像的真实特征构成真实样本；

6、步骤s4、分别为汉字的三种语义向量,和分配一个特征生成网络fgn，来学习每一语义向量到真实特征的映射；

7、步骤s5、利用已见类样本训练特征生成网络fgn，使得fgn生成特征逐渐接近真实特征的分布，所述已见类样本包括所有已见类汉字图像的真实特征,以及对应的所有已见类表意描述序列的三种语义向量,和；

8、步骤s6、通过训练好的三个特征网络fgn，利用每一未见类表意描述序列嵌入得到的三种语义向量来生成未见类训练特征样本、和，获得所有未见类表意描述序列的未见类训练特征样本、和作为生成样本集；

9、步骤s7、利用生成样本集及其对应汉字类别标签、和真实样本及其对应汉字类别标签一起训练识别模型，用以使识别模型识别未见过的汉字类别；

10、步骤s8、将待识别图像经过densenet169网络进行特征提取后输入训练好的识别模型并获得结果。

11、进一步的，在步骤s1中，将汉字分解为偏旁部首和结构序列表示，以用作已见类汉字和未见类汉字之间的共同信息。

12、进一步的，所述步骤s2中，层次分解嵌入将汉字部首树状结构分解为对节点表示，给定一个长度为的节点-路径，其中，表示节点之间连接的路径，其影响值可以由以下公式计算得到为：

13、（1）

14、其中，表示节点-路径长度增加时逐渐衰减的影响系数，随着路径长度的增加取1，0.5，0.1，0.005，0.001等以此类推，表示第个路径的影响系数，表示第个路径的影响系数，表示第个路径所对应的父节点中子节点之间的影响值；将其部首树中所有节点或节点-路径对分为两组；一组是代表部首的叶子节点集合，表示为，另一组是代表组成结构的父节点集合，表示为；最后，层次嵌入向量表示为：

15、（2）

16、其中，和分别表示ids中的部首和结构，是平衡叶子节点和父节点的超参数，表示部首节点的影响值，表示结构节点的影响值，通过公式（1）计算得到；

17、所述步骤s2中，部首自信息嵌入从信息论的角度测量每个部首的关键价值；然后为每个部首和结构分配一个索引并获取其one-hot编码，通过加权编码得到部首自信息嵌入向量：

18、（3）

19、其中，表示由个部首与结构组成的ids描述序列，表示经过one-hot编码的对应部首或结构，是部首或结构的概率分布，通过统计ids字典得到；

20、所述步骤s2中，词向量嵌入将整个ids字典作为语料训练一个word2vec模型，得到所有部首和结构的词嵌入向量；取ids序列的平均词嵌入作为每个类别的嵌入表示：

21、（4）

22、其中，表示部首或结构的word2vec词嵌入，l表示ids的长度。

23、进一步的，所述步骤s3中，编码网络densenet169首先通过一个卷积层获得特征图，再通过relu激活函数进行非线性转换；然后通过一系列密集块逐渐增加特征的维度和复杂度获得图像的高级抽象特征，去除最后的分类层，取平均池化后展平的特征向量作为真实特征提供特征生成网络学习。

24、进一步的，所述步骤s4中，特征生成网络fgn输入维度对齐对应语义向量，特征生成网络fgn包括一个特征生成vae和一个特征生成wgan，记为f-vae和f-wgan；f-vae由一个编码器组成；f-wgan由一个生成器和一个判别器组成，其中判别器既可判别真实特征，也可以判别生成特征；所述f-vae将利用f-wgan中的生成器来辅助训练f-vae；所述编码器将输入的经过densenet169提取的汉字图像真实特征编码成隐藏态，然后通过以真实特征为模板将进行重构获得生成特征。

25、进一步的，在步骤4中，所述f-vae通过一个vae损失函数优化，以使编码器更好的解析汉字图像特征并获取更具表征能力的隐藏态向量表示，

26、（5）

27、其中，是kl散度，用来衡量编码器输出的潜在空间分布与先验分布之间的差异，表示为，表示将真实特征和某一语义向量作为编码器的输入并输出隐藏态，其中用于表示或或表示的是在给定的语义向量下隐藏态的先验分布；是用于计算真实特征重建损失的二元交叉熵，对编码器输出的隐藏态进行采样的期望值，代表相对于编码器的期望，其中表示将隐藏态和语义向量作为生成器的输入，所述生成器的输出即为本文档来自技高网...

【技术保护点】

1.一种基于多样特征生成的零样本汉字识别方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤S1中，将汉字分解为偏旁部首和结构序列表示，以用作已见类汉字和未见类汉字之间的共同信息。

3.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤S2中，层次分解嵌入将汉字部首树状结构分解为对节点表示，给定一个长度为的节点-路径，其中，表示节点之间连接的路径，其影响值可以由以下公式计算得到为：

4.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤S3中，编码网络DenseNet169首先通过一个卷积层获得特征图，再通过ReLU激活函数进行非线性转换；然后通过一系列密集块逐渐增加特征的维度和复杂度获得图像的高级抽象特征，去除最后的分类层，取平均池化后展平的特征向量作为真实特征提供特征生成网络学习。

5.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤S4中，特征生成网络FGN输入维

6.根据权利要求5所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述f-VAE通过一个VAE损失函数优化，以使编码器更好的解析汉字图像特征并获取更具表征能力的隐藏态向量表示，

7.根据权利要求6所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：引入Wasserstein GAN损失来约束生成器，以使生成器正确的将语义向量重构回真实特征：

8.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤S6中，已知每一未见汉字的表意描述序列IDS，获得其三种语义向量，即、、；所述三种语义向量分别结合随机高斯噪声后分别输入对应的训练好的特征生成网络FGN中，三个特征生成网络FGN根据语义嵌入向量生成对应的未见类训练特征样本、和；重复上述特征生成过程，遍历每一个未见类汉字的IDS得到一个混合了三种语义的生成样本集。

9.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：步骤S7中的所述识别模型通过最小负对数似然损失优化：

10.根据权利要求9所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤S8中训练好的识别模型的识别函数为：

...

【技术特征摘要】

1.一种基于多样特征生成的零样本汉字识别方法，其特征在于：包括以下步骤；

2.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤s1中，将汉字分解为偏旁部首和结构序列表示，以用作已见类汉字和未见类汉字之间的共同信息。

3.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤s2中，层次分解嵌入将汉字部首树状结构分解为对节点表示，给定一个长度为的节点-路径，其中，表示节点之间连接的路径，其影响值可以由以下公式计算得到为：

4.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤s3中，编码网络densenet169首先通过一个卷积层获得特征图，再通过relu激活函数进行非线性转换；然后通过一系列密集块逐渐增加特征的维度和复杂度获得图像的高级抽象特征，去除最后的分类层，取平均池化后展平的特征向量作为真实特征提供特征生成网络学习。

5.根据权利要求1所述的一种基于多样特征生成的零样本汉字识别方法，其特征在于：所述步骤s4中，特征生成网络fgn输入维度对齐对应语义向量，特征生成网络fgn包括一个特征生成vae和一个特征生成wgan，记为f-vae和f-wgan；f-vae由一个编码器组成；f-wgan由一个生成器和一个判别器组成，其中判别器既可判别真实特征，也可以判别生成特征；所述f-vae将利用f-w...

【专利技术属性】
技术研发人员：王大寒，潘松良，何一凡，张煦尧，李晓辉，朱顺痣，
申请(专利权)人：厦门理工学院，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人