基于深度主动学习策略的中文古籍实体抽取方法技术

技术编号：44866511 阅读：14 留言：0更新日期：2025-04-08 00:09

本发明专利技术提供一种基于深度主动学习策略的中文古籍实体抽取方法，涉及自然语言处理领域。本发明专利技术中，将主动学习策略与基于深度神经网络的实体抽取模型进行模型整合，既能够充分发挥深度网络学习器的模型拟合能力，而且充分利用改进的主动学习策略进一步缓解标注数据不足以及专家标注成本较高的问题。同时，采用融合不确定性、最小边界性和多空间特征表征性的查询策略进行数据池选择，有效提升了学习效率。进一步的，对于实体抽取网络模型，设计一个双编码器结构，将基于预训练学习的全局编码器与基于字符级嵌入的局部编码器进行整合，获取句子的融合语义表示，以全面捕捉句子更加全面的上下文语义知识，从而提升基于深度神经网络实体抽取模型的性能。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域，具体涉及一种基于深度主动学习策略的中文古籍实体抽取方法。

技术介绍

1、实体抽取技术在自然语言处理与人工智能领域方面具有重要研究价值与应用前景。随着机器学习尤其是深度学习技术的发展，基于机器学习方法的实体抽取技术被广泛用于各类基础学科和实际应用中，如各类人文社科数据库、资料库项目的建设和数字人文研究等。着力加快面向中文古籍资源的数字化建设在学术创新与社会发展方面具有重要的双重价值。

2、作为古籍数字化资源建设的关键方法之一，中文古籍文本的实体抽取技术是将中文古籍善本中具有明确实体对象进行自动化抽取的有效方法，其中实体类型包括人名、地名、机构名以及其他可定义的实体类型如官职、书名等。然而这类技术方案在研究与实施中面临巨大挑战，这主要包括2个方面的限制：（1）当前大部分古籍实体抽取方法一般采用基于传统规则匹配方法或者基于特征模板的机器识别模型（如条件随机场crf模型）等，这类方法实体识别准确率较低，且依赖于大量先验的人工领域知识，因而模型不易于推广到其他相关历史领域中去；（2）基于机器学习方法（特别是深度学习）的古籍实体抽取模型虽然效率较高，但是需要大量标准的训练样本。古籍属于典型的少资源领域，而古籍文言文标注的成本（标注难度和时间成本）难度显著高于现代汉语的语料标注，且不同标注者的专业水平将直接影响训练数据的质量，因此直接使用深度学习来构建实体抽取模型可能存在因“语料不足”而产生的性能瓶颈。

3、然而，在上述方法中，部分模型目前只在基于传统机器分类模型（如条件随机场crf模型

技术实现思路

1、（一）解决的技术问题

2、针对现有技术的不足，本专利技术提供了一种基于深度主动学习策略的中文古籍实体抽取方法，解决了现有模型方法无法较好地适用于中文古籍实体抽取任务的技术问题。

3、（二）技术方案

4、为实现以上目的，本专利技术通过以下技术方案予以实现：

5、一种基于深度主动学习策略的中文古籍实体抽取方法，包括：

6、获取原始的古籍文本资源，选出一部分文本进行实体标注，获取标注数据集，并将其他未标注的文本作为未标注数据集；其中未标记文本的数量大于标记文本；

7、配置模型运行和计算的超参数，并基于初始的未标注数据集，对预先构建的基于深度神经网络的实体抽取网络模型进行训练、预测与性能评估，获取初始评估分数；

8、若当前评估分数超过达标阈值或者迭代次数达到最大迭代次数，则输出最终的实体抽取网络模型，否则反复执行以下主动学习查询策略，包括：

9、对当前未标记数据集进行池抽样，利用当前实体抽取网络模型，采用融合不确定性和最小边界性的查询策略，预测相应的复合分数；

10、基于所述复合分数，采用多空间特征表征性的查询策略，从当前未标记数据集中选择一批具有信息价值的未标记文本，并作为查询样本池；

11、接受专家对所述查询样本池的人工标注，获取标注后的查询样本池；

12、将所述标注后的查询样本池加入当前标记数据集，并从当前未标记数据集中剔除；

13、将当前标记数据集对当前实体抽取网络模型进行训练、预测与性能评估，获取更新后的模型以及评估分数，以用于下一次迭代过程。

14、优选的，所述实体抽取网络模型采用双编码器-解码器的深度神经序列标注网络，包括用于实体序列标注的主学习通道和句子表征的类学习通道；

15、所述配置模型运行和计算的超参数，并基于初始的未标注数据集，对预先构建的基于深度神经网络的实体抽取网络模型进行训练、预测与性能评估，获取初始评估分数，包括：

16、对于主学习通道：

17、采用基于预训练学习的全局编码器，对输入的未标记文本进行句子嵌入编码，获取全局向量表示；

18、采用基于字符级嵌入的局部编码器，对输入的未标记文本进行字符级上下文相关词嵌入，并进行平滑优化，获取局部向量表示；

19、拼接所述全局向量表示和局部向量表示并进行多层编码映射，获取最终语义表示；

20、对于类学习通道：

21、引入并随机赋值一个聚类隐变量，以增强句子编码特征的内聚性；

22、基于所述最终语义表示定义主体通道损失函数，基于所述聚类隐变量和最终语义表示定义类别通道损失函数；基于所述主体通道损失函数和类别通道损失函数，构建模型的混合损失函数；

23、在配置模型运行和计算的超参数后，采用小批量梯度下降方法求解所述混合损失函数，以对模型进行训练、预测与性能评估，获取初始实体抽取网络模型、初始聚类隐变量和初始评估分数。

24、优选的，假设输入的文本为 x，标注结果 y，其中 x采用基于汉字字符的嵌入式表征且满足， y采用0-1的独热表征，句子补全长度为 l，表征维度为 d；

25、采用基于bert模型的全局编码器进行句子嵌入编码，并输出第一个[cls]位置的全局向量表示 gx；

26、采用基于glove模型的局部编码器进行字符级上下文相关词嵌入，并通过加权句子向量表示模型wr算法进行平滑优化，获取局部向量表示 lx，表示为：

27、

28、其中，表示基于glove模型的句子表征；为 ex的第一主向量上投影；

29、表示每个汉字字符 xs的单元模型unigram的概率；

30、 α表示固定标量，用于平滑单个汉字的频率大小且 α(0,1)，以使得较小的权重下偏向于词频较大的汉字字符；

31、拼接并进行多层编码映射获取的所述最终语义表示，如下所示：

32、

33、其中， h表示多层编码器的堆叠，concat表示拼接操作。

34、优选的，所述混合损失函数表示为：

35、

36、其中，表示混合损失函本文档来自技高网...

【技术保护点】

1.一种基于深度主动学习策略的中文古籍实体抽取方法，其特征在于，包括：

2.如权利要求1所述的中文古籍实体抽取方法，其特征在于，所述实体抽取网络模型采用双编码器-解码器的深度神经序列标注网络，包括用于实体序列标注的主学习通道和句子表征的类学习通道；

3.如权利要求2所述的中文古籍实体抽取方法，其特征在于，

4.如权利要求3所述的中文古籍实体抽取方法，其特征在于，所述混合损失函数表示为：

5.如权利要求2所述的中文古籍实体抽取方法，其特征在于，所述对当前未标记数据集进行池抽样，利用当前实体抽取网络模型，采用融合不确定性和最小边界性的查询策略，预测相应的复合分数，包括：

6.如权利要求5所述的中文古籍实体抽取方法，其特征在于，所述基于所述复合分数，采用多空间特征表征性的查询策略，从当前未标记数据集中选择一批具有信息价值的未标记文本，并作为查询样本池，包括：

7.一种基于深度主动学习策略的中文古籍实体抽取系统，其特征在于，包括：

8.一种存储介质，其特征在于，其存储有用于基于深度主动学习策略的中文古籍实

9.一种电子设备，其特征在于，包括：

...

【技术特征摘要】

1.一种基于深度主动学习策略的中文古籍实体抽取方法，其特征在于，包括：

3.如权利要求2所述的中文古籍实体抽取方法，其特征在于，

4.如权利要求3所述的中文古籍实体抽取方法，其特征在于，所述混合损失函数表示为：

5.如权利要求2所述的中文古籍实体抽取方法，其特征在于，所述对当前未标记数据集进行池抽样，利用当前实体抽取网络模型，采用融合不确定性和最...

【专利技术属性】
技术研发人员：严承希，
申请(专利权)人：中国人民大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人