基于依赖注意力图卷积的政务数据自动标注方法及系统技术方案

技术编号：42727661 阅读：20 留言：0更新日期：2024-09-13 12:12

本公开提供了基于依赖注意力图卷积的政务数据自动标注方法及系统，涉及数据标注技术领域，获取政务服务的语料数据，并对所述语料数据预处理；提取预处理后的语料数据中的政务词汇，计算每个政务词汇在该条语料中的重要性，获取每条语料中每个政务词汇的政务加权TF‑IDF特征值；提取每条语料数据的词性特征、词形特征、拼音特征以及依赖特征，利用注意力机制将所述政务加权TF‑IDF特征值、词性特征、词形特征、拼音特征以及依赖特征进行特征融合，得到节点特征；输入节点特征，输出政务语料的分类结果；预设评估指标，对分类结果的每类数据进行评价，并根据评价结果实现政务语料数据的自动标注。

全部详细技术资料下载

【技术实现步骤摘要】

本公开涉及数据标注，具体涉及基于依赖注意力图卷积的政务数据自动标注方法及系统。

技术介绍

1、本部分的陈述仅仅是提供了与本公开相关的
技术介绍
信息，不必然构成在先技术。

2、随着大数据、人工智能技术的飞速发展，如何管理和利用政务数据成为数字化转型和提升政务服务质量效率的关键。传统的数据标注方法往往依赖大量的人工操作，不仅耗时费力，而且在面对复杂多变的政务数据时，难以保证数据的一致性和准确性，所以现在针对政务数据的标注大多已采用系统化、自动化的智能方法。

3、现有的智能标注方法有人工标注、半自动化标注，大多是通过算法、语义分割、关键点标注等方法，通过使用机器学习辅助标注、自然语言处理技术、自动化规则引擎等对数据进行初步标注，再由人工进行审核和校正。但是这些方法具有较强的数据依赖性，仅使用数据表层特征进行标注，忽略了数据之间的关联及其潜在特征（例如词性、词形等特征），且缺乏复杂语境理解能力、容错机制欠缺，无法对不符合规则的数据或异常情况进行有效处理。另外，在政务数据领域，数据标注、人工抽检等预处理环节目前还不能完全实现智能化，成本高、效率低、质量差，往往不能满足政务大模型预训练所需要的数据规模、数据质量等多方面要求。

技术实现思路

1、本公开为了解决上述问题，提出了基于依赖注意力图卷积的政务数据自动标注方法及系统，根据政务语料的词频、词性、词根和依赖句法属性，设计一种特征表示结构，基于注意力挖掘语料中的政务依赖，使得图卷积网络生成具有政务特征的节点特征，能够构建政务服务领域高质量数据集。

2、根据一些实施例，本公开采用如下技术方案：

3、基于依赖注意力图卷积的政务数据自动标注方法，包括：

4、获取政务服务的语料数据，并对所述语料数据预处理；

5、提取预处理后的语料数据中的政务词汇，计算每个政务词汇在该条语料中的重要性，获取每条语料中每个政务词汇的政务加权tf-idf特征值，并构建政务加权tf-idf特征矩阵；

6、提取每条语料数据的词性特征、词形特征、拼音特征以及依赖特征，利用注意力机制将所述政务加权tf-idf特征值、词性特征、词形特征、拼音特征以及依赖特征进行特征融合，得到节点特征；

7、将每条语料数据的依赖矩阵作为图卷积网络各节点的邻接矩阵，输入节点特征，输出政务语料的分类结果；

8、预设评估指标，对分类结果的每类数据进行评价，并根据评价结果实现政务语料数据的自动标注。

9、根据一些实施例，本公开采用如下技术方案：

10、基于依赖注意力图卷积的政务数据自动标注系统，包括：

11、数据获取模块，用于获取政务服务的语料数据，并对所述语料数据预处理；

12、特征提取模块，用于提取预处理后的语料数据中的政务词汇，计算每个政务词汇在该条语料中的重要性，获取每条语料中每个政务词汇的政务加权tf-idf特征值，并构建政务加权tf-idf特征矩阵；提取每条语料数据的词性特征、词形特征、拼音特征以及依赖特征；

13、特征融合模块，用于利用注意力机制将所述政务加权tf-idf特征值、词性特征、词形特征、拼音特征以及依赖特征进行特征融合，得到节点特征；

14、语料分类模块，用于将每条语料数据的依赖矩阵作为图卷积网络各节点的邻接矩阵，输入节点特征，输出政务语料的分类结果；

15、评估标注模块，用于预设评估指标，对分类结果的每类数据进行评价，并根据评价结果实现政务语料数据的自动标注。

16、与现有技术相比，本公开的有益效果为：

17、本公开的基于依赖注意力图卷积的政务数据自动标注方法，计算每个政务词汇在该条语料中的重要性，获取每条语料中每个政务词汇的政务加权tf-idf特征值，并构建政务加权tf-idf特征矩阵，该矩阵能够有效捕捉政务数据的主题分布及其显著性，反映了政务词汇在特定语境下的重要性。

18、本公开的基于依赖注意力图卷积的政务数据自动标注方法，提取每条语料数据的词性特征、词形特征、拼音特征以及依赖特征，揭示了政务词汇独特的语法功能、形态变化、发音信息及句法关系，从不同维度全面描述政务数据的特性，为后续标注任务提供丰富的信息特征。

19、本公开的基于依赖注意力图卷积的政务数据自动标注方法，利用注意力机制将所述政务加权tf-idf特征值、词性特征、词形特征、拼音特征以及依赖特征进行特征融合得到节点特征，增强标注模型的鲁棒性，减少因单一特征不足而导致标注错误问题。

20、本公开的基于依赖注意力图卷积的政务数据自动标注方法，预设评估指标，对分类结果的每类数据进行评价，并根据评价结果实现政务语料数据的自动标注。能够通过对模型结果评价，不断优化模型标注策略和特征提取灵敏度，提高自动标注的准确性和效率，提升政务数据自动标注质量，使其在不同场景下都能保持稳定高效的标注性能。

本文档来自技高网...

【技术保护点】

1.基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，包括：

2.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，获取政务服务的语料数据，并对所述语料数据预处理，包括：

3.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，提取预处理后的语料数据中的政务词汇，计算每个政务词汇在该条语料中的重要性，包括：

4.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，构建政务加权TF-IDF特征矩阵，包括：

5.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，提取每条语料数据的词性特征，包括：

6.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，提取每条语料数据的词形特征，包括：

7.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，提取每条语料数据的拼音特征，包括：

8.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，提取每条语料数据的依赖特征，包括：

9.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，利用注意力机制将所述政务加权TF-IDF特征值、词性特征、词形特征、拼音特征以及依赖特征进行特征融合，得到节点特征，包括：

10.基于依赖注意力图卷积的政务数据自动标注系统，其特征在于，包括：

...

【技术特征摘要】

1.基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，包括：

2.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，获取政务服务的语料数据，并对所述语料数据预处理，包括：

4.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，构建政务加权tf-idf特征矩阵，包括：

5.如权利要求1所述的基于依赖注意力图卷积的政务数据自动标注方法，其特征在于，提取每条语料数据的词性特征，包括：

6...

【专利技术属性】
技术研发人员：任梦林，邹丰义，王雅坤，姜雯丽，郭英华，
申请(专利权)人：山东省大数据中心，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人