一种基于人工智能的文本标注纠正方法、装置、系统及介质制造方法及图纸

技术编号：43713162 阅读：3 留言：0更新日期：2024-12-18 21:26

本发明专利技术公开了一种基于人工智能的文本标注纠正方法、装置、系统及介质，方法包括：获取若干标注人员标注同一文本数据集的标签，并根据所述标签构建主观偏见检测模型；将各标注人员的标签向量化后输入主观偏见检测模型中，预测所述标注人员的主观偏见矩阵；通过所述标签转化成的编码矩阵减去所述主观偏向矩阵，获得纠正所述标注人员主观偏见后的标注结果。针对本发明专利技术，能够解决用于训练有监督人工智能的人工标注数据带有标注人员主观偏向性，导致训练出的人工智能模型不准确的问题，能够显著降低标注人员的主观偏向性对标注结果的干扰，标注结果更加准确、公正。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及人工智能，尤其涉及一种基于人工智能的文本标注纠正方法、装置、系统及介质。

技术介绍

1、在人工智能领域中，许多模型需要大量由人工标注完善的数据集来进行训练和验证。然而数据标注过程中的主观性和一致性问题对后续模型训练准确率具有显著影响，从而极大地影响下游任务的结果，目前保证标注人员的主观一致性是数据标注的一大难点。主观偏向性指的是不同的标注人员对于待标注数据可能存在不同的见解，这将导致标注结果出现人为的主观差异，而这种现象在分类任务的数据标注中尤为明显。

2、目前对该问题的解决方法主要分为两种：第一种是使用人工多次标注。第二种是使用人工额外标注绝对正确的数据集。但现有方法的人工成本较为昂贵，而且人工额外标注的过程也不可避免地出现新的错误标签。所以开发一种低人力成本，并且能纠正标注结果主观偏向性的方法迫在眉睫。

技术实现思路

1、鉴于上述现有技术的不足，本专利技术的目的在于提供可应用于人工智能领域或其它相关领域的一种基于人工智能的文本标注纠正方法、装置、系统及介质，其主要目的在于解决用于训练有监督人工智能的人工标注数据带有标注人员主观偏向性，导致训练出的人工智能模型不准确的问题。

2、本专利技术的技术方案如下：

3、本专利技术第一方面提供一种基于人工智能的文本标注纠正方法，包括：

4、获取若干标注人员标注同一文本数据集的标签，并根据所述标签构建主观偏见检测模型；

5、将各标注人员的标签向量化后输入主观偏见检测模型

6、通过所述标签转化成的编码矩阵减去所述主观偏向矩阵，获得纠正所述标注人员主观偏见后的标注结果。

7、在一个实施例中，所述获取若干标注人员标注同一文本数据集的标签，并根据所述标签构建主观偏见检测模型的步骤，包括：

8、获取若干标注人员标注同一文本数据集的标签，并将所述标签转化成one-hot编码矩阵作为第一检测结果；

9、对所述第一检测结果中所有标注人员的标注结果求平均值，获得第一无偏见标签矩阵，并作为第二检测结果；

10、将所述第一检测结果中所有标注人员的标注结果与所述第二检测结果相比，获得各标注人员的主观偏向性矩阵，并作为第三检测结果；

11、对所述第三检测结果加权平均计算，获得第二无偏见标签矩阵作为第四检测结果；

12、将所述第一检测结果与所述第二无偏见标签矩阵相比，获得第二主观偏向性矩阵作为第五检测结果；

13、将所述第五检测结果输入卷积神经网络中构建所述主观偏见检测模型。

14、在一个实施例中，所述获取若干标注人员标注同一文本数据集的标签，并将所述标签转化成one-hot编码矩阵作为第一检测结果的步骤包括：

15、根据同一文本数据集的标签确定标签类别，为每个类别分配编码；

16、对于每个标注的文本数据，将其标注的标签对应的编码在向量中设为1，其余位置设为0，形成one-hot编码的向量；

17、将one-hot编码的各向量组合为one-hot编码矩阵作为第一检测结果。

18、在一个实施例中，所述对所述第一检测结果中所有标注人员的标注结果求平均值，获得第一无偏见标签矩阵，并作为第二检测结果的步骤包括：

19、对所有标注人员标注结果在one-hot编码矩阵的对应位置上求平均值，获得每个类别在所有标注人员中的平均认同度；

20、根据所述平均认同度生成第一无偏见标签矩阵作为第二检测结果。

21、在一个实施例中，所述将所述第一检测结果中所有标注人员的标注结果与所述第二检测结果相比，获得各标注人员的主观偏向性矩阵，并作为第三检测结果的步骤，包括：

22、对各标注人员的标注结果与第一无偏见标签矩阵进行比较，计算每个文本数据上标注结果与无偏见标签的差异；

23、将差异累积并归一化处理，获得各标注人员的主观偏向性矩阵作为第三检测结果。

24、在一个实施例中，所述对所述第三检测结果加权平均计算，获得第二无偏见标签矩阵作为第四检测结果的步骤，包括：

25、将所述第一检测结果中的所有标注人员的结果与所述主观偏向性矩阵相比，获得每个标注人员的初步无偏见标签矩阵；

26、将所述初步无偏见标签矩阵与第一无偏见标签矩阵比较差值，将所有标注人员的初步无偏见标签矩阵按权重加权，获得第二无偏见标签矩阵，；其中差值的绝对值越大的所述标注人员，被赋予的权重就越小。

27、在一个实施例中，所述通过所述标签转化成的编码矩阵减去所述主观偏向矩阵，获得纠正所述标注人员主观偏见后的标注结果的步骤，包括：

28、将标注人员实际标注结果的one-hot编码矩阵减去所述主观偏见矩阵，获得检测模型预测结果矩阵；

29、对每个文本数据的标签，选择检测模型预测结果矩阵中的最大值对应的类别作为最终标注结果。

30、本专利技术第二方面提供一种基于人工智能的文本标注纠正装置，包括：

31、获取模块，用于获取多个标注人员标注的标签；

32、输入模块，用于将所述标签向量化后输入主观偏见模型中，得到所述标注人员的主观偏见矩阵；

33、处理模块，用于通过所述标签转化成的矩阵减去所述主观偏向矩阵，得到纠正所述标注人员主观偏见后的标注结果；

34、本专利技术第三方面提供一种基于人工智能的文本标注纠正系统，所述系统包括至少一个处理器；以及，

35、与所述至少一个处理器通信连接的存储器；其中，

36、所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行上述基于人工智能的文本标注纠正方法。

37、本专利技术第四方面提供一种非易失性计算机可读存储介质，所述非易失性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行上述的基于人工智能的文本标注纠正方法。

38、有益效果：本专利技术公开了一种基于人工智能的文本标注纠正方法、装置、系统及介质，相比于现有技术，本专利技术实施例通过获取若干标注人员标注同一文本数据集的标签，并根据所述标签构建主观偏见检测模型；将各标注人员的标签向量化后输入主观偏见检测模型中，预测所述标注人员的主观偏见矩阵；通过所述标签转化成的编码矩阵减去所述主观偏向矩阵，获得纠正所述标注人员主观偏见后的标注结果。针对本专利技术，无需通过人工多次标注，即能够解决用于训练有监督人工智能的人工标注数据带有标注人员主观偏向性，导致训练出的人工智能模型不准确的问题，能够显著降低标注人员的主观偏向性对标注结果的干扰，标注结果更加准确、公正，对后续模型训练准确率的提高具有极为重要作用，还能显著降低打标人力资源，标注人员只需要共同标注少量数据即可，无需重复标注大量数据，极大地降低了人力成本，能够提高生产效率本文档来自技高网...

【技术保护点】

1.一种基于人工智能的文本标注纠正方法，其特征在于，包括：

2.根据权利要求1所述的基于人工智能的文本标注纠正方法，其特征在于，所述获取若干标注人员标注同一文本数据集的标签，并根据所述标签构建主观偏见检测模型的步骤，包括：

3.根据权利要求2所述的基于人工智能的文本标注纠正方法，其特征在于，所述获取若干标注人员标注同一文本数据集的标签，并将所述标签转化成one-hot编码矩阵作为第一检测结果的步骤包括：

4.根据权利要求2所述的基于人工智能的文本标注纠正方法，其特征在于，所述对所述第一检测结果中所有标注人员的标注结果求平均值，获得第一无偏见标签矩阵，并作为第二检测结果的步骤包括：

5.根据权利要求2所述的基于人工智能的文本标注纠正方法，其特征在于，所述将所述第一检测结果中所有标注人员的标注结果与所述第二检测结果相比，获得各标注人员的主观偏向性矩阵，并作为第三检测结果的步骤，包括：

6.根据权利要求2所述的基于人工智能的文本标注纠正方法，其特征在于，所述对所述第三检测结果加权平均计算，获得第二无偏见标签矩阵作为第四检测结果的步骤，包括：

7.根据权利要求1所述的基于人工智能的文本标注纠正方法，其特征在于，所述通过所述标签转化成的编码矩阵减去所述主观偏向矩阵，获得纠正所述标注人员主观偏见后的标注结果的步骤，包括：

8.一种基于人工智能的文本标注纠正装置，其特征在于，包括：

9.一种基于人工智能的文本标注纠正系统，其特征在于，所述系统包括至少一个处理器；以及，

10.一种非易失性计算机可读存储介质，其特征在于，所述非易失性计算机可读存储介质存储有计算机可执行指令，所述计算机可执行指令被一个或多个处理器执行时，可使得所述一个或多个处理器执行权利要求1-7任一项所述的基于人工智能的文本标注纠正方法。

...

【技术特征摘要】

1.一种基于人工智能的文本标注纠正方法，其特征在于，包括：

5.根据权利要求2所述的基于人工智能的文本标注纠正方法，其特征在于，所述将所述第一检测结果中所有标注人员的标注结果与所述第二检测结果相比，获得各标注人员的主观偏向性矩阵，并作为...

【专利技术属性】
技术研发人员：刘纹石，于金阁，
申请(专利权)人：中国平安财产保险股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人