System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种政务工单主体识别方法、装置及系统制造方法及图纸_技高网

一种政务工单主体识别方法、装置及系统制造方法及图纸

技术编号:40520687 阅读:23 留言:0更新日期:2024-03-01 13:38
本发明专利技术涉及一种政务工单主体识别方法、装置、系统及计算机可读存储介质,通过将待识别政务工单输入到分类模型中,输出带有标签的工单数据,该标签用于标记所述待识别政务工单的主体信息。分类模型为预先建立,预先建立的步骤包括:基于政务工单数据集对神经网络模型进行预训练,生成预训练模型;利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型。本申请通过自动生成待标签的工单数据,避免了人工标注数据的繁琐和耗时。同时,通过采用零样本或少样本学习方式,可以有效解决现有技术在政务工单处理领域中标注语料少、涉及到隐私数据等问题,提高了识别的准确性和效率。

【技术实现步骤摘要】

本专利技术人工智能,尤其涉及一种政务工单主体识别方法、装置、系统以及计算机可读存储介质。


技术介绍

1、自然语言理解技术已经被广泛应用于各个领域,其中解决特定领域的问题是一个重要的应用场景。目前常用的方法为使用自编码/自回归模型在通用语料上进行预训练,再在特定任务上,使用领域数据和特定任务的标注语料进行微调,最后使用微调后的模型解决特定领域问题。但是由于特定领域数据获取困难且涉及隐私问题,该方法存在一定的局限性。

2、为了解决标注数据获取困难的问题,已有的一些方法提出了使用远程监督的方法生成特定领域语料,以辅助模型微调。这种方法利用已有的知识和规则,对非结构化数据进行自动标注,生成大规模训练数据集来训练模型。然而,这种方法生成的标注数据往往存在噪声和错误,影响了数据的质量和可用性。


技术实现思路

1、鉴于以上现有技术的不足,专利技术的目的在于提供一种政务工单主体识别方法、装置、系统及计算机可读存储介质,旨在解决由特定领域内标注语料不足和隐私数据保护等因素所导致的自然语言理解任务难题。

2、本申请提供了一种政务工单主体识别方法,将待识别政务工单输入到分类模型中,输出带有标签的工单数据,所述标签用于标记所述待识别政务工单的主体信息;

3、所述分类模型为预先建立,预先建立所述分类模型的步骤包括:

4、基于政务工单数据集对神经网络模型进行预训练,生成预训练模型;

5、利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型;

6、其中,所述复合标注语料包括采用多种方式生成的标注语料,所述标注语料中的至少一种包括通过零样本机器学习和/或少样本机器学习,构建学习提示词,引导模型抽取出政务工单中的主体信息,从而生成的标注语料。

7、可选地,所述复合标注语料的生成过程包括:

8、构造零样本学习提示词,引导模型抽取出政务工单中的主体信息,生成第一标注语料;

9、基于政务工单中已有的结构化信息,利用远程监督方法生成初始语料,基于模型对所述初始语料进行判别,生成第二标注语料;

10、基于所述第一标注语料以及所述第二标注语料,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,生成第三标注语料;

11、将所述第一标注语料、所述第二标注语料以及所述第三标注语料作为所述复合标注语料。

12、可选地,所述第三标注语料的生成还包括:

13、对所述第一标注语料、所述第二标注语料以及所述第三标注语料进行采样,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,将新生成的标注语料补充入所述第三标注语料。

14、可选地,所述第三标注语料的生成还包括:重复执行对所述第一标注语料、所述第二标注语料以及所述第三标注语料进行采样,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,将新生成的标注语料补充入所述第三标注语料的步骤,直到生成的标注语料的数量达到预设阈值。

15、可选地,所述利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型包括:

16、针对政务工单数据进行主体识别的任务,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成微调的预训练模型;

17、利用所述复合标注语料,基于序列标注任务和文本问答任务对所述微调的预训练模型进行有监督的训练,生成所述分类模型。

18、另一方面,本申请还提供了一种政务工单主体识别装置,包括:

19、分类模块,被配置为将待识别政务工单输入到分类模型中,输出带有标签的工单数据,所述标签用于标记所述待识别政务工单的主体信息;

20、分类模型建立模块,被配置为基于政务工单数据集对神经网络模型进行预训练,生成预训练模型;利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型;其中,所述复合标注语料包括多种方式生成的标注语料,所述标注语料中的至少一种包括通过零样本机器学习和/或少样本机器学习,构建学习提示词,引导模型抽取出政务工单中的主体信息,从而生成的标注语料。

21、可选地,所述分类模型建立模块被配置为:构造零样本学习提示词,引导模型抽取出政务工单中的主体信息,生成第一标注语料;基于政务工单中已有的结构化信息,利用远程监督方法生成初始语料,基于模型对所述初始语料进行判别,生成第二标注语料;基于所述第一标注语料以及所述第二标注语料,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,生成第三标注语料;将所述第一标注语料、所述第二标注语料以及所述第三标注语料作为所述复合标注语料。

22、可选地,所述分类模型建立模块被配置为:针对政务工单数据进行主体识别的任务,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成微调的预训练模型;利用所述复合标注语料,基于序列标注任务和文本问答任务对所述微调的预训练模型进行有监督的训练,生成所述分类模型。

23、另一方面,本申请还提供了一种政务工单主体识别系统,包括:至少一个处理器;以及存储有计算机程序的至少一个存储器;其中,当所述计算机程序由所述至少一个处理器执行时,使得所述政务工单主体识别系统执行根据上述任一种所述的政务工单主体识别方法的步骤。

24、另一方面,本专利技术提出一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序在由处理器执行时实现上述任一种所述的政务工单主体识别方法的步骤。

25、本申请所提供的政务工单主体识别方法,将待识别政务工单输入到分类模型中,输出带有标签的工单数据,该标签用于标记所述待识别政务工单的主体信息。分类模型为预先建立,预先建立的步骤包括:基于政务工单数据集对神经网络模型进行预训练,生成预训练模型;利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型。其中,复合标注语料包括采用多种方式生成的标注语料,所述标注语料中的至少一种包括通过零样本机器学习和/或少样本机器学习,构建学习提示词,引导模型抽取出政务工单中的主体信息,从而生成的标注语料。

26、本申请通过自动生成带标签的工单数据,避免了人工标注数据的繁琐和耗时。同时,通过采用零样本或少样本学习方式,可以有效解决现有技术在政务工单处理领域中标注语料少、涉及到隐私数据等问题,提高了识别的准确性和效率,从而使得政务工作相关部门更便捷、高效地处理工单及相关事务,提升了整体的工作效率。

27、此外,本申请还提供了一种具有上述技术效果的政务工单主体识别装置、系统以及计算机可读存储介质。

本文档来自技高网...

【技术保护点】

1.一种政务工单主体识别方法,其特征在于,将待识别政务工单输入到分类模型中,输出带有标签的工单数据,所述标签用于标记所述待识别政务工单的主体信息;

2.根据权利要求1所述的政务工单主体识别方法,其特征在于,所述复合标注语料的生成过程包括:

3.根据权利要求2所述的政务工单主体识别方法,其特征在于,所述第三标注语料的生成还包括:

4.根据权利要求3所述的政务工单主体识别方法,其特征在于,所述第三标注语料的生成还包括:重复执行对所述第一标注语料、所述第二标注语料以及所述第三标注语料进行采样,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,将新生成的标注语料补充入所述第三标注语料的步骤,直到生成的标注语料的数量达到预设阈值。

5.根据权利要求1至4任一项所述的政务工单主体识别方法,其特征在于,所述利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型包括:

6.一种政务工单主体识别装置,其特征在于,包括:

7.根据权利要求6所述的政务工单主体识别装置,其特征在于,所述分类模型建立模块被配置为:构造零样本学习提示词,引导模型抽取出政务工单中的主体信息,生成第一标注语料;基于政务工单中已有的结构化信息,利用远程监督方法生成初始语料,基于模型对所述初始语料进行判别,生成第二标注语料;基于所述第一标注语料以及所述第二标注语料,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,生成第三标注语料;将所述第一标注语料、所述第二标注语料以及所述第三标注语料作为所述复合标注语料。

8.根据权利要求6所述的政务工单主体识别装置,其特征在于,所述分类模型建立模块被配置为:针对政务工单数据进行主体识别的任务,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成微调的预训练模型;利用所述复合标注语料,基于序列标注任务和文本问答任务对所述微调的预训练模型进行有监督的训练,生成所述分类模型。

9.一种政务工单主体识别系统,其特征在于,包括:至少一个处理器;以及存储有计算机程序的至少一个存储器;其中,当所述计算机程序由所述至少一个处理器执行时,使得所述政务工单主体识别系统执行根据权利要求1至5中任一项所述的政务工单主体识别方法的步骤。

10.一种存储有计算机程序的计算机可读存储介质,其中,所述计算机程序在由处理器执行时实现根据权利要求1至5中任一项所述的政务工单主体识别方法的步骤。

...

【技术特征摘要】

1.一种政务工单主体识别方法,其特征在于,将待识别政务工单输入到分类模型中,输出带有标签的工单数据,所述标签用于标记所述待识别政务工单的主体信息;

2.根据权利要求1所述的政务工单主体识别方法,其特征在于,所述复合标注语料的生成过程包括:

3.根据权利要求2所述的政务工单主体识别方法,其特征在于,所述第三标注语料的生成还包括:

4.根据权利要求3所述的政务工单主体识别方法,其特征在于,所述第三标注语料的生成还包括:重复执行对所述第一标注语料、所述第二标注语料以及所述第三标注语料进行采样,构造少样本学习提示词,引导模型抽取政务工单中的主体信息,将新生成的标注语料补充入所述第三标注语料的步骤,直到生成的标注语料的数量达到预设阈值。

5.根据权利要求1至4任一项所述的政务工单主体识别方法,其特征在于,所述利用复合标注语料,基于序列标注任务和文本问答任务对所述预训练模型进行有监督的训练,生成所述分类模型包括:

6.一种政务工单主体识别装置,其特征在于,包括:

7.根据权利要求6所述的政务工单主体识别装置,其特征在于,所述分类模型建立模块被配置为:构造零样本学习提示词,引导模型抽取出政务工单中的主体信息...

【专利技术属性】
技术研发人员:徐祯琦张宝玉李宗倍窦康陈利明宋建平王磊
申请(专利权)人:中电信数智科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1