System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型提示技术的禁用词识别方法、系统及程序产品技术方案_技高网

基于大模型提示技术的禁用词识别方法、系统及程序产品技术方案

技术编号:42427698 阅读:10 留言:0更新日期:2024-08-16 16:41
本发明专利技术属于文本检测技术领域,具体公开了基于大模型提示技术的禁用词识别方法、系统及程序产品,通过采用禁用词指导文件为指导标准,进行相关规则制定梳理,对相关识别模式进行归纳总结,变成逐个可执行的子任务,使用户可以更好理解和干预整个识别流程,并可以针对每个子任务做更精细化的操作和控制;通过大模型prompt提示技术,通过执行分段多轮交互操作,对业务定制的思维链进行处理操作,减少对人工数据标注的依赖,减轻相关部署实施成本。本发明专利技术可以改善传统禁用词识别方法在文本长度、复杂性和语言风格等因素影响下识别效果较差的情况,极大的丰富了相关识别场景及识别维度,提升整体识别效果。

【技术实现步骤摘要】

本专利技术属于文本检测,具体涉及基于大模型提示技术的禁用词识别方法、系统及程序产品


技术介绍

1、禁用词是指新华社发布的《新华社新闻报道中的禁用词》,媒体报道中的禁用词主要涉及了五方面内容,包括时政和社会生活类禁用词、法律法规类禁用词、民族宗教类禁用词、国际关系类禁用词等。目前主流的文本禁用词识别方法在进行文本禁用词识别时,还存在一些不足:首先,禁用词存在有多种表达方式,包括同义词、近义词、反义词等,需要对语言的多样性和上下文进行准确理解和分析才能做到精确识别,而目前主流的禁用词识别方法在这方面的表现较差;其次,现有的文本禁用词识别方法还会受到文本长度、复杂性和语言风格等因素的影响。


技术实现思路

1、本专利技术的目的是提供基于大模型提示技术的禁用词识别方法、系统及程序产品,用以解决现有技术中存在的上述问题。

2、为了实现上述目的,本专利技术采用以下技术方案:

3、第一方面,提供基于大模型提示技术的禁用词识别方法,包括:

4、获取禁用词指导文件,并对禁用词指导文件进行展示,所述禁用词指导文件中包含若干禁用词文本分类,且各禁用词文本分类下包含若干条禁用词标准规则;

5、接收用户的人工编辑指令,并响应于用户的人工编辑指令构建对应禁用词指导文件中各禁用词标准规则的子任务拆解结果,所述子任务拆解结果包含第一任务元素、第二任务元素和第三任务元素,所述第一任务元素包含禁用词文本分类,所述第二任务元素包含对应禁用词文本分类下的触发字词,所述第三任务元素包含对应触发字词的禁用细则;

6、对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,所述提示词集合包含对应第一任务元素的文本分类提示词、对应第二任务元素的触发字词提示词和对应第三任务元素的禁用细则提示词;

7、对各提示词集合进行数据整理,得到第一阶段文本分类提示词集合和第二阶段字符串检索匹配模块,所述第一阶段文本分类提示词集合包含若干文本分类提示词,所述第二阶段字符串检索匹配模块包含若干触发字词提示词集合,各触发字词提示词集合包含若干触发字词提示词,且各触发字词提示词集合关联对应的文本分类提示词,各触发字词提示词关联对应的禁用细则提示词;

8、获取待识别文本信息,将待识别文本信息拼接第一阶段文本分类提示词集合后导入预置的ai大模型中,由ai大模型对待识别文本信息进行文本类型识别,得到待识别文本信息的文本类型,并判断待识别文本信息的文本类型是否包含在第一阶段文本分类提示词集合的若干文本分类提示词中;

9、在待识别文本信息的文本类型包含在第一阶段文本分类提示词集合的若干文本分类提示词中时,确定待识别文本信息的文本类型所匹配的文本分类提示词,并将该文本分类提示词所对应的第二阶段字符串检索匹配模块中的触发字词提示词集合作为关键字词检索集合,基于关键字词检索集合检索待识别文本信息中是否存在对应触发字词提示词所包含的触发字词;

10、在待识别文本信息中存在对应触发字词提示词所包含的触发字词时,确定相应触发字词提示词所对应的禁用细则提示词,并将所述禁用细则提示词与待识别文本信息拼接后导入预置的ai大模型中,由ai大模型判断待识别文本信息是否触发所述禁用细则提示词对应的禁用细则,并在判定待识别文本信息触发所述禁用细则提示词对应的禁用细则时,输出所述禁用细则提示词所对应的提示词集合。

11、在一个可能的设计中,所述对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,包括:

12、对各子任务拆解结果进行prompt结构化处理,得到对应prompt结构化的提示词集合,所述提示词集合中的文本分类提示词为prompt结构化的文本分类提示词,所述提示词集合中的触发字词提示词为prompt结构化的触发字词提示词,所述提示词集合中的禁用细则提示词为prompt结构化的禁用细则提示词。

13、在一个可能的设计中,所述对各提示词集合进行数据整理,包括:

14、提取各提示词集合中的文本分类提示词,确定各文本分类提示词所对应的禁用词文本分类,将各文本分类提示词汇总,得到第一阶段文本分类提示词集合。

15、在一个可能的设计中,所述对各提示词集合进行数据整理,包括:

16、提取各提示词集合中的触发字词提示词,确定各文本分类提示词所对应的触发字词提示词,使用aho–corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构,得到第二阶段字符串检索匹配模块。

17、在一个可能的设计中,在使用aho–corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构前,所述方法还包括:

18、接收用户的去重指令,并响应于去重指令对各文本分类提示词所对应的各触发字词提示词进行去重处理。

19、在一个可能的设计中,所述方法还包括:

20、对各提示词集合进行本地存储;

21、接收用户的修改指令,并响应于修改指令对本地存储的相应提示词集合进行修改。

22、第二方面,提供基于大模型提示技术的禁用词识别系统,包括文件获取单元、任务拆解单元、结构处理单元、数据准备单元、第一识别单元、第二识别单元和第三识别单元,其中:

23、文件获取单元,用于获取禁用词指导文件,并对禁用词指导文件进行展示,所述禁用词指导文件中包含若干禁用词文本分类,且各禁用词文本分类下包含若干条禁用词标准规则;

24、任务拆解单元,用于接收用户的人工编辑指令,并响应于用户的人工编辑指令构建对应禁用词指导文件中各禁用词标准规则的子任务拆解结果,所述子任务拆解结果包含第一任务元素、第二任务元素和第三任务元素,所述第一任务元素包含禁用词文本分类,所述第二任务元素包含对应禁用词文本分类下的触发字词,所述第三任务元素包含对应触发字词的禁用细则;

25、结构处理单元,用于对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,所述提示词集合包含对应第一任务元素的文本分类提示词、对应第二任务元素的触发字词提示词和对应第三任务元素的禁用细则提示词;

26、数据准备单元,用于对各提示词集合进行数据整理,得到第一阶段文本分类提示词集合和第二阶段字符串检索匹配模块,所述第一阶段文本分类提示词集合包含若干文本分类提示词,所述第二阶段字符串检索匹配模块包含若干触发字词提示词集合,各触发字词提示词集合包含若干触发字词提示词,且各触发字词提示词集合关联对应的文本分类提示词,各触发字词提示词关联对应的禁用细则提示词;

27、第一识别单元,用于获取待识别文本信息,将待识别文本信息拼接第一阶段文本分类提示词集合后导入预置的ai大模型中,由ai大模型对待识别文本信息进行文本类型识别,得到待识别文本信息的文本类型,并判断待识别文本信息的文本类型是否包含在第一阶段文本分类提示词集合的若干文本分类提示词中;

28、第二本文档来自技高网...

【技术保护点】

1.基于大模型提示技术的禁用词识别方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,包括:

3.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:

4.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:

5.根据权利要求4所述的基于大模型提示技术的禁用词识别方法,其特征在于,在使用Aho–Corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构前,所述方法还包括:

6.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述方法还包括:

7.基于大模型提示技术的禁用词识别系统,包括文件获取单元、任务拆解单元、结构处理单元、数据准备单元、第一识别单元、第二识别单元和第三识别单元,其中:

8.根据权利要求7所述的基于大模型提示技术的禁用词识别系统,其特征在于,所述系统还包括数据存档单元,所述数据存档单元用于对各提示词集合进行本地存储,以及接收用户的修改指令,并响应于修改指令对本地存储的相应提示词集合进行修改。

9.基于大模型提示技术的禁用词识别系统,其特征在于,包括:

10.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,执行权利要求1-6任意一项所述的禁用词识别方法。

...

【技术特征摘要】

1.基于大模型提示技术的禁用词识别方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,包括:

3.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:

4.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:

5.根据权利要求4所述的基于大模型提示技术的禁用词识别方法,其特征在于,在使用aho–corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构前,所述方法还包括:

6.根...

【专利技术属性】
技术研发人员:李少博高登科徐桢虎王子健苏忠莹
申请(专利权)人:四川封面传媒科技有限责任公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1