System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于文本检测,具体涉及基于大模型提示技术的禁用词识别方法、系统及程序产品。
技术介绍
1、禁用词是指新华社发布的《新华社新闻报道中的禁用词》,媒体报道中的禁用词主要涉及了五方面内容,包括时政和社会生活类禁用词、法律法规类禁用词、民族宗教类禁用词、国际关系类禁用词等。目前主流的文本禁用词识别方法在进行文本禁用词识别时,还存在一些不足:首先,禁用词存在有多种表达方式,包括同义词、近义词、反义词等,需要对语言的多样性和上下文进行准确理解和分析才能做到精确识别,而目前主流的禁用词识别方法在这方面的表现较差;其次,现有的文本禁用词识别方法还会受到文本长度、复杂性和语言风格等因素的影响。
技术实现思路
1、本专利技术的目的是提供基于大模型提示技术的禁用词识别方法、系统及程序产品,用以解决现有技术中存在的上述问题。
2、为了实现上述目的,本专利技术采用以下技术方案:
3、第一方面,提供基于大模型提示技术的禁用词识别方法,包括:
4、获取禁用词指导文件,并对禁用词指导文件进行展示,所述禁用词指导文件中包含若干禁用词文本分类,且各禁用词文本分类下包含若干条禁用词标准规则;
5、接收用户的人工编辑指令,并响应于用户的人工编辑指令构建对应禁用词指导文件中各禁用词标准规则的子任务拆解结果,所述子任务拆解结果包含第一任务元素、第二任务元素和第三任务元素,所述第一任务元素包含禁用词文本分类,所述第二任务元素包含对应禁用词文本分类下的触发字词,所述第三任
6、对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,所述提示词集合包含对应第一任务元素的文本分类提示词、对应第二任务元素的触发字词提示词和对应第三任务元素的禁用细则提示词;
7、对各提示词集合进行数据整理,得到第一阶段文本分类提示词集合和第二阶段字符串检索匹配模块,所述第一阶段文本分类提示词集合包含若干文本分类提示词,所述第二阶段字符串检索匹配模块包含若干触发字词提示词集合,各触发字词提示词集合包含若干触发字词提示词,且各触发字词提示词集合关联对应的文本分类提示词,各触发字词提示词关联对应的禁用细则提示词;
8、获取待识别文本信息,将待识别文本信息拼接第一阶段文本分类提示词集合后导入预置的ai大模型中,由ai大模型对待识别文本信息进行文本类型识别,得到待识别文本信息的文本类型,并判断待识别文本信息的文本类型是否包含在第一阶段文本分类提示词集合的若干文本分类提示词中;
9、在待识别文本信息的文本类型包含在第一阶段文本分类提示词集合的若干文本分类提示词中时,确定待识别文本信息的文本类型所匹配的文本分类提示词,并将该文本分类提示词所对应的第二阶段字符串检索匹配模块中的触发字词提示词集合作为关键字词检索集合,基于关键字词检索集合检索待识别文本信息中是否存在对应触发字词提示词所包含的触发字词;
10、在待识别文本信息中存在对应触发字词提示词所包含的触发字词时,确定相应触发字词提示词所对应的禁用细则提示词,并将所述禁用细则提示词与待识别文本信息拼接后导入预置的ai大模型中,由ai大模型判断待识别文本信息是否触发所述禁用细则提示词对应的禁用细则,并在判定待识别文本信息触发所述禁用细则提示词对应的禁用细则时,输出所述禁用细则提示词所对应的提示词集合。
11、在一个可能的设计中,所述对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,包括:
12、对各子任务拆解结果进行prompt结构化处理,得到对应prompt结构化的提示词集合,所述提示词集合中的文本分类提示词为prompt结构化的文本分类提示词,所述提示词集合中的触发字词提示词为prompt结构化的触发字词提示词,所述提示词集合中的禁用细则提示词为prompt结构化的禁用细则提示词。
13、在一个可能的设计中,所述对各提示词集合进行数据整理,包括:
14、提取各提示词集合中的文本分类提示词,确定各文本分类提示词所对应的禁用词文本分类,将各文本分类提示词汇总,得到第一阶段文本分类提示词集合。
15、在一个可能的设计中,所述对各提示词集合进行数据整理,包括:
16、提取各提示词集合中的触发字词提示词,确定各文本分类提示词所对应的触发字词提示词,使用aho–corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构,得到第二阶段字符串检索匹配模块。
17、在一个可能的设计中,在使用aho–corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构前,所述方法还包括:
18、接收用户的去重指令,并响应于去重指令对各文本分类提示词所对应的各触发字词提示词进行去重处理。
19、在一个可能的设计中,所述方法还包括:
20、对各提示词集合进行本地存储;
21、接收用户的修改指令,并响应于修改指令对本地存储的相应提示词集合进行修改。
22、第二方面,提供基于大模型提示技术的禁用词识别系统,包括文件获取单元、任务拆解单元、结构处理单元、数据准备单元、第一识别单元、第二识别单元和第三识别单元,其中:
23、文件获取单元,用于获取禁用词指导文件,并对禁用词指导文件进行展示,所述禁用词指导文件中包含若干禁用词文本分类,且各禁用词文本分类下包含若干条禁用词标准规则;
24、任务拆解单元,用于接收用户的人工编辑指令,并响应于用户的人工编辑指令构建对应禁用词指导文件中各禁用词标准规则的子任务拆解结果,所述子任务拆解结果包含第一任务元素、第二任务元素和第三任务元素,所述第一任务元素包含禁用词文本分类,所述第二任务元素包含对应禁用词文本分类下的触发字词,所述第三任务元素包含对应触发字词的禁用细则;
25、结构处理单元,用于对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,所述提示词集合包含对应第一任务元素的文本分类提示词、对应第二任务元素的触发字词提示词和对应第三任务元素的禁用细则提示词;
26、数据准备单元,用于对各提示词集合进行数据整理,得到第一阶段文本分类提示词集合和第二阶段字符串检索匹配模块,所述第一阶段文本分类提示词集合包含若干文本分类提示词,所述第二阶段字符串检索匹配模块包含若干触发字词提示词集合,各触发字词提示词集合包含若干触发字词提示词,且各触发字词提示词集合关联对应的文本分类提示词,各触发字词提示词关联对应的禁用细则提示词;
27、第一识别单元,用于获取待识别文本信息,将待识别文本信息拼接第一阶段文本分类提示词集合后导入预置的ai大模型中,由ai大模型对待识别文本信息进行文本类型识别,得到待识别文本信息的文本类型,并判断待识别文本信息的文本类型是否包含在第一阶段文本分类提示词集合的若干文本分类提示词中;
28、第二本文档来自技高网...
【技术保护点】
1.基于大模型提示技术的禁用词识别方法,其特征在于,包括:
2.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,包括:
3.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:
4.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:
5.根据权利要求4所述的基于大模型提示技术的禁用词识别方法,其特征在于,在使用Aho–Corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构前,所述方法还包括:
6.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述方法还包括:
7.基于大模型提示技术的禁用词识别系统,包括文件获取单元、任务拆解单元、结构处理单元、数据准备单元、第一识别单元、第二识别单元和第三识别单元,其中:
8.根据权利要求7所述的基于大模型提示技术的
9.基于大模型提示技术的禁用词识别系统,其特征在于,包括:
10.一种计算机程序产品,其特征在于,当所述计算机程序产品在计算机上运行时,执行权利要求1-6任意一项所述的禁用词识别方法。
...【技术特征摘要】
1.基于大模型提示技术的禁用词识别方法,其特征在于,包括:
2.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各子任务拆解结果进行结构化处理,得到各禁用词标准规则对应的提示词集合,包括:
3.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:
4.根据权利要求1所述的基于大模型提示技术的禁用词识别方法,其特征在于,所述对各提示词集合进行数据整理,包括:
5.根据权利要求4所述的基于大模型提示技术的禁用词识别方法,其特征在于,在使用aho–corasick算法将各文本分类提示词所对应的所有触发字词提示词加工为树状结构前,所述方法还包括:
6.根...
【专利技术属性】
技术研发人员:李少博,高登科,徐桢虎,王子健,苏忠莹,
申请(专利权)人:四川封面传媒科技有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。