System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及鉴别方法,尤其涉及一种鉴别可变情报板发布内容的方法。
技术介绍
1、aigc(ai-generated content)是继ugc、pgc之后新型利用ai技术自动生成内容的生产方式,简称ai,当前各个国家都已经在加强对ai生成内容的监管力度,比如对于ai生成的内容要求必须标识ai生成的、不允许借助ai生成虚假信息影响国计民生的内容等等,通常aigc生成的文本内容一般具有如下特征:1)喜欢重复使用某些单词,比如“然而”、“但是”等转折词;2)喜欢使用不必要的复杂结构的语句;3)语句的语法结构相似性较大;4)表达某个观点时,语义不清、逻辑不连贯、刻板性、缺乏逻辑性、缺乏深度、缺乏情感和个人见解等;5)阐述比较抽象概念时,往往具有循环、重复、空洞的特点,比如“痛苦是一种主观感受,通常指人在面对困难、痛苦、失落、悲伤等负面情绪时所经历的痛苦体验,痛苦的程度因人而异,取决于个人的经历、感受和心理承受能力”;6)文本元数据具有批量性、超出人类效率的特点,比如文本创建时间、编辑时间都较短,远远高于人类编写文本的效率。那么如何监测在互联网上的文本内容是否由aigc生成的呢?我们提出一种鉴别可变情报板发布内容的方法。
技术实现思路
1、本专利技术的目的是解决现有技术中的问题,提供一种鉴别可变情报板发布内容的方法。
2、本专利技术的技术方案是:
3、一种鉴别可变情报板发布内容的方法包括以下步骤:
4、步骤一,建立数据库:建立aigc生成文本偏好单词库;
5、步骤二,统计高频单词:借助tf-idf算法统计某个用户的文本中出现高频的用语单词;
6、步骤三,搜索数据库:搜索步骤一aigc生成文本偏好单词库;
7、步骤四,纠错:对某个用户提交的文本进行跟踪统计,观察该用户提交文本的用语单词是否比较固定;
8、步骤五,判别:当步骤二频率前三的用语单词出现在aigc生成文本偏好单词库中,同时该用户的文本经过步骤四满足文本的用语单词固定的情形,则鉴别为此文本由aigc生成。
9、优选的,步骤一建立aigc生成文本偏好单词库需要根据aigc生成的文本内容的特征去建立。
10、优选的,步骤二中高频的用语单词指的是频率前三的用语单词。
11、优选的,步骤二中算法还可以是简单计数法或归一化计数法。
12、优选的,步骤四为降低误报率可以针对每个用户统计提交的文本的用语单词的统计特征。
13、本专利技术采用上述结构,具有以下的优点:
14、1.针对aigc生成文本中单词具有“高度重复性”特征而设计,识别简单,鉴别某段文本是否由aigc生成的准确率较高,鉴别容易已达成;
15、2.统计文本内容的单词频率的算法有tf-idf算法、简单计数法或归一化计数法,可选择性多;
16、3.可以应用到各类合规检查、安全检测、监测管理的工具、应用、系统中,适用范围广。
本文档来自技高网...【技术保护点】
1.一种鉴别可变情报板发布内容的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种鉴别可变情报板发布内容的方法,其特征在于:所述步骤一建立AIGC生成文本偏好单词库需要根据AIGC生成的文本内容的特征去建立。
3.根据权利要求1所述的一种鉴别可变情报板发布内容的方法,其特征在于:所述步骤二中高频的用语单词指的是频率前三的用语单词。
4.根据权利要求1所述的一种鉴别可变情报板发布内容的方法,其特征在于:所述步骤二中所述算法还可以是简单计数法或归一化计数法。
5.根据权利要求1所述的一种鉴别可变情报板发布内容的方法,其特征在于:所述步骤四为降低误报率可以针对每个用户统计提交的文本的用语单词的统计特征。
【技术特征摘要】
1.一种鉴别可变情报板发布内容的方法,其特征在于:包括以下步骤:
2.根据权利要求1所述的一种鉴别可变情报板发布内容的方法,其特征在于:所述步骤一建立aigc生成文本偏好单词库需要根据aigc生成的文本内容的特征去建立。
3.根据权利要求1所述的一种鉴别可变情报板发布内容的方法,其特征在于:所述步骤二中高频...
【专利技术属性】
技术研发人员:盛杰,张会增,万长恩,陈宁,张婷,樊迪,
申请(专利权)人:北京博宇通达科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。