System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及大语言模型,尤其是涉及一种机器生成文本检测方法、装置及存储介质。
技术介绍
1、大语言模型(llms)在各个领域已产生了深远影响。这些模型在新闻报道、故事写作和学术研究等多元领域提升了生产力。然而,它们的误用也带来了一些问题,特别是在假新闻、恶意产品评论和剽窃方面。这些模型生成的内容流畅连贯,甚至让专家都难以辨别其来源是人类还是机器。因此,我们需要可靠的机器生成文本检测方法来解决这个问题。
2、现有的检测器主要分为两类:有监督分类器和零样本分类器。虽然有监督分类器在其特定训练领域表现出色,但在面对来自不同领域或不熟悉模型生成的文本时,其表现会变差。零样本分类器则能够免疫领域特定的退化,并且在检测精度上可以与有监督分类器相媲美。
3、然而,典型的零样本分类器,如detectgpt和dna-gpt,需要执行多次模型调用或与openai api等服务交互来创建扰动文本,这导致了过高的计算成本和较长的计算时间。同时它需要用生成文本的源语言模型来进行检测的计算,使得该方法不能用于检测由未知模型生成的文本。而比较高效的零样本检测器(比如fast-detectgpt)往往需要使用语言模型的完整预测分布(称为白盒方法),使得这些方法只能用于开源大语言模型上(称为白盒模型),而不能用于最新最先进的私有大语言模型上(称为黑盒模型)。这些限制使得我们很难兼顾高效、准确和通用等多项指标。
技术实现思路
1、本专利技术的目的就是为了克服上述现有技术存在的缺陷而提供一种兼
2、本专利技术的目的可以通过以下技术方案来实现:
3、第一方面,本专利技术提供一种机器生成文本检测方法,包括以下步骤:
4、获取待检测文本,由大语言模型根据上下文预测生成当前位置上top-k词的概率;
5、采用概率分布估计算法,根据所述top-k词的概率,估计获得完整分布概率;
6、根据所述完整分布概率判断待检测文本是否为机器生成文本。
7、进一步地,所述估计获得完整分布概率时,将估计问题视为一个约束满足问题,基本约束包括总概率约束和单调递减约束。
8、进一步地,所述估计获得完整分布概率时,采用的参数化分布类型包括几何分布、zipfian分布或mlp模型分布。
9、进一步地,采用白盒检测方法根据所述完整分布概率判断待检测文本是否为机器生成文本,所述白盒检测方法包括entropy、rank、logrank或fast-detectgpt。
10、进一步地,根据所述完整分布概率判断待检测文本是否为机器生成文本具体包括:
11、基于所述完整分布概率计算获得条件概率曲率指标;
12、根据所述条件概率曲率指标及设定阈值,判断待检测文本是否为机器生成文本。
13、进一步地,所述条件概率曲率指标的获得具体包括:
14、基于所述完整分布概率,从分布中随机采样若干个可能的候选词;
15、采用大语言模型对所述候选词进行打分,计算候选词概率;
16、比对文本序列在每个位置上实际词概率和候选词概率,计算获得所述条件概率曲率指标。
17、第二方面,本专利技术还提供一种机器生成文本检测装置,包括:
18、top-k词概率生成模块,用于获取待检测文本,由大语言模型根据上下文预测生成当前位置上top-k词的概率;
19、完整分布估计模块,用于采用概率分布估计算法,根据所述top-k词的概率,估计获得完整分布概率;
20、检测模块,用于根据所述完整分布概率判断待检测文本是否为机器生成文本。
21、进一步地,所述完整分布估计模块中,将估计问题视为一个约束满足问题,基本约束包括总概率约束和单调递减约束。
22、进一步地,所述检测模块中,采用白盒检测方法根据所述完整分布概率判断待检测文本是否为机器生成文本,所述白盒检测方法包括entropy、rank、logrank或fast-detectgpt。
23、第三方面,本专利技术还提供一种计算机可读存储介质,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如上所述机器生成文本检测法的指令。
24、与现有技术相比,本专利技术通过概率分布估计技术,使传统的只能用于开源模型的白盒检测方法和黑盒私有模型相结合成为可能,将白盒方法的高效和黑盒模型的准确和通用相结合,获得超越已有方法的高检测准确率和通用性。本专利技术具有以下
25、有益效果:
26、1、速度快、成本低。速度上,本专利技术是detectgpt的100倍以上,是dna-gpt的4倍以上;成本上,是detectgpt的1%,是dna-gpt的1/10。给定一段待检测的文本,detectgpt需要调用t5模型为这段文本生成100个扰动文本(微小的局部改写),然后调用私有模型100次,分别给这100个扰动文本打分,获得它们的对数概率,进而计算概率曲率指标进行判别。而dna-gpt将待检测文本分成两段,调用私有大模型补全第一段文本10次,获得10个生成的第二段文本,计算生成的第二段文本和原始的第二段文本的相似性(n-gram重叠的比例),进而获得检测指标。与这些方法不同,概率分布估计技术只需要调用模型一次,就能计算检测指标,无需生成任何新的文本。所以,本专利技术具有速度快、成本低的优点。
27、2、准确。和使用开源模型(几个b到几十个b的参数)的白盒方法相比,本专利技术基于概率分布估计技术pde,pde可以使用更大规模的私有模型(几百个b到几千个b的参数),以充分发挥大模型的能力。pde(fast-detectgpt)可以使用gpt-3.5作为打分模型,将使用开源模型gpt-neo-2.7b的fast-detectgpt的平均准确率91%,提升到96%(在5个源模型生成文本检测上的平均,包括chatgpt、gpt-4、claude-3 sonnet、claude-3 opus和gemini-1.5pro)。而对比其它黑盒方法,虽然它们也使用私有大模型,但它们的使用方法不能充分挖掘大模型的能力。而pde能充分利用大模型的输出分布信息,做出准确的判断。和dna-gpt(gpt-3.5),pde(fast-detectgpt,gpt-3.5)准确率的提升幅度更大,从dna-gpt的平均86%提升到pde的96%。
28、3、通用。在不同的领域和语言上本专利技术都能获得较高的检测准确率。detectgpt和dna-gpt都假设用于生成文本的源模型已知,然后用这个已知的源模型作为打分模型,进行检测。如果文本来源于哪个模型未知,这些方法就不能准确检测此文本。pde(fast-detectgpt)可以使用固定的打分模型,比如gpt-3.5,就可以检测来源于不同模型的文本。比如dna-gpt(gpt-3.5)检测gpt-3.5本文档来自技高网...
【技术保护点】
1.一种机器生成文本检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的机器生成文本检测方法,其特征在于,所述估计获得完整分布概率时,将估计问题视为一个约束满足问题,基本约束包括总概率约束和单调递减约束。
3.根据权利要求1或2所述的机器生成文本检测方法,其特征在于,所述估计获得完整分布概率时,采用的参数化分布类型包括几何分布、Zipfian分布或MLP模型分布。
4.根据权利要求1所述的机器生成文本检测方法,其特征在于,采用白盒检测方法根据所述完整分布概率判断待检测文本是否为机器生成文本,所述白盒检测方法包括Entropy、Rank、LogRank或Fast-DetectGPT。
5.根据权利要求1所述的机器生成文本检测方法,其特征在于,根据所述完整分布概率判断待检测文本是否为机器生成文本具体包括:
6.根据权利要求5所述的机器生成文本检测方法,其特征在于,所述条件概率曲率指标的获得具体包括:
7.一种机器生成文本检测装置,其特征在于,包括:
8.根据权利要求7所述的机器生成文本检测装
9.根据权利要求7所述的机器生成文本检测装置,其特征在于,所述检测模块中,采用白盒检测方法根据所述完整分布概率判断待检测文本是否为机器生成文本,所述白盒检测方法包括Entropy、Rank、LogRank或Fast-DetectGPT。
10.一种计算机可读存储介质,其特征在于,包括供电子设备的一个或多个处理器执行的一个或多个程序,所述一个或多个程序包括用于执行如权利要求1-6任一所述机器生成文本检测法的指令。
...【技术特征摘要】
1.一种机器生成文本检测方法,其特征在于,包括以下步骤:
2.根据权利要求1所述的机器生成文本检测方法,其特征在于,所述估计获得完整分布概率时,将估计问题视为一个约束满足问题,基本约束包括总概率约束和单调递减约束。
3.根据权利要求1或2所述的机器生成文本检测方法,其特征在于,所述估计获得完整分布概率时,采用的参数化分布类型包括几何分布、zipfian分布或mlp模型分布。
4.根据权利要求1所述的机器生成文本检测方法,其特征在于,采用白盒检测方法根据所述完整分布概率判断待检测文本是否为机器生成文本,所述白盒检测方法包括entropy、rank、logrank或fast-detectgpt。
5.根据权利要求1所述的机器生成文本检测方法,其特征在于,根据所述完整分布概率判断待检测文本是否为机器生成文本具体包括:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。