System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种基于高低频融合Transformer的对比学习以太坊钓鱼识别方法技术_技高网

一种基于高低频融合Transformer的对比学习以太坊钓鱼识别方法技术

技术编号:44831666 阅读:5 留言:0更新日期:2025-04-01 19:32
本发明专利技术提出了一种基于高低频融合Transformer的对比学习以太坊钓鱼识别方法,用于识别以太坊中的钓鱼诈骗地址。该方法结合区块链交易数据构建交易序列,利用基于Transformer模型的掩码地址预测和对比学习框架进行无监督预训练,通过高低频信息的融合捕捉交易数据中的局部和全局特征。在预训练的基础上,使用多层感知机进行微调,并最终对交易地址进行分类判断。该方法结合掩码地址预测任务和对比学习方法,能够充分利用自监督学习预训练方式进行高效的特征表示学习,不依赖于图结构,注重交易的序列信息和账户行为模式,有效提升了模型的泛化能力与鲁棒性,提升以太坊网络钓鱼和欺诈行为的识别精度以及用户交易的安全性。

【技术实现步骤摘要】

本专利技术属于人工智能领域,具体涉及区块链、深度学习、transformer、对比学习等技术,尤其涉及以太坊钓鱼识别方法。


技术介绍

1、区块链是一种分布式账本技术,具有去中心化、可追溯、不可篡改、不可伪造等特点。这一技术来源于中本聪2008年发表的论文——《比特币:一直点对点的电子现金系统》。论文中首次出现了比特币的概念,因此被认为是区块链技术的开山之作。区块链通过密码学、点对点传输和共识机制提供了一个匿名可信的去中心化交易环境,新颖的去中心化概念和独特的匿名性使得比特币独立于任何组织并难以确定用户的真实身份,这使得它在全球范围内受到了广泛追捧并迅速播。随着区块链技术的风靡,比特币的经济价值也在不断增长,由此引发了人们对于数字货币安全性的关注。以太坊是目前最大的支持图灵完备智能合约的区块链平台,据权威机构指出每天大约有70000活跃地址在进行交易。随着以太坊的快速发展,经济价值愈发凸显,钓鱼诈骗行为也在平台日渐猖獗,亟需一种行之有效的方法对钓鱼地址进行识别,保障平台系统性安全,保证区块链生态系统良性运作,促进上层去中心化应用可持续发展。

2、图神经网络(gnn,graph neural network)主要用于处理图结构数据,核心思想是采用聚合信息的方式来提取节点与其邻域之间的信息和依赖关系,在训练过程中,信息不断聚合最终得到节点的特征表示。常见的gnn方法有:gcn、gat、gsage等。

3、现有的一些研究工作采用图神经网络来进行以太坊欺诈检测,gnn通过学习交易网络的拓扑结构和交易特征,构建能够识别异常交易模式的模型,但是同时还存在以下的问题。如:图不适合捕捉交易中的序列模式,以太坊交易高度重复,表明节点之间存在多边,目前的方法将多边整合成单边以便于图计算,但是丢弃的顺序信息对与描述用户行为是至关重要的。在高度偏斜分布的以太坊数据上,由于以太坊账户通常连接到热门的账户,gnn当跳数增加时可能会受到噪声的影响,但是限制跳数可能会限制gnn的能力,因为跳数通常相当于gnn中的层深度。


技术实现思路

1、本专利技术的目的是一种基于高低频融合transformer的对比学习以太坊钓鱼识别方法。

2、为实现上述目的,本专利技术采用的技术方案如下:

3、s1)、获取交易数据;

4、s2)、基于交易数据构建交易序列数据;

5、s3)、利用交易序列数据对基于高低频融合transformer的掩码地址预测及对比学习联合框架进行自监督的预训练;并得到参数更新后的transformer编码器;

6、s4)、利用预训练后的transformer编码器与多层感知机(mlp,multilayerperceptron)一起进行训练微调;并获得参数更新后的mlp;

7、s5)、训练结束后,利用参数更新后的transformer编码器进行账户特征提取,输入到mlp判断是否为钓鱼诈骗地址。

8、具体地,所述步骤s1)包括:从以太坊浏览器开放接口获取交易数据,并利用以太坊系节点数据清洗组件从原始的交易数据提取结构化的交易表格数据;

9、进一步地,步骤s2)包括:

10、s21)、对于具有a0的外部拥有账户,选取其作为发起者或接收者的所有交易,并根据时间戳以降序的方式对交易进行排序形成a0的交易序列;对于每个交易,有地址、账户类型、时间戳、金额、输入\输出类型、交易次数、位置、交易持续时间这八个特征,其中输入\输出类型表示交易是由a0接受或是发起,账户类型表示账户是外部拥有账户或是合约;

11、s22)、对于每个交易序列,序列的开头插入了一个虚拟的自交易,其地址特征设置为a0,交易次数设置为序列的总交易次数,金额和输入\输出类型设置为序列的总金额流入/流出,其余特征皆设置为空,虚拟的自交易用于表示该交易序列的拥有者;

12、s23)、将连续重复的交易聚合在一起,这些交易具有相同的地址、相同的输入/输出类型,并且在一定时间内由相同发起者发起,通过合并它们的交易金额以及交易次数来聚合连续重复的交易;其中聚合交易的时间戳设置为原始交易的第一个时间戳,交易持续时间设置为原始交易的最后一个时间戳与第一个时间戳的差值。

13、进一步地,步骤s3)中,所述的基于高低频融合transformer的掩码地址预测及对比学习联合框架的预训练过程为:

14、s31)、将构建的交易序列数据输入到搭建的基于高低频融合transformer的掩码地址预测及对比学习联合框架中;

15、s32)、确定框架的超参数,并选择训练优化器和损失函数,然后开始训练;

16、s33)、判断训练是否达到停止条件;

17、s34)、如果是,则结束预训练,得到训练好的transformer编码器;如果否,则使用反向传播算法更新transformer编码器的参数后返回步骤s43)。

18、进一步地,步骤s3)中在transformer编码器中,对于序列中的第i个交易,其交易特征通过嵌入层传递,以生成相应的特征嵌入,然后将它们相加以获得其初始交易表征堆叠初始交易表征以形成一个矩阵对于一个序列,transformer编码器以x0为输入,并通过包含l层的transformer层;每个transformer层包含两个子层,一个高低频信息注意力融合子层和一个位置前馈子层;高低频信息注意力融合子层结合了自注意力矩阵和经过傅里叶变换调整的滤波器矩阵,以缓解由于自注意力的低通滤波特性导致的过度平滑问题;transformer层计算过程公式描述如下:

19、

20、其中,sl是第l层的高低频信息注意力融合子层输出,是第l层的高低频信息重调滤波矩阵,xl是第l层的输入,α是平衡因子。

21、

22、其中,softmax是非线性激活函数,是可学习参数,是放缩因子。

23、

24、其中,是多头自注意力操作后的输出,sh是第h个头输出,wo是可学习的投影矩阵。

25、

26、其中,fft是快速傅里叶变换,ifft是逆傅里叶变换,mlow、mhigh是用于频率划分的掩码,⊙是元素级别的乘法,β是可学习的权重参数,对低通部分和高通部分进行加权求和。

27、

28、其中,gelu是高斯误差线性单元激活函数,是可学习的权重矩阵,是可学习的偏置参数,输入到前馈网络,前馈网络通过两层线性变换和激活函数进行非线性映射。

29、

30、其中,xl+1是第l+1层的输入,经过残差连接、dropout和层归一化得到下一层的输入。

31、进一步地,步骤s3)中在掩码地址预测预训练过程中,将序列内的一定百分比的交易的地址替换为特殊标记[mask];然后将掩码序列通过嵌入层和transformer层;对于一个被掩码的交易m,它的最终交易表征为并计算其正样本地址(掩码地址)和随机采本文档来自技高网...

【技术保护点】

1.一种基于高低频融合Transformer的对比学习以太坊钓鱼识别方法,其特征在于:包括以下步骤:S1)、获取交易数据;S2)、基于所述交易数据构建交易序列数据;S3)、利用所述交易序列数据对基于高低频融合Transformer的掩码地址预测及对比学习联合框架进行无监督的预训练,并得到参数更新后的Transformer编码器;S4)、利用所述预训练后的Transformer编码器与多层感知机(MLP,Multilayer Perceptron)一起进行训练微调,获得参数更新后的MLP;S5)、训练结束后,利用参数更新后的Transformer编码器进行账户特征提取,输入到MLP判断是否为钓鱼诈骗地址。

2.根据权利要求1所述的基于高低频融合Transformer的对比学习以太坊钓鱼识别方法,其特征在于,所属步骤S3)包括:Transformer编码器包括多个Transformer层,每个Transformer层包含一个高低频信息注意力融合子层和一个位置前馈子层;其中高低频信息注意力融合子层结合了自注意力矩阵和经傅里叶变换调整的滤波器矩阵,用以缓解自注意力的低通滤波特性导致的过度平滑问题。

3.根据权利要求2所述的方法,其特征在于,所述的高低频信息注意力融合子层的计算公式为:

4.根据权利要求1所述的基于高低频融合Transformer的对比学习以太坊钓鱼识别方法,其特征在于,所属步骤S3)包括:在对比学习预训练过程中,对输入交易序列进行随机挑选的数据增强,包括随机裁剪、随机掩码、随机排序,生成两个增强交易序列;然后将两个增强后的交易序列输入到两个共享参数的Transformer编码器中以得到同一样本在特征空间中的不同表示;并使用InfoNCE Loss损失函数进行对比学习。

5.根据权利要求1所述的基于高低频融合Transformer的对比学习以太坊钓鱼识别方法,其特征在于,所属步骤S3)包括:在掩码地址预测预训练过程中,将序列内的一定百分比的交易的地址替换为特殊标记[MASK];然后将掩码序列通过嵌入层和Transformer层;对于一个被掩码的交易m,它的最终交易表征为并计算其正样本地址(掩码地址)和随机采样的负样本地址之间的对比损失作为预训练的目标函数,用过最小化与正样本地址之间的距离,最大化与负样本地址距离作为优化目标。

...

【技术特征摘要】

1.一种基于高低频融合transformer的对比学习以太坊钓鱼识别方法,其特征在于:包括以下步骤:s1)、获取交易数据;s2)、基于所述交易数据构建交易序列数据;s3)、利用所述交易序列数据对基于高低频融合transformer的掩码地址预测及对比学习联合框架进行无监督的预训练,并得到参数更新后的transformer编码器;s4)、利用所述预训练后的transformer编码器与多层感知机(mlp,multilayer perceptron)一起进行训练微调,获得参数更新后的mlp;s5)、训练结束后,利用参数更新后的transformer编码器进行账户特征提取,输入到mlp判断是否为钓鱼诈骗地址。

2.根据权利要求1所述的基于高低频融合transformer的对比学习以太坊钓鱼识别方法,其特征在于,所属步骤s3)包括:transformer编码器包括多个transformer层,每个transformer层包含一个高低频信息注意力融合子层和一个位置前馈子层;其中高低频信息注意力融合子层结合了自注意力矩阵和经傅里叶变换调整的滤波器矩阵,用以缓解自注意力的低通滤波特性导致的过度...

【专利技术属性】
技术研发人员:陈乔松陈俊谕陈湘吴坷澄
申请(专利权)人:重庆邮电大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1