一种基于恶意代码的自动化动态特征溯源方法技术

技术编号：44939442 阅读：7 留言：0更新日期：2025-04-12 01:16

本发明专利技术涉及网络安全领域，尤其涉及一种基于恶意代码的自动化动态特征溯源方法。本发明专利技术提供了一种基于恶意代码的自动化动态特征溯源方法，重点是基于恶意软件样本得到恶意软件的动态特征与先验知识的提示信息，将所述动态特征与先验知识的提示信息编码得到的提示向量输入BERT模型进行监督学习，通过反向传播计算损失函数的梯度并对BERT模型进行优化，通过传统机器学习算法对BERT模型的输出特征进行进一步的学习并将结果与BERT模型的输出特征进行加权融合，目的是改善现有技术中手动操作或半自动化工具处理效率低、难以扩展到大规模数据集的问题，传统分类方法中先验知识利用不足的问题并且提升分类过程的内在可解释性。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络安全领域，尤其涉及一种基于恶意代码的自动化动态特征溯源方法。

技术介绍

1、随着网络安全威胁的日益复杂化，恶意软件的种类和攻击方式呈现出多样化和高级化的趋势。apt组织在网络攻击中尤为显著，其攻击通常具有高度的隐蔽性和持续性。为了应对这种复杂的威胁，恶意软件分类和apt组织识别成为网络安全的重要研究方向。

2、传统的恶意软件分类方法通过手动操作或者半自动化工具提取特征，这些方法的局限性在于，特征提取和工程过程繁琐且需要人工参与，无法自动化处理大量样本。此外，手工特征工程依赖领域专家的经验，导致特征构造具有不稳定性，难以扩展到多种恶意软件的分类任务。在apt组织的分类中，先验知识可以为分类提供有力支持，但传统方法难以充分利用这些领域知识，导致分类模型缺乏针对性和可解释性。传统方法常采用规则驱动或特征拼接的方式，无法充分利用先验知识的深层语义信息，且其适应性较差，缺乏对先验知识的有效利用，无法引导模型关注apt特有的行为模式。

3、由此可知，现有方法在动态特征自动化提取、先验知识利用以及深度学习模型的引导性应用方面存在较大局限性。本专利技术通过自动化提取恶意软件动态特征，并将先验知识引入bert模型的提示调优流程中，旨在解决这些问题，提升恶意软件分类的准确性和效率。

技术实现思路

1、本专利技术的目的在于通过自动化获取恶意软件的动态特征并生成先验知识的提示信息，引入多层提示策略增强对恶意软件特征的捕捉能力，改善现有技术手动操作或半自动化工具处理

2、本专利技术提供的一种基于恶意代码的自动化动态特征溯源方法包括以下步骤：

3、计算恶意软件样本的哈希值并进行分析得恶意软件的动态行为分析报告，基于所述动态行为分析报告解析转换得先验知识的提示信息，将所述动态行为分析报告解析得到的动态特征与先验知识的提示信息编码得到的提示向量输入bert模型进行监督学习，通过反向传播计算损失函数的梯度并对bert模型进行优化，通过传统机器学习算法对bert模型的输出特征进行进一步的学习并将结果与bert模型的输出特征进行加权融合；

4、通过训练好的bert模型对未知的恶意软件样本进行分类，并对分类结果进行解释。

5、本专利技术提供的一种基于恶意代码的自动化动态特征溯源方法具有高效、精准、易于维护且具备一定可解释性的技术效果。

6、可选地，分析得恶意软件的动态行为分析报告的步骤为：利用脚本将恶意软件的哈希值批量上传到virustotal平台，查询并下载对应的json格式动态行为分析报告。

7、可选地，所述动态行为分析报告解析得动态特征的步骤为：利用自动化脚本对所述动态行为分析报告进行批量解析，提取出与恶意软件行为分析密切相关的字段为恶意软件的动态特征。

8、可选地，所述动态行为分析报告解析得动态特征后转换为先验知识的提示信息的步骤为：对所述动态特征进行调整和清理转换为bert模型输入的文本格式，并通过预定义的提示模版将所述数据工具处理后的动态特征转化为结构化的先验知识的提示信息。

9、可选地，得到先验知识的提示信息后，采用提示调优技术将提示信息编码为可训练的提示向量，并对所述提示向量优化后与所述动态特征一起输入bert模型。

10、可选地，bert模型的输入在多层编码层生成深层的特征表示，采用多层优化策略，在多个编码层都引入提示向量进行优化，bert模型的输出特征通过最后一层的cls标记或对多个层的输出进行池化处理获得。

11、可选地，通过反向传播计算损失函数的梯度并对bert模型进行优化时，损失函数使用交叉熵损失函数。

12、可选地，通过传统机器学习算法对bert模型的输出特征进行进一步的学习时，可采用的传统机器学习算法包括：逻辑回归、支持向量机、随机森林。

13、可选地，通过传统机器学习算法对bert模型的输出特征进行进一步的学习并将结果与bert模型的输出特征进行加权融合时，bert模型与传统机器学习方法采用端到端的训练方式，共享损失函数。

14、可选地，通过训练好的bert模型对未知的恶意软件样本进行分类时，设置分类置信阈值，当预测概率低于预设置信阈值时，将结果标记为进一步分析。

本文档来自技高网...

【技术保护点】

1.一种基于恶意代码的自动化动态特征溯源方法，其特征在于，包括以下步骤：计算恶意软件样本的哈希值并进行分析得恶意软件的动态行为分析报告，基于所述动态行为分析报告解析转换得先验知识的提示信息，将所述动态行为分析报告解析得到的动态特征与先验知识的提示信息编码得到的提示向量输入BERT模型进行监督学习，通过反向传播计算损失函数的梯度并对BERT模型进行优化，通过传统机器学习算法对BERT模型的输出特征进行进一步的学习并将结果与BERT模型的输出特征进行加权融合；

2.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，分析得恶意软件的动态行为分析报告的步骤为：利用脚本将恶意软件的哈希值批量上传到VirusTotal平台，查询并下载对应的JSON格式动态行为分析报告。

3.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，所述动态行为分析报告解析得动态特征的步骤为：利用自动化脚本对所述动态行为分析报告进行批量解析，提取出与恶意软件行为分析密切相关的字段为恶意软件的动态特征。

4.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，所述动态

5.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，得到先验知识的提示信息后，采用提示调优技术将提示信息编码为可训练的提示向量，并对所述提示向量优化后与所述动态特征一起输入BERT模型。

6.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，BERT模型的输入在多层编码层生成深层的特征表示，采用多层优化策略，在多个编码层都引入提示向量进行优化，BERT模型的输出特征通过最后一层的CLS标记或对多个层的输出进行池化处理获得。

7.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，通过反向传播计算损失函数的梯度并对BERT模型进行优化时，损失函数使用交叉熵损失函数。

8.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，通过传统机器学习算法对BERT模型的输出特征进行进一步的学习时，可采用的传统机器学习算法包括：逻辑回归、支持向量机、随机森林。

9.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，通过传统机器学习算法对BERT模型的输出特征进行进一步的学习并将结果与BERT模型的输出特征进行加权融合时，BERT模型与传统机器学习方法采用端到端的训练方式，共享损失函数。

10.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，通过训练好的BERT模型对未知的恶意软件样本进行分类时，设置分类置信阈值，当预测概率低于预设置信阈值时，将结果标记为进一步分析。

...

【技术特征摘要】

1.一种基于恶意代码的自动化动态特征溯源方法，其特征在于，包括以下步骤：计算恶意软件样本的哈希值并进行分析得恶意软件的动态行为分析报告，基于所述动态行为分析报告解析转换得先验知识的提示信息，将所述动态行为分析报告解析得到的动态特征与先验知识的提示信息编码得到的提示向量输入bert模型进行监督学习，通过反向传播计算损失函数的梯度并对bert模型进行优化，通过传统机器学习算法对bert模型的输出特征进行进一步的学习并将结果与bert模型的输出特征进行加权融合；

2.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，分析得恶意软件的动态行为分析报告的步骤为：利用脚本将恶意软件的哈希值批量上传到virustotal平台，查询并下载对应的json格式动态行为分析报告。

4.根据权利要求1所述的自动化动态特征溯源方法，其特征在于，所述动态行为分析报告解析得动态特征后转换为先验知识的提示信息的步骤为：对所述动态特征进行调整和清理转换为bert模型输入的文本格式，并通过预定义的提示模版将所述数据工具处理后的动态特征转化为结构化的先验知识的提示信息。

5.根据权利要求1所述的...

【专利技术属性】
技术研发人员：田志宏，周梨，吴未，刘园，孙彦斌，鲁辉，苏申，李默涵，仇晶，
申请(专利权)人：广州大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人