System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大语言模型的Web应用识别方法、装置、设备和介质制造方法及图纸_技高网

基于大语言模型的Web应用识别方法、装置、设备和介质制造方法及图纸

技术编号:43446176 阅读:12 留言:0更新日期:2024-11-27 12:50
本发明专利技术公开了一种基于大语言模型的Web应用识别方法、装置、设备和介质,所述方法包括:将Web应用的原始页面数据与Web应用之间建立关联关系,并存储至应用数据库;对待识别Web页面进行数据抽取,抽取得到待识别页面数据;使用大语言模型对所述待识别页面数据和所述应用数据库中的原始页面数据进行相似度评估;若所述大语言模型的评估结果为相似,则输出对应的Web应用名称,并将输出的Web应用名称作为Web应用识别结果。采用上述技术方案,在进行Web应用的识别过程中,无需重复进行复杂繁琐的页面特征提取工作,也无需频繁地重新训练模型,该方法具有通用性强、灵活性高的特点,适用于各类Web应用识别场景,且识别准确度较高。

【技术实现步骤摘要】

本专利技术涉及网络安全,尤其涉及一种基于大语言模型的web应用识别方法、装置、设备和介质。


技术介绍

1、在网络安全领域,web应用识别的重要性不容忽视。随着网络技术的飞速发展,web应用已经成为网络攻击的主要目标,如跨站脚本攻击(xss)、sql注入和通用组件nday漏洞利用等。准确、实时地识别web应用对于防范和响应这些攻击至关重要。通过web应用识别,网络管理员能够及时对网络资产进行梳理,并对web应用进行安全风险评估,进而采取相应的安全措施,以增强业务系统的安全性。

2、尽管web应用识别在网络安全领域具有重要意义,但当前面临的技术困难也不容忽视。web应用的种类繁多,不同应用之间的差异性较大,非结构化数据难以处理,这使得准确识别特定web应用变得具有一定的挑战性。

3、现有技术中采用的web应用识别方案,主要为两类,第一类是基于文本特征匹配算法的识别方案,但是由于当前web应用的种类日益增多,基于文本特征匹配的方法需要持续不断地针对新的应用提取相应的文本特征,并且存在文本范围较大和文本特征不明显的情况,导致该方案费时费力的同时,识别结果不准确;第二类是基于传统机器学习分类算法的方法,为了能够识别新的应用类型,类似的,在当前web应用的种类日益增多的情况下,往往需要针对新web应用重新对模型进行训练,这导致该类方案的实施同样费时费力且识别结果不准确。


技术实现思路

1、专利技术目的:本专利技术提供一种基于大语言模型的web应用识别方法、装置、设备和介质,旨在解决现有技术中存在的面对web应用的种类和数量不断增长时,需要不断的进行新web应用的文本特征提取或机器学习导致的时间成本较高且识别准确度较低的技术问题。

2、技术方案:本专利技术提供一种基于大语言模型的web应用识别方法,包括:获取web应用的原始页面数据,将原始页面数据与web应用之间建立关联关系,将建立完成关联关系的web应用名称和对应的原始页面数据存储至应用数据库;对待识别web页面进行数据抽取,抽取得到待识别页面数据;使用大语言模型对所述待识别页面数据和所述应用数据库中的原始页面数据进行相似度评估;若所述大语言模型的评估结果为相似,则输出与所述待识别页面数据相似的原始页面数据对应的web应用名称,并将输出的web应用名称作为web应用识别结果。

3、具体的,在web应用页面的原始页面数据中,筛选资产特征页面数据。

4、具体的,在web应用页面的原始页面数据中,筛选页面的头部部分数据、尾部部分数据和注释内容数据。

5、具体的,在web应用页面的原始页面数据中,筛选javascript或css文件,获取javascript或css文件的文件结构,以及非通用库的javascript或css文件的文件名称。

6、具体的,通过http探测方式对待识别web页面进行数据抽取,抽取的数据包括如下三种数据类型中的至少一种:第一数据类型:资产特征页面数据;第二数据类型:头部部分数据、尾部部分数据和注释内容数据;第三数据类型:javascript或css文件的文件结构,以及非通用库的javascript或css文件的文件名称。

7、具体的,使用大语言模型对从待识别web页面中抽取的数据,和所述应用数据库中的原始页面数据中对应的数据类型进行相似度评估,得到每种数据类型的相似度评估结果后,按照数据类型之间的权重比例加权求和输出相似度评估结果。

8、具体的,若所述大语言模型的评估结果为不相似,则对所述应用数据库进行遍历,使用大语言模型对所述待识别页面数据和下一项原始页面数据进行相似度评估,直到评估结果为相似或数据库遍历结束停止。

9、本专利技术还提供一种基于大语言模型的web应用识别装置,包括:数据库建立单元、数据抽取单元、相似度评估单元和执行单元,其中:所述数据库建立单元,用于获取web应用的原始页面数据,将原始页面数据与web应用之间建立关联关系,将建立完成关联关系的web应用名称和对应的原始页面数据存储至应用数据库;所述数据抽取单元,用于对待识别web页面进行数据抽取,抽取得到待识别页面数据;所述相似度评估单元,用于使用大语言模型对所述待识别页面数据和所述应用数据库中的原始页面数据进行相似度评估;所述执行单元,若所述大语言模型的评估结果为相似,则输出与所述待识别页面数据相似的原始页面数据对应的web应用名称,并将输出的web应用名称作为web应用识别结果。

10、具体的,所述数据库建立单元,还用于在web应用页面的原始页面数据中,筛选资产特征页面数据。

11、具体的,所述数据库建立单元,还用于在web应用页面的原始页面数据中,筛选页面的头部部分数据、尾部部分数据和注释内容数据。

12、具体的,所述数据库建立单元,还用于在web应用页面的原始页面数据中,筛选javascript或css文件,获取javascript或css文件的文件结构,以及非通用库的javascript或css文件的文件名称。

13、具体的,所述数据抽取单元,还用于通过http探测方式对待识别web页面进行数据抽取,抽取的数据包括如下三种数据类型中的至少一种:第一数据类型:资产特征页面数据;第二数据类型:头部部分数据、尾部部分数据和注释内容数据;第三数据类型:javascript或css文件的文件结构,以及非通用库的javascript或css文件的文件名称。

14、具体的,所述相似度评估单元,还用于使用大语言模型对从待识别web页面中抽取的数据,和所述应用数据库中的原始页面数据中对应的数据类型进行相似度评估,得到每种数据类型的相似度评估结果后,按照数据类型之间的权重比例加权求和输出相似度评估结果。

15、具体的,所述执行单元,还用于若所述大语言模型的评估结果为不相似,则对所述应用数据库进行遍历,使用大语言模型对所述待识别页面数据和下一项原始页面数据进行相似度评估,直到评估结果为相似或数据库遍历结束停止。

16、本专利技术还提供一种电子设备,包括存储器以及处理器,在所述存储器中存储有可被所述处理器执行的计算机程序,当所述计算机程序被所述处理器执行时,执行本专利技术提供的任一项所述的基于大语言模型的web应用识别方法。

17、本专利技术还提供一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现本专利技术提供的任一项所述的基于大语言模型的web应用识别方法的步骤。

18、有益效果:与现有技术相比,本专利技术具有如下显著优点:在进行web应用的识别过程中,无需重复进行复杂繁琐的页面特征提取工作,也无需频繁地重新训练模型,该方法具有通用性强、灵活性高的特点,适用于各类web应用识别场景,且识别准确度较高。

本文档来自技高网...

【技术保护点】

1.一种基于大语言模型的Web应用识别方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的Web应用识别方法,其特征在于,所述获取Web应用的原始页面数据,包括:

3.根据权利要求1所述的基于大语言模型的Web应用识别方法,其特征在于,所述获取Web应用的原始页面数据,包括:

4.根据权利要求1所述的基于大语言模型的Web应用识别方法,其特征在于,所述获取Web应用的原始页面数据,包括:

5.根据权利要求1所述的基于大语言模型的Web应用识别方法,其特征在于,所述对待识别Web页面进行数据抽取,包括:

6.根据权利要求5所述的基于大语言模型的Web应用识别方法,其特征在于,所述使用大语言模型对所述待识别页面数据和所述应用数据库中的原始页面数据进行相似度评估,包括:

7.根据权利要求6所述的基于大语言模型的Web应用识别方法,其特征在于,在所述使用大语言模型对所述待识别页面数据和所述应用数据库中的原始页面数据进行相似度评估,之后包括:

8.一种基于大语言模型的Web应用识别装置,其特征在于,包括:数据库建立单元、数据抽取单元、相似度评估单元和执行单元,其中:

9.一种电子设备,其特征在于,包括存储器以及处理器,在所述存储器中存储有可被所述处理器执行的计算机程序,当所述计算机程序被所述处理器执行时,执行上述权利要求1至7中任一项所述的基于大语言模型的Web应用识别方法。

10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的基于大语言模型的Web应用识别方法的步骤。

...

【技术特征摘要】

1.一种基于大语言模型的web应用识别方法,其特征在于,包括:

2.根据权利要求1所述的基于大语言模型的web应用识别方法,其特征在于,所述获取web应用的原始页面数据,包括:

3.根据权利要求1所述的基于大语言模型的web应用识别方法,其特征在于,所述获取web应用的原始页面数据,包括:

4.根据权利要求1所述的基于大语言模型的web应用识别方法,其特征在于,所述获取web应用的原始页面数据,包括:

5.根据权利要求1所述的基于大语言模型的web应用识别方法,其特征在于,所述对待识别web页面进行数据抽取,包括:

6.根据权利要求5所述的基于大语言模型的web应用识别方法,其特征在于,所述使用大语言模型对所述待识别页面数据和所述应用数据库中的原始页面数据进行相似度评估...

【专利技术属性】
技术研发人员:蒋甜朱其刚詹雄汪明程震陈伟李圆智朱孟江欧阳亨威庞晴晴
申请(专利权)人:南京南瑞信息通信科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1