【技术实现步骤摘要】
本专利技术属于安全
,涉及一种基于网页知识发现的PoC程序提取方法,实现了安全漏洞对应PoC程序的提取。
技术介绍
安全漏洞是信息技术、信息产品、信息系统在需求、设计、实现、配置、运行等过程中产生的缺陷,这些缺陷一旦被恶意主体利用,就会对信息系统的安全造成损害,从而危害信息系统及信息的安全。近年来由安全漏洞导致的网络安全事件层出不同,如2014年iCloud被黑客攻击导致大量私人照片泄露,2015年全球最大婚外情网站Ashley Madision被黑客攻击导致10G用户数据被窃取,2015年网易邮箱被破解导致近5亿条用户数据被泄露。PoC(Proof of Concept,中文翻译为概念验证)程序又称作验证程序,在本专利技术中特指用于验证安全漏洞的测试代码。PoC程序可以验证安全漏洞是否确实存在,还可以演示该漏洞的利用方式,因此被广泛应用于渗透测试(通过模拟恶意黑客的攻击方法,来评估安全性)、安全漏洞验证等领域,从而在实际应用中,常常需要大量的PoC程序作为测试样例。然而,目前并没有准确、可靠的PoC程序来源。漏洞库是网络安全隐患分析的重要资源,用于收集和整理漏洞信息。权威漏洞库包括美国国家信息安全漏洞库(NVD,National Vulnerability Database)、中国国家信息安全漏洞库(CNNVD,China National Vulnerability Database of Information Security)、乌云(WooYun)漏洞库等。截止2016年5月23日,NVD中CVE(Common Vulnerabiliti ...
【技术保护点】
一种基于网页知识发现的PoC程序提取方法,其步骤包括:1)从权威漏洞库中获取所有安全漏洞对应的网页内容,并从上述网页内容中提取得到安全漏洞描述语句集、非安全漏洞描述语句集、PoC程序描述语句集和非PoC程序描述语句集;2)将步骤1)中得到的4个描述语句集作为训练样本,提取训练样本的特征集,基于深度学习框架,建立网页分类器和Comment分类器,网页分类器用于判断输入内容是否与安全漏洞相关,Comment分类器用于判断输入内容是否在描述PoC程序;3)根据待测安全漏洞的特征,从相应权威漏洞库获取该待测安全漏洞的网页内容,输入步骤2)建立的网页分类器和Comment分类器,提取待测安全漏洞的PoC程序。
【技术特征摘要】
1.一种基于网页知识发现的PoC程序提取方法,其步骤包括:1)从权威漏洞库中获取所有安全漏洞对应的网页内容,并从上述网页内容中提取得到安全漏洞描述语句集、非安全漏洞描述语句集、PoC程序描述语句集和非PoC程序描述语句集;2)将步骤1)中得到的4个描述语句集作为训练样本,提取训练样本的特征集,基于深度学习框架,建立网页分类器和Comment分类器,网页分类器用于判断输入内容是否与安全漏洞相关,Comment分类器用于判断输入内容是否在描述PoC程序;3)根据待测安全漏洞的特征,从相应权威漏洞库获取该待测安全漏洞的网页内容,输入步骤2)建立的网页分类器和Comment分类器,提取待测安全漏洞的PoC程序。2.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,所述权威漏洞库包括:美国国家信息安全漏洞库NVD、中国国家信息安全漏洞库CNNVD和乌云漏洞库WooYun。3.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤1)具体包括以下步骤:1-1)从权威漏洞库获取针对所有安全漏洞的安全漏洞网页集;1-2)对步骤1-1)获取的安全漏洞网页集中的所有网页内容做分句处理,得到语句集;1-3)在步骤1-2)得到的语句集中,将描述内容与安全漏洞相关的语句归入安全漏洞描述语句集,与安全漏洞无关的语句归入非安全漏洞描述语句集;将在描述PoC程序的语句归入PoC程序描述语句集,将未在描述PoC程序的语句归入非PoC程序描述语句集。4.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤2)通过以下方法提取训练样本的特征集:先提取训练样本中每个词的词向量,以此类推,一个词对应一个词向量,一个句子由多个词组成,整合每个词的词向量形成词矩阵,词矩阵集为训练样本的特征集。5.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,所述深度学习框架包括卷积神经网络算法。6.如权利要求1所述的基于网页知识发现的PoC程序提取方法,其特征在于,步骤2)中建立网页分类器的步骤具体包括:2-1-1)基于步骤1)得到的安全漏洞描述语句集和非安全漏洞描述语句集,建立网页分类器的训练样本集;2-1-2)针对步骤2-1-1)建立的训练样本集进行特征提取,建立网页分类特征集;2-1-3)将步骤2-1-2)建立的网页分类特征集输入深度学习框架,训练网页分类模型,建立网页分类器。7.如权利要求1所述的基于网页知识发现的PoC程序提取方法,...
【专利技术属性】
技术研发人员:黄小芳,武志飞,赵丝喆,吴敬征,杨牧天,李牧,武延军,
申请(专利权)人:中国科学院软件研究所,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。