本公开提供了一种网站识别方法,包括:确定需要识别的网站,并为所述需要识别的网站分配标识值;以来自所述需要识别的网站的多个数据信息为输入样本,以所述标识值为输出进行深度学习以确定深度学习模型;抓取某一网站被访问时发送的外部数据信息;判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值;本公开通过深度学习的方法来预先确定了一个用于判定接收到的数据信息是否为需要屏蔽的数据的深度学习模型,从而提供了一种更加便于快速高效的判定抓取到的数据包所来自的网站的方法和系统。
【技术实现步骤摘要】
本公开涉及互联网
,特别涉及一种网站识别方法及系统。
技术介绍
随着互联网的发展,用户每天可以从网络当中获取各种各样的信息,而这些信息的来源我们却是不知道的,有些信息可能是我们真正需要的,但是有些信息却是网络强行推送给我们的,或者有些访问内容是安全的,有些内容是存在潜在危险的(例如,木马病毒)或者是在特定的环境下是需要进行屏蔽的(例如,企业网络中为了避免员工在工作时间观看视频、浏览购物网站等,就需要将来自这些网站的数据给屏蔽掉)。总之,互联网为我们提供海量数据信息的同时也是需要我们屏蔽或者接收来自某一数据网站的数据信息,这就需要识别数据信息所来自的网站。现有技术中面对互联网提供的海量的数据信息时,选择出需要的数据信息,或者屏蔽不需要的数据信息的方法为:当需要屏蔽某一来源的数据信息时就分析该来源的数据信息存在哪些个特征信息,然后将该特征信息抽离出来,当抓取到数据包时,比较分析抓取的数据包以确定其是否包括了被标定的特征信息,如果是则说明该信息是需要屏蔽的,如果否则表明该信息时可以接收的;此外对于只能接受有限个来源的数据的专用网络,相反可以提取该有限个来源的数据信息的特征信息进行标定,当抓取到数据包时,比较分析该数据包以确定其是否包括了别标定的特征信息,如果是则说明该信息是可以接收的信息,如果否则拒绝接收该数据信息;上述两种请情况都需要根据对数据包识别数据包所来自的网站。然而,现有技术的缺点在于,每一次抓取到来自外部的数据包后都需要解析该数据包,然后分析确定该数据包是否包括了被标定的特征信息以识别该数据包所来自的网站,由于每一次都要对接收的数据信息进行解析并做具体的分析判定需要比较大的运算开销,另外,由于现有技术中只是抽取了所谓的某一个“特征信息”来进行后期的判定的,但这种“特征信息”可能是在不断的变化的,因此,当“特征信息”发生变化时就会导致对接收到的数据包的误判或者漏判的情况。
技术实现思路
本公开提供一种网站识别方法及系统,用于至少解决上述技术问题之一。一方面本公开的一实施例的网站识别方法,包括:确定需要识别的网站,并为所述需要识别的网站分配标识值;以来自所述需要识别的网站的多个数据信息为输入样本,以所述标识值为输出进行深度学习以确定深度学习模型;抓取某一网站被访问时发送的外部数据信息;判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值。另一方面,本公开还提供一种基于深度学习的数据信息识别系统,包括:配置模块,用于为确定的需要识别的网站分配标识值;深度学习模型建立模块,用于以来自所述需要识别的网站的多个数据信息为输入样本,以所述标识值为输出进行深度学习以确定深度学习模型;数据抓取模块,用于抓取某一网站被访问时发送的外部数据信息;判断模块,用于判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值。本公开的网站识别方法和系统通过深度学习的方法来预先确定了一个用于判定接收到的数据信息是否为需要识别的数据的深度学习模型,该模型是根据接收到的整个数据信息来确定的,而不是数据信息中的某一个“特征信息”确定的,综合考虑了更多的因素,因此通过该深度学习模型得到的识别网站的识别结果的准确度有了极大提升,降低了对接收的数据包的误判或者漏判的概率,从而提供了一种更加便于快速高效的识别数据包所来自的网站的方法及系统。附图说明为了更清楚地说明本公开实施例的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1为本公开的网站识别方法的一实施例的流程图;图2为本公开的网站识别方法的另一实施例的流程图;图3为本公开的网站识别方法的又一实施例的流程图;图4为本公开的网站识别方法的再一实施例的流程图;图5为本公开的网站识别方法的又一实施例的流程图图6为本公开的网站识别系统的一实施例的示意图;图7为本公开中的网站识别系统中的数据抓取模块的一实施例的示意图;图8为本公开中的网站识别系统中的外部数据信息选取单元的一实施例的示意图;图9为本公开的网站识别系统中的第二选取组件的一实施例的示意图;图10为本公开的网站识别系统中的外部数据信息选取单元的另一实施例的示意图;图11为本公开中的用户设备的一实施例的示意图。具体实施例为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。需要说明的是,在不冲突的情况下,本申请中的实施例及实施例中的特征可以相互组合。本公开可用于众多通用或专用的计算系统环境或配置中。例如:个人计算机、服务器计算机、手持设备或便携式设备、平板型设备、多处理器系统、基于微处理器的系统、置顶盒、可编程的消费电子设备、网络PC、小型计算机、大型计算机、包括以上任何系统或设备的分布式计算环境等等。本公开可以在由计算机执行的计算机可执行指令的一般上下文中描述,例如程序模块。一般地,程序模块包括执行特定任务或实现特定抽象数据类型的例程、程序、对象、组件、数据结构等等。也可以在分布式计算环境中实践本公开,在这些分布式计算环境中,由通过通信网络而被连接的远程处理设备来执行任务。在分布式计算环境中,程序模块可以位于包括存储设备在内的本地和远程计算机存储介质中。最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”,不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。如图1所示,本公开的一实施例的网站识别方法,包括:S11、确定需要识别的网站,并为所述需要识别的网站分配标识值;S12、以来自所述需要识别的网站的多个数据信息为输入样本,以所述标识值为输出进行深度学习以确定深度学习模型;S13、抓取某一网站被访问时发送的外部数据信息;S14、判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值。本实施例通过深度学习的方法来预先确定了一个用于判定接收到的数据信息是否为需要识别的数据的深度学习模型,该模型是根据接收到的整个数据信息来确定的,而不是数据信息中的某一个“特征信息”确定的,综合考虑了更多的因素,因此通过该深度学习模型得到的识别网站的识别结果的准确度有了极大提升,降低了对接收的数据信息的误判或者漏判的概率,从而提供了一种更加便于快速高效的识别数据包所来自的网站的方法和系统。如图2所示,本公开的另一实施例的网站识别方法,其中,抓取某一网站被访问时发送的外部数据信息包括:S21、抓取多个数据包,并解析所述任意一个数据包以确定所对应的协议类型;S2本文档来自技高网...
【技术保护点】
一种网站识别方法,包括:确定需要识别的网站,并为所述需要识别的网站分配标识值;以来自所述需要识别的网站的多个数据信息为输入样本,以所述标识值为输出进行深度学习以确定深度学习模型;抓取某一网站被访问时发送的外部数据信息;判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值。
【技术特征摘要】
1.一种网站识别方法,包括:确定需要识别的网站,并为所述需要识别的网站分配标识值;以来自所述需要识别的网站的多个数据信息为输入样本,以所述标识值为输出进行深度学习以确定深度学习模型;抓取某一网站被访问时发送的外部数据信息;判断将所述外部数据信息输入所述深度学习模型得到的输出结果是否为所述标识值。2.根据权利要求1所述的方法,其中,所述抓取某一网站被访问时发送的外部数据信息包括:抓取多个数据包,并解析所述任意一个数据包以确定所对应的协议类型;根据确定的所述协议类型选取作为外部数据信息的数据包。3.根据权利要求2所述的方法,其中,当所述协议类型为http协议时,判断所述数据包的目的端口号是否为特定端口号;如果是,则所述根据确定的所述协议类型选取作为外部数据信息的数据包为:确定任意一个数据包为外部数据信息;如果否,则所述根据确定的所述协议类型选取作为外部数据信息的数据包为:确定前三个数据包为外部数据信息。4.根据权利要求3所述的方法,其中,确定前三个数据包为外部数据信息为:根据http三次握手通信确定被访问网站返回的起始SYN序列号;确定携带的SYN序列号等于所述起始SYN序列号的数据包为第一数据包;确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度之和的数据包为第二数据包;确定携带的SYN序列号等于所述起始SYN序列号与第一数据包长度和第二数据包长度之和的数据包为第三数据包。5.根据权利要求2所述的方法,其中,当所述协议类型为udp协议时,所述根据确定的所述协议类型选取作为外部数据信息的数据包为:解析抓取的所述多个数据包以确定所述多个数据包中具有递增趋势的特征序列号;将所述多个数据包按照所述特征序列号递增的方式进行排列;确定前三个数据包为外部数据信息。6.一种网站识别系统,包括:配置模块,用于为确定的需要识别的网站分配标识值;深度学习模型建立模块,用于以来自所述需要识别的网站的...
【专利技术属性】
技术研发人员:李洪福,李艳松,
申请(专利权)人:乐视控股北京有限公司,乐视云计算有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。