通用数据处理方法及引擎技术

技术编号：42750254 阅读：32 留言：0更新日期：2024-09-18 13:40

本发明专利技术提供一种通用数据处理方法及引擎，包括：获取数据中台的日志数据；获取用于对日志数据进行数据加工的配置信息，所述配置信息包括配置状态信息、数据加工间隔时间信息、待加工日志字段信息、数据预处理信息以及数据加工操作信息；基于获取的日志数据、数据加工间隔时间信息和待加工日志字段信息确定待加工日志数据，并基于数据预处理信息对待加工日志数据进行数据预处理，基于数据加工操作信息对数据预处理后的待加工日志数据进行数据加工得到安全风险识别模型输入数据。该方法及引擎可方便且高效的为不同安全风险识别模型提供用于识别安全风险的规范数据集。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及计算机，尤其涉及一种通用数据处理方法及引擎。

技术介绍

1、在大数据时代的背景下，数据中台中每天存在着数以亿计的数据交互，其中往往存在着或来自外部、或来自内部的数据交互风险，在这一场景下，数据交互安全的重要性日益提高。目前，数据中台中往往通过siem系统对数据交互过程中风险进行发现和处理。

2、siem软件通过收集从应用程序、设备、网络、基础设施和系统中产生的日志和事件数据来进行分析，并提供一个组织的信息技术(it)的整体视图。siem解决方案可以驻扎在企业内部或云环境中；siem解决方案实时分析所有数据，使用规则和统计关联来推动取证调查期间的行动洞察力；siem技术检查所有数据，根据其风险等级对威胁活动进行分类，以帮助安全团队识别恶意行为者并迅速缓解网络攻击。

3、siem解决方案已经存在了15年以上，但今天的现代siem已经从最初的同类产品中发展起来；mark nicolett和amrit williams在2005年gartner的一份研究报告中确立了"siem"这一术语，即通过漏洞管理提高it安全。这些传统的siem是将综合的安全方法组合成一个管理解决方案，包括日志管理系统(lms)，用于简单收集和集中存储日志的过程；安全信息管理(sim)，自动收集日志文件的工具，用于长期存储、分析和报告日志数据；安全事件管理(sem)，对系统和事件进行实时监控和关联的技术，带有通知和控制台视图。

4、siem系统中需要对多种数据交互风险进行判断，而这一风险识别工作往往由安全风险识别模型

5、现有技术中的用于进行安全识别的模型需与数据中台系统捆绑，耦合为一个大系统才能使用。数据中台的日志系统与安全识别模型均由大系统预置管理，直接基于预置的若干个模型的输入数据格式要求对数据进行数据处理；这种方法可对数据中台中的日志进行采集与风险判断，但该方法中风险识别模型被固定，并且对数据中台中的日志数据处理后得到的数据格式也是固定的，如系统预置针对sql注入攻击、ddos攻击等常见外部威胁的判断模型，此时所得到的待输入至风险识别模型的数据仅是与sql注入攻击风险识别模型和ddos攻击风险识别模型相匹配的数据；而对于bert等自然语言处理的安全识别模型，目前的方法无法为该类模型生成与其匹配的输入数据，因而目前在采用预置模型之外的其他模型进行风险识别时，往往需要借助其他的数据处理系统进行数据预处理以加工成与其数据输入格式相匹配的输入数据，导致数据加工效率不高，安全风险识别效率低的技术问题。

6、综上所述，目前所采用的数据处理方法虽然可为安全风险识别模型加工其需要的模型输入数据，但是目前普遍采用的数据处理方法存在着加工效率不高的问题，因此如何方便且高效的为不同安全风险识别模型提供用于识别安全风险的规范数据集是亟待解决的技术问题。

技术实现思路

1、有鉴于此，本专利技术提供了一种通用数据处理方法及引擎，以解决现有技术中存在的一个或多个问题。

2、根据本专利技术的一个方面，本专利技术公开了一种通用数据处理方法，所述方法包括：

3、获取数据中台的日志数据；

4、获取用于对所述日志数据进行数据加工的配置信息，所述配置信息包括配置状态信息、数据加工间隔时间信息、待加工日志字段信息、数据预处理信息以及数据加工操作信息；

5、基于获取的所述日志数据、数据加工间隔时间信息和待加工日志字段信息确定待加工日志数据，并基于所述数据预处理信息对所述待加工日志数据进行数据预处理，基于所述数据加工操作信息对数据预处理后的所述待加工日志数据进行数据加工得到安全风险识别模型输入数据。

6、在本专利技术的一些实施例中,所述方法还包括：

7、获取安全风险识别模型的模型信息，将所述安全风险识别模型输入数据输入至所述安全风险识别模型得到异常识别结果，所述模型信息包括模型名称、模型运行模式以及模型的存储路径。

8、在本专利技术的一些实施例中,所述方法还包括：

9、将所述异常识别结果转化为数据库条目并存储。

10、在本专利技术的一些实施例中,所述配置状态信息包括配置识别码、配置活跃状态、配置信息建立者和建立时间。

11、在本专利技术的一些实施例中,基于所述数据加工操作信息对数据预处理后的所述待加工日志数据进行数据加工得到安全风险识别模型输入数据，包括：

12、将所述数据加工操作信息进行解析得到任务列表；

13、将所述数据预处理后的待加工日志数据和所述任务列表输入至api接口；

14、所述api接口对所述数据预处理后的待加工日志数据进行数据加工。

15、在本专利技术的一些实施例中,所述配置信息包括数据输出格式，所述数据输出格式包括输出文件后缀和数据存放格式；

16、且将所述安全风险识别模型输入数据输入至所述安全风险识别模型得到异常识别结果，包括：

17、将所述安全风险识别模型输入数据转化为数据存放格式并保存为数据文件，数据文件的后缀为所述输出文件后缀；

18、将所述数据文件输入至所述安全风险识别模型得到异常识别结果。

19、根据本专利技术的另一方面，还公开了一种通用数据处理引擎，所述引擎包括：

20、日志信息管理模块，用于获取数据中台的日志数据，所述日志数据包括数据项描述信息、数据类型信息和业务类型信息；

21、数据加工配置模块，获取用于对所述日志数据进行数据加工的配置信息，所述配置信息包括配置状态信息、数据加工间隔时间信息、待加工日志字段信息、数据预处理信息以及数据加工操作信息；

22、通用数据加工模块，基于获取的所述日志数据、数据加工间隔时间信息和待加工日志字段信息确定待加工日志数据，并基于所述数据预处理信息对所述待加工日志数据进行数据预处理，基于所述数据加工操作信息对数据预处理后的所述待加工日志数据进行数据加工得到安全风险识别模型输入数据。

23、在本专利技术的一些实施例中，所述引擎还包括：

24、安全风险识别模型管理模块，用于获取安全风险识别模型的模型信息，将所述安全风险识别模型输入数据输入至所述安全风险识别模型得到异常识别结果，所述模型信息包括模型名称、模型运行模式以及模型的存储路径。

25、在本专利技术的一些实施例中，所述引擎还包括：

26、持久化模块，用于将所述异常识别结果转化为数据库条目并存储。

27、在本专利技术的一些实施例中，所述通用数据加工模块包括输入处理子模块、加工配置解析子模块、数据加工子模块以及输出处理本文档来自技高网...

【技术保护点】

1.一种通用数据处理方法,其特征在于,包括：

2.根据权利要求1所述的通用数据处理方法,其特征在于,所述方法还包括：

3.根据权利要求2所述的通用数据处理方法,其特征在于,所述方法还包括：

4.根据权利要求1所述的通用数据处理方法,其特征在于,所述配置状态信息包括配置识别码、配置活跃状态、配置信息建立者和建立时间。

5.根据权利要求1所述的通用数据处理方法,其特征在于,基于所述数据加工操作信息对数据预处理后的所述待加工日志数据进行数据加工得到安全风险识别模型输入数据，包括：

6.根据权利要求2所述的通用数据处理方法,其特征在于,所述配置信息包括数据输出格式，所述数据输出格式包括输出文件后缀和数据存放格式；

7.一种通用数据处理引擎，其特征在于，所述引擎包括：

8.根据权利要求7所述的通用数据处理引擎，其特征在于，所述引擎还包括：

9.根据权利要求8所述的通用数据处理引擎，其特征在于，所述引擎还包括：

10.根据权利要求7所述的数据处理引擎，其特征在于，所述通用数据加工模块包

...

【技术特征摘要】

1.一种通用数据处理方法,其特征在于,包括：

2.根据权利要求1所述的通用数据处理方法,其特征在于,所述方法还包括：

3.根据权利要求2所述的通用数据处理方法,其特征在于,所述方法还包括：

4.根据权利要求1所述的通用数据处理方法,其特征在于,所述配置状态信息包括配置识别码、配置活跃状态、配置信息建立者和建立时间。

...

【专利技术属性】
技术研发人员：周小明，宁辽逸，苏畅，齐俊，刘颖，王磊，于海，杜蕴成，魏思佳，罗晨，于鹏飞，杨正球，修佳鹏，郭少勇，石涵澎，
申请(专利权)人：国网辽宁省电力有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人