一种文件数据采集方法、系统、电子设备和介质技术方案

技术编号：20992513 阅读：17 留言：0更新日期：2019-04-29 22:30

本申请提供了一种文件数据采集方法、系统、电子设备和介质。所述方法包括：在第N个采集周期中，获取以时间标识作为顺序排列的第一文件列表，并获取所述第一文件列表中最后一个文件的时间标识作为第一时间标识，N≥1；将第一文件列表中的文件进行采集；在第N+1个采集周期中，获取时间标识大于等于所述第一时间标识的第二文件列表；将所述第二文件列表中与所述第一文件列表文件不重复的文件进行采集。从而实现保证文件数据采集的连贯性并且不重复采集。

A Document Data Acquisition Method, System, Electronic Equipment and Media

This application provides a document data acquisition method, system, electronic equipment and medium. The method includes: in the N-th acquisition cycle, acquiring the first file list arranged in sequence by time identification, and acquiring the time identification of the last file in the first file list as the first time identification, N>1; collecting the files in the first file list; and in the N+1 acquisition cycle, acquiring time identification is greater than or equal to the first time identification. The second file list; the files in the second file list that do not duplicate the first file list file are collected. In order to ensure the consistency of file data acquisition and do not repeat the acquisition.

全部详细技术资料下载

【技术实现步骤摘要】
一种文件数据采集方法、系统、电子设备和介质
本申请涉及一种文件数据采集方法、系统、电子设备和介质。
技术介绍
日志文件是记录在操作系统或其他软件运行中发生的事件或在通信软件的不同用户之间的消息的文件。但在系统的日常操作中，经常会产生各种各样的日志文件，如果不加以处理，会导致单个日志文件体积过于臃肿，不利于后期排查。因此需要对日志文件定期操作，比如每天将日志文件打包备份，重新编排版本号等。滚动日志文件是一种日志文件生成方式，为防止日志文件过大，当文件增长到一定程度的时候，就会切换到一个新的文件写入。在文件生成过程中，根据不同的策略，可能会对文件改名，如log4j采用的策略是.log永远是最新，然后是.log.1。这种策略下，文件会不断改名。但滚动日志在增量采集时使用文件名访问无法确认是否同一个文件。目前的采集方式一般使用文件的索引节点inode来识别同一文件，由于采集一般使用定时任务，在日志快速增长时，可能一个周期中生成了多个文件，在没有inode辅助的时候无法找到上一周期采集的文件，也就无法从上一次采集的最后的日志开始继续采集，且保证数据采集的连贯性并且不重复采集。并且文件的索引节点inode仅在linux环境下有效，对于windows环境下的文件，文件的索引节点inode无效，因此这种采集方式在windows环境下不能使用。
技术实现思路
本申请的一个方面提供了一种文件数据采集方法，所述方法包括：在第N个采集周期中，获取以时间标识作为顺序排列的第一文件列表，并获取所述第一文件列表中最后一个文件的时间标识作为第一时间标识，N≥1；将第一文件列表中的文件进行采集...

【技术保护点】
1.一种文件数据采集方法，其特征在于，所述方法包括：在第N个采集周期中，获取以时间标识作为顺序排列的第一文件列表，并获取所述第一文件列表中最后一个文件的时间标识作为第一时间标识，N≥1；将第一文件列表中的文件进行采集；在第N+1个采集周期中，获取时间标识大于等于所述第一时间标识的第二文件列表；将所述第二文件列表中与所述第一文件列表文件不重复的文件进行采集。

【技术特征摘要】
1.一种文件数据采集方法，其特征在于，所述方法包括：在第N个采集周期中，获取以时间标识作为顺序排列的第一文件列表，并获取所述第一文件列表中最后一个文件的时间标识作为第一时间标识，N≥1；将第一文件列表中的文件进行采集；在第N+1个采集周期中，获取时间标识大于等于所述第一时间标识的第二文件列表；将所述第二文件列表中与所述第一文件列表文件不重复的文件进行采集。2.根据权利要求1中所述的方法，其特征在于，所述获取以时间标识作为顺序排列的第一文件列表，包括：扫描日志文件中的文件目录，获取第一文件和与所述第一文件对应的时间标识；将所述第一文件、所述所述第一文件对应的时间标识根据所述时间表间标识的先后进行顺序排列，形成所述第一文件列表。3.根据权利要求1中所述的方法，其特征在于，所述获取时间标识大于等于所述第一时间标识的第二文件列表，包括：扫描日志文件中的文件目录，获取时间标识大于等于所述第一时间标识的第二文件和与所述第二文件对应的时间标识；将所述第二文件和与所述第二文件对应的时间标识根据所述时间表间标识的先后进行顺序排列，形成所述第二文件列表。4.根据权利要求1中所述的方法，其特征在于，在所述并获取所述第一文件列表中最后一个文件的时间标识作为第一时间标识之后，还包括：获取所述第一文件列表中最后一个文件的文件尾部位置指针。5.根据权利要求1中所述的方法，其特征在于，所述将所述第二文件列表中与所述第一文件列表文件不重复的文件进行采集，包括：判断所述第二...

【专利技术属性】
技术研发人员：叶盛，李凯，
申请(专利权)人：北京奇安信科技有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人