System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及数据导入与分析,特别是涉及一种excel台账到es数据仓库的数据同步及分析方法。
技术介绍
1、elast ic search(简称es),作为业界领先的搜索引擎,其卓越之处远不止于此。它同样是一款强大的数据分析引擎,凭借内置的aggregat ion api,能够轻松驾驭复杂的数据分析场景,无论是精准计算分组平均值、快速定位分组最大值,还是高效统计分组计数,es都能游刃有余地完成。
2、在数字化转型的浪潮中,虽然众多行业已率先实现业务数据的电子化与智能化升级,但不容忽视的是,许多传统领域尤其是涉密环境,仍依赖于古老的手工账本和传统的excel工具进行数据记录与分析,这不仅效率低下,且难以满足现代数据驱动的决策需求。
3、为此,引入先进的数字化技术显得尤为重要。它不仅能够实现手工账本数据的快速数字化转换,更能在这一基础上,运用其强大的数据分析能力,深度挖掘数据价值,为企业带来前所未有的洞察与竞争优势。
4、在数字化转型的浪潮中,虽然通过自动化业务系统实时监控数据变化,并高效同步至es进行深度分析已成为行业标配,这一流程拥有成熟且全面的技术支撑。然而,面对特定挑战——即在没有现成业务系统或数据尚未全面数字化的情境下,数据往往以传统excel台账的形式存在,这一环节的解决方案尚显不足。尤其是当数据需求进一步升级,涉及复杂的数据二次加工或跨表深度分析时,es的直接支持显得力不从心。
技术实现思路
1、鉴于上述问题,本专利技术提供用于克服上
2、本专利技术提供了如下方案:
3、一种excel台账到es数据仓库的数据同步及分析方法,包括:
4、确定表元数据的定义,所述表元数据包括若干不重复的字段名以及每个所述字段名对应的属性;若干所述字段名与待同步excel文件的表头包含的各个业务字段一一对应,所述属性与相对应的所述业务字段对应的数据类型相同;
5、利用读写excel电子表格文件的库加载所述待同步excel文件获取所有单元格数据;
6、对所有所述单元格数据进行表头解析与字段关联处理、数据解析与转换处理获得可被es搜索与数据分析引擎识别的待导入数据;
7、根据确定的导入方式将所述待导入数据和/或增量数据导入新的index中,以实现excel台账到es数据仓库的数据同步;
8、确定衍生字段,将所述衍生字段及对应的结果同步到所述es数据仓库;所述衍生字段包括公式字段或赋值字段;所述公式字段用于供用户对数字类型的数据进行处理,通过设定具体的公式,生成一个全新的与公式对应的字段;所述赋值字段用于通过条件判断逻辑为数据赋予新的意义。
9、优选地:所述读写excel电子表格文件的库包括pandas库、openpyxl库中的任意一种。
10、优选地:所述表头解析与字段关联处理包括:
11、从所述待同步excel文件的第一行数据读取获得表头数据;
12、根据预设的表模版中定义的字段的定义,将所述表头数据中的列名与所述表模版中定义的字段的名称进行匹配,建立所述表模版中定义的字段与列数据的关联。
13、优选地:所述数据解析与转换处理包括:
14、从表头以下一行开始,遍历所述待同步excel文件中的每一个单元格的数据;
15、根据所述单元格的数据所在列的表模版中定义的字段类型,确定数据类型的转换逻辑;
16、若任何所述单元格的数据的转换失败,则在该单元格的数据上设置错误标记。
17、优选地:所述字段类型包括文本类型,所述转换逻辑包括直接读取;
18、所述字段类型包括数字类型,所述转换逻辑包括尝试将文本转换为数字,若失败则记录错误;
19、所述字段类型包括日期类型,所述转换逻辑包括根据预设的日期格式规则尝试转换,若失败则记录错误;
20、所述字段类型包括时长类型,所述转换逻辑包括按预设时长格式规则转换时长为毫秒,若失败则记录错误。
21、优选地:完成所有cel l的解析后,汇总所有错误标记的cel l信息;
22、根据错误汇总信息,生成包含错误标记的excel文件;
23、若存在错误且配置要求严格,则终止流程,通知用户检查错误;
24、若允许容错,继续后续处理,同时提供错误报告供用户参考。
25、优选地:所述导入方式包括全量导入;
26、所述全量导入包括根据表结构定义,创建对应的es mapping,并随机生成一个独一无二的新index;
27、将全量数据写入所述新index中;
28、数据迁移完成后,将表的al ias指向所述新index,同时安全删除旧index;
29、若数据写入过程中发生错误,则删除所述新index,并向用户明确提示导入失败。
30、优选地:所述导入方式包括增量导入;
31、所述增量导入包括将现有的index复制一份作为新index;
32、向新index中写入本次需要同步的增量数据;
33、增量数据写入成功后,将表的al ias指向新index,并清理掉不再需要的旧index;
34、若增量数据写入失败,则删除新index,并向用户清晰展示导入失败信息。
35、优选地:所述衍生字段确定后对存量数据和新增数据进行处理;对于存量数据,遍历每一条记录,按照规则计算并生成衍生字段;对于新增数据,在数据同步的过程中实时应用规则。
36、优选地:在第一张表中配置一个目标字段,利用所述第一张表与第二张表的一个共有字段作为桥梁,建立所述第一张表与所述第二张表之间的关联。
37、根据本专利技术提供的具体实施例,本专利技术公开了以下技术效果:
38、本申请实施例提供的一种excel台账到es数据仓库的数据同步及分析方法,采用先进的数据集成技术,实现从excel台账到elast icsearch数据仓库的直接、实时同步,确保数据的完整性与时效性,为数据分析奠定坚实基础。在数据入库后,利用规则引擎,进行数据的清洗、转换、聚合等二次处理,提升数据质量,便于后续的高效分析与查询。打破传统excel台账的数据孤岛限制,通过elast icsearch的灵活查询与聚合功能,轻松实现跨表、跨维度的数据分析,为决策提供更为全面、深入的洞察。特别针对线下台账数据数字化需求设计,通过自动化、智能化的数据处理与分析流程,助力企业快速完成数据资产的数字化转型,提升业务运营效率与决策精准度。
39、当然,实施本专利技术的任一产品并不一定需要同时达到以上所述的所有优点。
本文档来自技高网...【技术保护点】
1.一种Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,包括:
2.根据权利要求1所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,所述读写Excel电子表格文件的库包括pandas库、openpyxl库中的任意一种。
3.根据权利要求1所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,所述表头解析与字段关联处理包括:
4.根据权利要求3所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,所述数据解析与转换处理包括:
5.根据权利要求4所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,所述字段类型包括文本类型,所述转换逻辑包括直接读取;
6.根据权利要求4所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,完成所有Cell的解析后,汇总所有错误标记的Cell信息;
7.根据权利要求1所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,所述导入方式包括全量导入;
8.根据权利要求1所述
9.根据权利要求1所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,所述衍生字段确定后对存量数据和新增数据进行处理;对于存量数据,遍历每一条记录,按照规则计算并生成衍生字段;对于新增数据,在数据同步的过程中实时应用规则。
10.根据权利要求1所述的Excel台账到ES数据仓库的数据同步及分析方法,其特征在于,在第一张表中配置一个目标字段,利用所述第一张表与第二张表的一个共有字段作为桥梁,建立所述第一张表与所述第二张表之间的关联。
...【技术特征摘要】
1.一种excel台账到es数据仓库的数据同步及分析方法,其特征在于,包括:
2.根据权利要求1所述的excel台账到es数据仓库的数据同步及分析方法,其特征在于,所述读写excel电子表格文件的库包括pandas库、openpyxl库中的任意一种。
3.根据权利要求1所述的excel台账到es数据仓库的数据同步及分析方法,其特征在于,所述表头解析与字段关联处理包括:
4.根据权利要求3所述的excel台账到es数据仓库的数据同步及分析方法,其特征在于,所述数据解析与转换处理包括:
5.根据权利要求4所述的excel台账到es数据仓库的数据同步及分析方法,其特征在于,所述字段类型包括文本类型,所述转换逻辑包括直接读取;
6.根据权利要求4所述的excel台账到es数据仓库的数据同步及分析方法,其特征在于,完成所...
【专利技术属性】
技术研发人员:王思杰,刘小波,陈昌金,林俊良,李尧,唐俊,张余平,
申请(专利权)人:中国兵器装备集团自动化研究所有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。