一种非结构化数据存储系统及方法技术方案

技术编号:10545313 阅读:211 留言:0更新日期:2014-10-15 19:33
本发明专利技术提供一种非结构化数据存储系统及方法,包括:源系统数据服务器存储企业业务系统特征数据;XML生成器服务器根据源系统数据服务器的记录特征生成XML文件,并将源系统数据服务器中的非结构化数据文件本体进行提取,以与XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;XML解析器服务器将XML文件按照字段匹配规则进行解析,获取XML文件对应的属性和分类信息;并根据XML文件对应的属性和分类信息,将配对后的XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;非结构化数据服务器存储配对后的XML文件与非结构化数据文件本体的对应关系。本发明专利技术可以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中。

【技术实现步骤摘要】
一种非结构化数据存储系统及方法
本专利技术涉及企业信息化技术,尤其涉及一种非结构化数据存储系统及方法。
技术介绍
BPM(BusinessProcessManagement,即业务流程管理,是一套达成企业各种业务环节整合的全面管理方式,它通常以网络方式实现信息传递、数据同步、业务监控和企业业务流程的持续升级与优化)是提高现代企业信息化水平的重要技术。使用统一的流程描述规范对业务进行形式化定义,可以方便的完成企业的信息化系统集成、再造等工作,实现信息化系统的明确业务分割。在BPM过程的系统实现层面,常会涉及到多个业务子系统的数据交互问题:多个业务数据上可能存在相互依赖的系统采用不同的数据存储和传输规范,从而为系统间进行数据交互带来了较大障碍,这在遗留系统间以及遗留系统与新开发系统的交互过程中最为常见。为解决该类问题,通常需要为系统间的数据接口开发相应的数据读写系统,以实现正常的数据交互。电力行业企业中普遍部署了ERP(EnterpriseResourcePlanning,即企业资源计划,是针对物资资源管理、人力资源管理、财务资源管理、信息资源管理集成一体化的企业管理软件套件,是现代企业信息化主流解决方案的重要组成部分)、电力MIS(ManagementInformationSystem,即管理信息系统是一个以人为主导,利用计算机软硬件、网络通信设备以及其它办公设备,进行信息的收集、传输、加工、储存、更新和维护,以企业战略竞优、提高效益和效率为目的,支持企业的高层决策、中层控制和基层运作的集成化人机系统)等系统。通常使用ERP进行企业财务、资产、运营等方面的管理,而使用电力MIS进行两票、设备、检修等生产任务的管理。上述系统在国内市场已形成较为成熟的产品系列,多数解决方案中的业务数据采用结构化存储方式,即将数据存放于数据库的多个二维数据表中。而对业务数据中的非结构化数据(相对于结构化数据(行数据,存储在数据库中,可以用二维表结构来逻辑表达实现的数据)而言,无法用数据库二维逻辑表来表示的数据称为非结构化数据,主要包括各种格式的计算机文件,包括大文本、图片、音频、视频等格式),则主要有两种存储方式:一种是将非结构化数据本身作为一个二进制串,直接作为字段存放在数据库表的记录中;另一种则是在数据库表中存放指向非结构化数据存储路径的URL(UniformResourceLocator,统一资源定位符),而将非结构化数据本身存放在独立的文件系统中。在电力企业内,上述系统中的非结构化文件主要包括各类设备设计文档、合同及说明文件、技术报告和检测报告、现场录音录像等,它们通常以附件的形式组织在系统流程中。在一般情况下,这些附件无法直接查找,也无法按类别、属性进行索引,只能通过查找所关联的业务流程,间接的获取相关信息。而电力企业为了掌握这部分生产相关的非结构化数据,需要建立专门用于存储和管理非结构化数据的数据存储系统,对非结构化数据按照不同的属性维度(比如按照年份、设备类型、制造商、重要程度等)进行分类索引,以方便从不同角度对其进行搜索和管理。在上述背景下,如何对原有业务流程和生产信息管理系统中的非结构化数据和与之关联的结构化属性进行自动化的提取,建立原有系统中的流程、数据记录与非结构化数据存储系统中的非结构化文档的对应关系就成为本领域的技术人员所要解决的问题。现有技术业务流程系统中结构化数据的提取尚未形成通用的技术规范,目前较为主流的方法是开发独立的数据读写模块,以构建单个源系统与目标系统之间的数据读写通道,使用该种解决方案,一般需要如下步骤:首先确定目标系统进行非结构化数据存储所需的分类以及属性信息,整理出对应的源系统应提供的字段列表;查看数据库,确定非结构化数据本体的存放位置,如果直接以大字段方式存储,则对该字段进行反序列化,否则根据非结构化数据本体的存储路径读取数据本体;针对特定的源系统开发适配工具,在该适配工具中配置源系统数据库参数,从源系统数据库中分别读取非结构化数据和需要抽取的对应特征数据字段;适配工具调用目标系统接口,将源系统抽取的特征数据按照匹配规则作为相应非结构化文档的属性/类别信息写入目标系统数据库,并根据属性/类别信息将非结构化数据写入目标系统。上述解决方案的主要缺点如下:开发成本高:需要为每个源系统开发一套独立的系统适配工具,以使源系统特征数据与目标系统(非结构化数据存储系统)的属性/类别字段相匹配;耦合程度高:该方案中源系统数据抽取与目标系统的数据写入均由同一个适配器完成,没有进行合理的功能区隔。无论是源系统数据存储结构出现变化,还是目标系统所使用的属性及类别发生调整,都需要对适配工具进行重新开发。尤其是存在多个源系统时,目标系统的调整将导致所有源系统适配工具的重新开发,从而适应调整后的非结构化数据关联属性;纠错难度高:由于各适配器直接读取源系统数据表格,不生成提取过程的中间文件,一旦发生错误仍需要读写源系统数据库进行追踪,并需要从数据提取步骤进行重新操作,修正成本较高。综上可见,如何设计一种自动化提取电力企业生产业务特征数据的方法,以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中,这是本领域的技术人员亟待解决的一个技术难题。
技术实现思路
本专利技术实施例提供一种非结构化数据存储系统及方法,以将各种类型源系统中的数据根据一定的业务规则导入至非结构化数据存储系统中。一方面,本专利技术实施例提供了一种非结构化数据存储系统,所述企业业务特征数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。可选的,在本专利技术一实施例中,所述XML生成器服务器将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。可选的,在本专利技术一实施例中,所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。可选的,在本专利技术一实施例中,所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。可选的,在本专利技术一实施例中,所述XML生成器服务本文档来自技高网
...
一种非结构化数据存储系统及方法

【技术保护点】
一种非结构化数据存储系统,其特征在于,所述企业业务特征数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。

【技术特征摘要】
1.一种非结构化数据存储系统,其特征在于,所述非结构化数据存储系统包括:源系统数据服务器、XML生成器服务器、XML解析器服务器、非结构化数据服务器,其中:所述源系统数据服务器,用于存储企业业务系统特征数据;所述XML生成器服务器,与所述源系统数据服务器相耦接,用于根据所述源系统数据服务器的记录特征生成XML文件,并将所述源系统数据服务器中的非结构化数据文件本体进行提取,以与所述XML文件进行配对,生成XML文件与非结构化数据文件本体的对应关系;所述XML解析器服务器,与所述XML生成器服务器相耦接,用于将所述XML文件按照字段匹配规则进行解析,获取所述XML文件对应的属性和分类信息;并根据所述XML文件对应的属性和分类信息,将配对后的所述XML文件与非结构化数据文件本体的对应关系存储到相应分类并赋予对应属性;所述非结构化数据服务器,与所述XML解析器服务器相耦接,用于存储配对后的所述XML文件与非结构化数据文件本体的对应关系。2.如权利要求1所述非结构化数据存储系统,其特征在于,所述XML生成器服务器将所述源系统数据服务器中的非结构化数据文件本体进行提取,包括:检索所述源系统数据服务器,确定非结构化数据文件本体的存放位置;根据所述非结构化数据文件本体的存放位置进行提取。3.如权利要求2所述非结构化数据存储系统,其特征在于,所述XML生成器服务器根据所述非结构化数据文件本体的存放位置进行提取,进一步包括:如果所述源系统数据服务器的非结构化数据文件本体直接以大字段方式在数据表中存储,则对所述大字段进行反序列化,否则根据非结构化数据文件本体的存储路径读取对应的非结构化数据文件本体。4.如权利要求1所述非结构化数据存储系统,其特征在于,所述非结构化数据服务器,以文件偶的形式存储配对后的所述XML文件与非结构化数据文件本体的对应关系。5.如权利要求1所述非结构化数据存储系统,其特征在于,所述XML生成器服务器根据所述源系统数据服务器的记录特征生成的XML文件中的单条记录的每个数据字段作为XML文件的一个节点,如果记录的某数据字段引用了其他表中的记录,则将该数据字段的引用记录作为当前字段节点的子节点。6.一种非结构化数据存储方法,其特征在于,所述方...

【专利技术属性】
技术研发人员:徐小天王刚陈威石磊陈乐然
申请(专利权)人:国家电网公司华北电力科学研究院有限责任公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1