一种应用于海量标签化实体数据存储的工具和方法技术

技术编号:19544392 阅读:36 留言:0更新日期:2018-11-24 20:43
本发明专利技术公开了一种应用于海量标签化实体数据存储的工具和方法,属于海量数据存储、标签数据存储领域。该工具包括标签元数据模块、实体标签数据模块和统一存取API模块。用户输入用户名密码和请求,统一存取API模块根据用户名和密码,访问标签元数据模块并读取标签的元数据,按用户请求对元数据进行包装,转换成数据层的数据格式,传输到数据层的对应接口对标签数据执行操作,实体标签数据模块根据统一存取API模块发出的请求执行相应的操作,并对数据做持久化处理。同时实体标签数据模块将处理结果返回给统一存取API模块,统一存取API模块将数据进行包装按照规定格式返回到工具界面。本发明专利技术具有高针对性,可扩展性及持久性,支撑更高层次的业务需求。

A Tool and Method for Massive Labeled Entity Data Storage

The invention discloses a tool and method applied to mass labeled entity data storage, belonging to the field of mass data storage and label data storage. The tool includes tag metadata module, entity tag data module and unified access API module. Users input username password and request, access API module according to username and password, access tag metadata module and read tag metadata, package metadata according to user request, convert it into data format of data layer, transfer corresponding interface to data layer to perform operation on tag data, entity tag Data module performs corresponding operations according to requests from Unified Access API module, and persists data. At the same time, the entity label data module returns the processing results to the unified access API module, and the unified access API module returns the data package to the tool interface according to the prescribed format. The invention has high pertinence, expansibility and persistence, and supports higher level business requirements.

【技术实现步骤摘要】
一种应用于海量标签化实体数据存储的工具和方法
本专利技术涉及一种应用于海量标签化实体数据存储的工具和方法,属于海量数据存储、标签数据存储领域。
技术介绍
近年来,国内互联网业务不断发展,移动互联网技术不断成熟,但是随着业务的发展,数据的大量积累,数据分散的问题也越来越严重,导致数据的价值严重弱化,而类似于目标管理、自动智能推荐等系统或应用,又要求以完整的、高度融合的、准确的、时效的数据作为基础,这使得如何提取并存储高价值实体数据的问题,显得更加紧迫。在这样的背景下,标签系统、画像系统这类应用,受到越来越多的关注和研究。而在实际的业务场景中,实体标签并不是简简单单地存储一个标签值而已,还有许多存储问题关系到能否支撑上层业务,例如:如何根据业务发展的需求灵活地扩展标签体系?如何同时保存标签值的附加属性?如何设置标签值的生命周期?如何让标签值具备确认状态的属性,使得未确认的标签值不被发布?如何支撑标签值维度的自定义扩充?如何存储历史版本,以便支持版本回溯?以及如何实现海量离线数据的快速导入?等这些问题显然已经无法通过传统的存储模型,或者通过简单的关系型数据库来解决。
技术实现思路
本专利技术为了解决海量标签化实体数据存储过程中存在的各种实际问题,提供灵活高效的标签数据存储和访问,充分发挥标签数据的价值,从而支撑更高层次上的业务需求;提出了一种应用于海量标签化实体数据存储的工具和方法。所述的应用于海量标签化实体数据存储的工具,分布在互联网业务中,具体包括标签元数据模块、实体标签数据模块和统一存取API模块。互联网业务包括展现层,业务层和数据层;展现层为工具界面,标签元数据模块和统一存取API模块分布在业务层;实体标签数据模块分布在数据层;统一存取API模块作为桥梁连接展现层和数据层,同时还连接同层的标签元数据模块。用户通过工具界面输入用户名密码和请求,统一存取API模块根据用户名和密码,访问标签元数据模块并读取标签的元数据,按用户请求对元数据进行包装,转换成数据层的数据格式,传输到数据层的对应接口对标签数据执行操作,实体标签数据模块负责对标签数据进行增、删、改和查操作,根据统一存取API模块发出的请求执行相应的操作,从StoreServer中对数据进行操作,并对数据做持久化处理。同时将处理结果返回给统一存取API模块,统一存取API模块将数据进行包装按照规定格式返回到工具界面。统一存取API模块对标签元数据模块的元数据和实体标签数据模块的处理结果分别进行封装,并对客户端开放接口。客户端通过统一存取API模块管理标签元数据,包括标签的创建、修改、删除和查询操作;同时管理实体标签数据,包括实体的创建、删除、修改、查询,标签数据的人工确认、生命周期管理和历史版本管理等。标签元数据模块主要存储标签定义信息,以及标签名称到底层存储字段的映射信息。标签定义信息包括用户登录账户、用户密码、用户权限、用户访问日志、系统日志、对象名称、对象和标签之间的关系、标签名称、标签的状态(是否可用、是否标准化、是否是单值、是否是二维标签等)、标签别名和标签ID等信息;映射信息是指:标签是动态的,允许用户在使用过程中根据业务发展的需求灵活地创建新的标签,或者删除过时的标签,因此,标签名称与底层字段不是一一对应,而映射表中,维护了标签名称与底层字段的映射关系,从而确保了每一个标签,在底层存储中字段都是唯一的。实体标签数据模块将所有的实体数据,根据索引按一定的数据结构存储于Elasticsearch中,在Elasticsearch中创建唯一的Index,存储该对象类别下的所有实体数据。在Index中,type0总是存储最新版本的标签数据,且动态地创建typeN用于存储完整的历史版本,N>=1。所述的应用于海量标签化实体数据存储方法,具体步骤为:步骤一、用户通过工具界面输入用户名和密码;步骤二、登录界面调用统一存取API模块里的登录接口,从标签元数据模块里的用户信息表里读取用户列表和传入的用户名密码;步骤三、验证用户名密码输入是否正确,如果是,进入步骤四;否则,返回步骤一。步骤四、用户通过工具界面调用统一存取API模块中的数据存储接口,从标签元数据模块中读取标签的元数据;当用户调用统一存取API模块中的数据存储接口时执行分片接口,分片接口根据分片公式计算出数据要存储的位置;分片公式如下:shard=hash(routing)%number_of_primary_shards其中,routing值是任意的字符串;首先,routing字符串被传入到哈希函数得到一个数字;然后该数字和索引中的主要分片数进行模运算得到余数。余数的范围为0和number_of_primary_shards-1之间,余数即一份文档被存储到的分片号码。数据存储接口主要包括新增无附加属性的对象实例、新增有附加属性的对象实例、修改指定的对象实例、根据过滤条件查询指定的对象实例、批量插入对象实例、添加附加属性、查询指定版本的对象实例、指定版本的对象搜索以及删除指定版本的对象实例等。步骤五、统一存取API模块对元数据进行格式转换、标准化处理和数据正确性检查;同时从标签元数据模块里读取标签的基本信息,按照用户请求进行包装;步骤六、统一存取API模块将包装后的数据转换成数据层的数据格式,传输到数据层的对应接口;步骤七、实体标签数据模块根据统一存取API模块发出的请求对数据进行解析,生成能存储到StoreServer里的数据格式,并调用数据写入方法将数据存储到StoreFile里;Elasticsearch的存储模型中,支持标签值的第二维度存储;在Elasticsearch中创建唯一的Index,存储该对象类别下的所有实体数据。在Index中,type0总是存储最新版本的标签数据,且动态地创建typeN用于存储完整的历史版本,N>=1。步骤八、同时实体标签数据模块将存储结果返回给统一存取API模块,统一存取API模块将数据状态发送给标签元数据模块和工具界面,标签元数据模块更新数据状态。本专利技术的优点在于:1、一种应用于海量标签化实体数据存储的工具,提供标签管理、值属性、版本追溯、第二维度、生命周期、确认状态、海量数据接入和标签检索等关键特性,可以很好地支撑实际的业务需求;同时具有可扩展性及持久性等方面的系统特征;2、一种应用于海量标签化实体数据存储的工具,允许用户根据业务发展的需要,灵活地扩展实体的标签体系(即描述实体的维度);同时,也可以下架已经过时的标签。3、一种应用于海量标签化实体数据存储的工具,可以将每个标签值的每次修改记录都存储下来,作为版本数据库。因此,对于每一个标签值,都可以追溯到它的每一个历史版本。4、一种应用于海量标签化实体数据存储的工具,支持针对已有的、分散在各个业务库的、海量的数据进行接入,最终存储到目标标签库中,形成融合的、高价值的数据,从而支撑更高层次的业务需求。5、一种应用于海量标签化实体数据存储的方法,具有很强的针对性,能够高效针对海量标签化实体数据进行有效的存储和检索,具有很广泛的应用前景。6、一种应用于海量标签化实体数据存储的工具,是一个面向列存储的分布式存储工具,可以实现高性能的并发读写操作,同时还会对数据进行透明的切分,这样本文档来自技高网...

【技术保护点】
1.一种应用于海量标签化实体数据存储的工具,其特征在于,分布在互联网业务中,具体包括标签元数据模块、实体标签数据模块和统一存取API模块;互联网业务包括展现层,业务层和数据层;展现层为工具界面,标签元数据模块和统一存取API模块分布在业务层;实体标签数据模块分布在数据层;统一存取API模块作为桥梁连接展现层和数据层,同时还连接同层的标签元数据模块;用户通过工具界面输入用户名密码和请求,统一存取API模块根据用户名和密码,访问标签元数据模块并读取标签的元数据,按用户请求对元数据进行包装,转换成数据层的数据格式,传输到数据层的对应接口对标签数据执行操作,实体标签数据模块负责对标签数据进行增、删、改和查操作,根据统一存取API模块发出的请求执行相应的操作,从StoreServer中对数据进行操作,并对数据做持久化处理;同时将处理结果返回给统一存取API模块,统一存取API模块将数据进行包装按照规定格式返回到工具界面;统一存取API模块对标签元数据模块的元数据和实体标签数据模块的处理结果分别进行封装,并对客户端开放接口;标签元数据模块主要存储标签定义信息,以及标签名称到底层存储字段的映射信息;实体标签数据模块将所有的实体数据,根据索引按一定的数据结构存储于Elasticsearch中,在Elasticsearch中创建唯一的Index,存储该对象类别下的所有实体数据;在Index中,type0总是存储最新版本的标签数据,且动态地创建typeN用于存储完整的历史版本,N>=1。...

【技术特征摘要】
1.一种应用于海量标签化实体数据存储的工具,其特征在于,分布在互联网业务中,具体包括标签元数据模块、实体标签数据模块和统一存取API模块;互联网业务包括展现层,业务层和数据层;展现层为工具界面,标签元数据模块和统一存取API模块分布在业务层;实体标签数据模块分布在数据层;统一存取API模块作为桥梁连接展现层和数据层,同时还连接同层的标签元数据模块;用户通过工具界面输入用户名密码和请求,统一存取API模块根据用户名和密码,访问标签元数据模块并读取标签的元数据,按用户请求对元数据进行包装,转换成数据层的数据格式,传输到数据层的对应接口对标签数据执行操作,实体标签数据模块负责对标签数据进行增、删、改和查操作,根据统一存取API模块发出的请求执行相应的操作,从StoreServer中对数据进行操作,并对数据做持久化处理;同时将处理结果返回给统一存取API模块,统一存取API模块将数据进行包装按照规定格式返回到工具界面;统一存取API模块对标签元数据模块的元数据和实体标签数据模块的处理结果分别进行封装,并对客户端开放接口;标签元数据模块主要存储标签定义信息,以及标签名称到底层存储字段的映射信息;实体标签数据模块将所有的实体数据,根据索引按一定的数据结构存储于Elasticsearch中,在Elasticsearch中创建唯一的Index,存储该对象类别下的所有实体数据;在Index中,type0总是存储最新版本的标签数据,且动态地创建typeN用于存储完整的历史版本,N>=1。2.如权利要求1所述的一种应用于海量标签化实体数据存储的工具,其特征在于,所述的客户端的作用在于:统一存取API模块管理标签元数据,包括标签的创建、修改、删除和查询操作;同时管理实体标签数据,包括实体的创建、删除、修改、查询,标签数据的人工确认、生命周期管理和历史版本管理。3.如权利要求1所述的一种应用于海量标签化实体数据存储的工具,其特征在于,所述的标签定义信息包括用户登录账户、用户密码、用户权限、用户访问日志、系统日志、对象名称、对象和标签之间的关系、标签名称、标签的状态、标签别名和标签ID。4.如权利要求1所述的一种应用于海量标签化实体数据存储的工具,其特征在于,所述的映射信息是指:标签是动态的,允许用户在使用过程中根据业务发展的需求灵活地创建新的标签,或者删除过时的标签,因此,标签名称与底层字段不是一一对应,而映射表中,维护了标签名称与底层字段的映射关系...

【专利技术属性】
技术研发人员:孙波姚珊姜栋张建松高昕董建武王梦禹胡晓旭刘云昊梁维谢铭王峰汪军强
申请(专利权)人:北京赛思信安技术股份有限公司国家计算机网络与信息安全管理中心
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1