本发明专利技术提供了一种医药产品数据处理方法,该方法包括:在云存储系统中采用分布式数据索引存储多个维度的数据,并基于数据块的检索频率来管理副本。本发明专利技术提出了一种医药产品数据处理方法,能够解决多维数据的检索问题,明显降低了系统响应用户请求的时延,提高用户的检索体验。
【技术实现步骤摘要】
本专利技术涉及大数据计算,特别涉及一种医药产品数据处理方法。
技术介绍
云存储采用了云计算、分布式文件系统以及服务器集群等技术,将网络中各种存储资源聚合起来,共同对外提供数据存储和业务访问功能,在医药科研、生产和贸易服务领域有着广泛应用。然而,当云计算提供商给医药领域客户提供服务时,系统资源的可用性和利用率成为影响医药领域客户体验和自身效益的关键指标,如何对庞大的资源进行有效管理便成了云计算提供商所必须要考虑的问题之一。检索处理是云平台中数据管理的核心技术,检索性能直接影响用户使用云平台的服务质量。由于现有的数据索引和组织方法实现起来复杂,索引维护代价高,尤其是检索的维度较高时,用户的检索体验急剧下降。需要很大的系统开销,严重影响系统的性能和吞吐量。
技术实现思路
为解决上述现有技术所存在的问题,本专利技术提出了一种医药产品数据处理方法,包括:在云存储系统中采用分布式数据索引存储多个维度的数据,并基于数据块的检索频率来管理副本。优选地,所述采用分布式数据索引存储多个维度的数据,进一步包括:采用各个数据节点独立管理自己局部数据索引的方式,在每个数据节点中,对该节点上的元组所对应的位序列值建立B-树;树的叶子节点中的每个键都对应一个位序列值和一个指向该位序列值的链表;当新元组被插入时,首先根据
元组的主键查找该元组应当插入的数据节点,并计算新元组在该数据节点中所对应的相对位置;然后判断该元组的属性值在该数据节点上是否为首次出现并且更新节点;如果是首次出现,则将新元组对应的位序列值插入到B-树索引中;如果不是首次出现,则只需在B-树的叶子节点中找到该位序列值,更新其指向的链表,将该元组加入到链表中;当要删除某个元组时,首先根据元组的主键值查找到该元组应当存在的数据节点及在该数据节点中的相对位置,然后依据该元组上的被索引属性的值所对应的位序列值检索并更新该数据节点的局部索引B-树;当要检索元组时,主节点首先将检索条件转换为条件位序列,所述条件位序列覆盖检索条件所包含的所有可能性,然后主节点将条件位序列并行发送到所有的数据节点上,接着在数据节点上检索,判断该数据节点中是否可能存在符合条件的元组,如果不存在,则返回空集,否则继续查找B-树索引,从叶子节点中找到符合条件的元组位序列值后,再遍历叶子节点的链表;主节点向用户返回所有数据节点计算结果的并集。优选地,所述基于数据块的检索频率来管理副本,进一步包括:将名字节点作为中心服务器,客户端所有的读写请求必须先经过名字节点,通过在名字节点增加一个监视器,来记录文件访问次数;将检索频率定义为上一个周期检索频率和当前周期中文件写频率减去读频率的加权平均值,名字节点中的监视器每经过一个周期就对系统中的所有文件进行一次检索频率的计算;用FHm表示第m个周期后的频率,用Rk表示第K个周期内文件的读操作频率,用Wk表示第K个周期内文件的写操作频率,用T表示周期,则在第m个周期后,文件的频率表示为:FHm=αFHm-1+β(Rm-Wm)其中,α,β均大于0且和为1,分别表示上一个周期检索频率的影响权值和本周期内读写频率的影响权值;根据文件访问频率的不同,将频率链表分为高频率访问频率链表、中频率访问频率链表、低频率访问频率链表;对不同层次的文件访问队列采用不同的周期进行统计;首先,用FC表示副本的频率,用count表示当前系统中副本的数量;副本的频率表示为:FC=FH/count设置副本增加阈值和副本减少阈值;当FC的值大于副本增加阈值时,监视器通知名字节点增加相应副本的数量;名字节点响应监视器发来的请求,启动副本数量增加命令,根据副本分布策略选择最优的数据节点来存储副本,当数据节点上副本复制工作完成以后,名字节点更新副本数量;当FC的值小于副本减少阈值时,监视器通知名字节点减少副本数量,名字节点响应监视器发来的请求,启动副本数量减少命令,根据副本分布策略删除最优的数据节点上的副本,当数据节点上副本删除工作完成以后,名字节点更新副本数量。本专利技术相比现有技术,具有以下优点:本专利技术提出了一种医药产品数据处理方法,能够解决多维数据的检索问题,明显降低了系统响应用户请求的时延,提高用户的检索体验。附图说明图1是根据本专利技术实施例的医药产品数据处理方法的流程图。具体实施方式下文与图示本专利技术原理的附图一起提供对本专利技术一个或者多个实施例的详细描述。结合这样的实施例描述本专利技术,但是本专利技术不限于任何实施例。本专利技术的范围仅由权利要求书限定,并且本专利技术涵盖诸多替代、修改和等同物。在
下文描述中阐述诸多具体细节以便提供对本专利技术的透彻理解。出于示例的目的而提供这些细节,并且无这些具体细节中的一些或者所有细节也可以根据权利要求书实现本专利技术。本专利技术的一方面提供了一种医药产品数据处理方法。图1是根据本专利技术实施例的医药产品数据处理方法流程图。本专利技术针对多维数据的范围检索采用分布式数据索引方法,并且基于数据块的检索频率而采用自适应副本调整策略。本专利技术中元组、属性的概念与关系型数据库中元组、属性的概念相同,即表中的每条记录就是一个元组,每列就是一个属性。为了实现检索的高并发,本专利技术采用各个数据节点独立管理自己局部数据索引的方式,在每个数据节点中,对该节点上的元组所对应的位序列值建立B-树。树的叶子节点中的每个键都对应一个位序列值和一个指向该位序列值的链表。当新元组被插入时,首先根据元组的主键查找该元组应当插入的数据节点,并计算新元组在该数据节点中所对应的相对位置。然后判断该元组的属性值在该数据节点上是否为首次出现并且更新节点。如果是首次出现,则将新元组对应的位序列值插入到B-树索引中.如果不是首次出现,则只需在B-树的叶子节点中找到该位序列值,更新其指向的链表,将该元组加入到链表中去即可。当要删除某个元组时,首先根据元组的主键值查找到该元组应当存在的数据节点及其在该数据节点中的相对位置,然后依据该元组上的被索引属性的值所对应的位序列值检索并更新该数据节点的局部索引B-树。当要检索元组时,主节点首先将检索条件转换为条件位序列。生成的条件位序列应该覆盖检索条件所包含的所有可能性。然后主节点将条件位序列并行的发送到所有的数据节点上,接着在数据节点上检索,判断该数据节点中是否可能存在符合条件的元组,如果不存在,则返回空集,否则继续查找B-树索引,
从叶子节点中找到符合条件的元组位序列值后,再遍历叶子节点的链表。主节点向用户返回所有数据节点计算结果的并集。基于文件访问频率的副本调整策略中,主要包括如何进行文件读写访问频率的计算:不同等级的文件访问频率链表;确定副本数量的上限和下限;以及设定副本增加阈值和副本减少阈值。将名字节点作为中心服务器,客户端所有的读写请求必须先经过名字节点,通过在名字节点增加一个监视器,来记录文件访问次数。将检索频率定义为上一个周期检索频率和当前周期中文件写频率减去读频率的加权平均值。名字节点中的监视器每经过一个周期就对系统中的所有文件进行一次检索频率的计算。本专利技术用FHm表示第m个周期后的频率。用Rk表示第K个周期内文件的读操作频率,用Wk表示第K个周期内文件的写操作频率,用T表示周期。则在第m个周期后,文件的频率表示为:FHm=αFHm-1+β(Rm-Wm)其中,α,β本文档来自技高网...
【技术保护点】
一种医药产品数据处理方法,其特征在于,包括:在云存储系统中采用分布式数据索引存储多个维度的数据,并基于数据块的检索频率来管理副本。
【技术特征摘要】
1.一种医药产品数据处理方法,其特征在于,包括:在云存储系统中采用分布式数据索引存储多个维度的数据,并基于数据块的检索频率来管理副本。2.根据权利要求1所述的方法,其特征在于,所述采用分布式数据索引存储多个维度的数据,进一步包括:采用各个数据节点独立管理自己局部数据索引的方式,在每个数据节点中,对该节点上的元组所对应的位序列值建立B-树;树的叶子节点中的每个键都对应一个位序列值和一个指向该位序列值的链表;当新元组被插入时,首先根据元组的主键查找该元组应当插入的数据节点,并计算新元组在该数据节点中所对应的相对位置;然后判断该元组的属性值在该数据节点上是否为首次出现并且更新节点;如果是首次出现,则将新元组对应的位序列值插入到B-树索引中;如果不是首次出现,则只需在B-树的叶子节点中找到该位序列值,更新其指向的链表,将该元组加入到链表中;当要删除某个元组时,首先根据元组的主键值查找到该元组应当存在的数据节点及在该数据节点中的相对位置,然后依据该元组上的被索引属性的值所对应的位序列值检索并更新该数据节点的局部索引B-树;当要检索元组时,主节点首先将检索条件转换为条件位序列,所述条件位序列覆盖检索条件所包含的所有可能性,然后主节点将条件位序列并行发送到所有的数据节点上,接着在数据节点上检索,判断该数据节点中是否可能存在符合条件的元组,如果不存在,则返回空集,否则继续查找B-树索引,从叶子节点中找到符合条件的元组位序列值后,再遍历叶子节点的链表;主节点向用户返回所有数据节点计算结果的并集。3.根据权利要求2所述的方法,其特征在于...
【专利技术属性】
技术研发人员:许驰,
申请(专利权)人:成都鼎智汇科技有限公司,
类型:发明
国别省市:四川;51
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。