一种数据读取方法、装置、电子设备及存储介质制造方法及图纸

技术编号：37119918 阅读：20 留言：0更新日期：2023-04-01 05:15

本发明专利技术实施例公开了一种数据读取方法、装置、电子设备及存储介质。该方法包括：基于接收到的当前数据读取请求，确定待读取数据的所属文件及待读取数据的存储片区；在所属文件中的文件数据已被缓存至文件内存的情况下，从文件内存中读取与存储片区对应的第一文件子数据，将第一文件子数据确定为待读取数据，并将待读取数据发送至数据请求节点；其中，文件内存中包括：基于历史数据读取请求缓存的所属文件中的文件数据，文件数据包括至少一个存储片区对应的文件子数据。本发明专利技术实施例的技术方案，通过直接对文件内存进行读取的操作，减少了对本地磁盘的访问次数，降低本地磁盘负载，实现提高数据计算的工作效率和稳定性的效果。高数据计算的工作效率和稳定性的效果。高数据计算的工作效率和稳定性的效果。

全部详细技术资料下载

【技术实现步骤摘要】
一种数据读取方法、装置、电子设备及存储介质

[0001]本专利技术实施例涉及计算机
，尤其涉及一种数据读取方法、装置、电子设备及存储介质。

技术介绍

[0002]在大数据分布式计算场景下，都离不开对数据的Shuffle(洗牌)操作，Shuffle操作过程的本质是将Map(映射)节点获得的数据使用分区器进行划分，并将数据分发给对应Reducer(归约)节点的过程。
[0003]现有技术的分布式计算场景下，Reducer节点基于Shuffle服务获取Shuffle数据时，需要对本地磁盘中每个Map节点的对应的每个存储片区均进行数据访问，以完成Shuffle操作。但是，在实现本专利技术的过程中，发现现有技术至少存在以下技术问题：在大数据计算场景下，对本地磁盘访问量大；且在获取各存储片区的Shuffle数据时，易产生随机读的情况，导致磁盘负载较高，影响分布式计算引擎的工作效率及稳定性。

技术实现思路

[0004]本专利技术实施例提供了一种数据读取方法、装置、电子设备及存储介质，以减少对本地磁盘的访问次数，降低本地磁盘负载，实现提高数据计算的工作效率和稳定性的目的。
[0005]根据本专利技术的一方面，提供了一种数据读取方法，包括：
[0006]基于接收到的当前数据读取请求，确定待读取数据的所属文件及所述待读取数据的存储片区；
[0007]在所述所属文件中的文件数据已被缓存至文件内存的情况下，从所述文件内存中读取与所述存储片区对应的第一文件子数据，将所述第一文件子数据确定为...

【技术保护点】

【技术特征摘要】
1.一种数据读取方法，其特征在于，包括：基于接收到的当前数据读取请求，确定待读取数据的所属文件及所述待读取数据的存储片区；在所述所属文件中的文件数据已被缓存至文件内存的情况下，从所述文件内存中读取与所述存储片区对应的第一文件子数据，将所述第一文件子数据确定为所述待读取数据，并将所述待读取数据发送至数据请求节点；其中，所述文件内存中包括：基于历史数据读取请求缓存的所述所属文件中的文件数据，所述文件数据包括至少一个存储片区对应的文件子数据。2.根据权利要求1所述的方法，其特征在于，还包括：在所述所属文件中文件数据未被缓存至文件内存的情况下，获取与所述所属文件中的文件数据，将所述文件数据缓存至与所述所属文件对应的文件内存中；读取所述文件内存中与所述存储片区对应的第一文件子数据，将所述第一文件子数据确定为所述待读取数据，并将所述待读取数据发送至数据请求节点。3.根据权利要求2所述的方法，其特征在于，所述将所述文件数据缓存至与所述所属文件对应的文件内存中，包括：确定所述文件内存的当前剩余存储量和总存储量；若所述文件数据满足预设条件，则将所述文件数据缓存至所述文件内存中；其中，所述预设条件包括所述文件数据的文件占用内存量小于或等于预设内存阈值，且所述文件占用内存量与所述当前剩余存储量之和小于或等于所述总存储量。4.根据权利要求3所述的方法，其特征在于，在所述获取与所述所属文件中的文件数据之前，还包括：若在所述所属文件对应的布隆过滤器中，未查询到与所述所属文件对应的文件信息，则确定在接收到所述数据读取请求之前，所述文件数据在历史时间段内被请求的被请求次数；若所述被请求次数小于预设阈值，则确定所述所属文件中文件数据未被缓存至文件内存；其中，所述布隆过滤器用于存储所述被请求次数大于或等于所述预设阈值，且未被存储至所述文件内存的文件数据对应的文件信息。5.根据权利要求4所述的方法，其特征在于，还包括：若所述文件数据不满足预设条件，则基于所述文件数据生成所述所属文件对应的文件信息，并将所述文件信息存储至所述所属文件对应的布隆过滤器中。6.根据权利要求4所述的方法，其特征在于，还包括：若所述被请求次数大于或等于所述预设阈值，则确定预先存储的缓存操作记录中，是否包括所述所属文件的缓存信息；若所述缓存操作记录包括所述缓存信息，则确定所述所属文件已被缓存至所述文件内存中。7.根据权利要求6所述的方法，其特征在于，还包括：若所述缓存操作记录中不包括所述缓存信息；或者，在所述所属文件对应的布隆过滤器中查询到所述文件信息，...

【专利技术属性】
技术研发人员：魏秀利，王文生，
申请(专利权)人：北京京东世纪贸易有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人