【技术实现步骤摘要】
一种基于大数据的数据文件共享系统及方法
[0001]本专利技术涉及大数据
,具体为一种基于大数据的数据文件共享系统及方法。
技术介绍
[0002]大数据本质上讲是一个来自各种来源的非结构化或结构化巨型数据集组成的信息资产,具有海量、高增长率、多样化和低价值密度等特征,而随着近些年大数据技术的不断发展,逐渐步入了大众的视野,成为了未来互联网市场的主角,因此,基于大数据的应用领域也在不断的增加,而将大数据应用于数据文件共享是一种新的尝试;
[0003]中国专利技术专利(CN116436708A)公开了一种基于区块链技术的可信数据分享方法和系统,其通过数据拥有者将需要分享的数据上传至数据分发节点,基于区块链技术的网络,使用分布式账本将加密后的数据存储在区块链上,用户通过共享链接获取所需数据。
[0004]存在着以下缺点:
[0005]1、只能存储数据拥有者所分享的数据文件,无法更全面利用互联网大数据,用户只能在有限的数据文件里进行查找。
[0006]2、存在上传数据文件数据重复、缺失、异常、格式标准错误、失效的可能性。
[0007]3、用户只能通过共享链接获取共享数据,无法进行检索查找,并进行相似内容拓展类比。
[0008]4、无法判断相同类别的共享数据文件的质量优先级。
技术实现思路
[0009]本专利技术的目的在于提供一种基于大数据的数据文件共享系统及方法,以解决上述
技术介绍
中提出的问题。
[0010]为了解决上述技术问题,本专利技术提供如下 ...
【技术保护点】
【技术特征摘要】
1.一种基于大数据的数据文件共享系统,其特征在于:所述数据文件共享系统包括数据采集模块、数据安全隐私保护模块,数据存储归档单元、数据访问共享模块,数据分析应用模块和系统优化模块;所述数据访问共享模块对用户进行访问控制后,为用户提供数据文件检索查询功能和分享数据文件功能;所述数据采集模块根据用户检索数据文件的关键字在互联网进行采集数据文件和采集用户上传共享的数据文件,并且对采集到的数据文件进行数据清洗和预处理;所述数据安全隐私保护模块将预处理后的数据文件进行数据加密和数据脱敏,确保数据的保密完整性;所述数据存储归档模块将加密脱敏后的数据文件进行存储备份;所述数据分析应用模块为用户提供归档数据文件的备选数据文件,并提供与检索存储的数据文件的数据类比结果;所述系统优化模块追踪用户对存储数据文件的下载次数和检索次数,并且记录用户下载使用数据文件后对数据文件的评分反馈,根据检索下载次数和评分反馈设置常用关键词和存储文件检索排序;所述数据访问共享模块的输出端连接数据数据采集模块、数据分析应用模块和系统优化模块的输入端,所述数据采集模块的输出端连接数据安全隐私保护模块的输入端,所述数据安全隐私保护模块的输出端连接数据存储归档模块的输入端,所述数据存储归档模块的输出端连接数据访问共享模块和数据分析应用模块的输入端,所述数据分析应用模块的输出端连接数据访问共享模块的输入端。2.根据权利要求1所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据访问共享模块包括访问控制单元、访问单元和共享单元;所述访问控制单元采用数据共享协议对用户建立访问权限控制,限制对数据的访问和操作,用于防止未经授权的使用资源;所述访问单元为经过授权的用户提供关键词检索查询功能;所述共享单元可以使用户上传分享数据文件资源;所述访问控制单元的输出端连接访问单元的输入端,所述访问单元的输出端连接数据采集模块和系统优化模块的输入端,所述共享单元的输出端连接数据采集模块的输入端。3.根据权利要求2所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据采集模块包括采集单元、清洗单元和预处理单元;所述数据采集单元为利用网络爬虫、API接口调用和用户共享三种方法采集用户检索的数据文件;所述清洗单元是基于唯一标识符去除重复采集数据、基于条件平均值填充法填补缺失采集数据和基于聚类算法处理异常采集数据;所述预处理单元是数据格式转换和数据标准化,所述数据格式转换对清洗后的数据进行规格化处理进行格式转换;所述数据标准化使用数据无量纲化处理对格式转换后的数据文件进行标准化;所述采集单元的输出端电性连接清洗单元的输入端,所述清洗单元的输出端电性连接预处理单元的输入端,所述预处理单元单元的输出端连接数据安全隐私保护模块。4.根据权利要求3所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据安全隐私保护模块包括数据加密单元和数据脱敏单元;所述数据加密单元利用公开密钥对预处理后的数据文件进行加密,实现信息隐蔽,从而保护数据文件的安全;所述数据脱敏单元对加密后的预处理数据文件中的敏感数据进行脱敏处理,以保护个人隐私;数据加密单元的输出端连接数据脱敏单元的输入端,数据脱敏单元的输出端连接数据
存储处理模块的输入端。5.根据权利要求4所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据存储处理模块包括存储归档单元和备份恢复单元;所述存储归档单元利用列名匹配将...
【专利技术属性】
技术研发人员:王天浩,
申请(专利权)人:哈尔滨通功易事科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。