一种基于大数据的数据文件共享系统及方法技术方案

技术编号:39326581 阅读:10 留言:0更新日期:2023-11-12 16:04
本发明专利技术公开了一种基于大数据的数据文件共享系统及方法。该数据文件共享系统包括数据采集模块、数据安全隐私保护模块,数据存储归档模块、数据访问共享模块、数据分析应用模块和系统优化模块。该数据文件共享方法包括以下步骤:访问共享文件、采集数据文件、清洗数据文件、预处理数据文件、保护数据文件安全隐私、存储归档文件、数据分析应用、系统优化。本发明专利技术根据数据采集清洗、存储归档、安全保护、访问共享、分析优化一系列步骤实现对大数据的有效资源管理、共享和利用。共享和利用。共享和利用。

【技术实现步骤摘要】
一种基于大数据的数据文件共享系统及方法


[0001]本专利技术涉及大数据
,具体为一种基于大数据的数据文件共享系统及方法。

技术介绍

[0002]大数据本质上讲是一个来自各种来源的非结构化或结构化巨型数据集组成的信息资产,具有海量、高增长率、多样化和低价值密度等特征,而随着近些年大数据技术的不断发展,逐渐步入了大众的视野,成为了未来互联网市场的主角,因此,基于大数据的应用领域也在不断的增加,而将大数据应用于数据文件共享是一种新的尝试;
[0003]中国专利技术专利(CN116436708A)公开了一种基于区块链技术的可信数据分享方法和系统,其通过数据拥有者将需要分享的数据上传至数据分发节点,基于区块链技术的网络,使用分布式账本将加密后的数据存储在区块链上,用户通过共享链接获取所需数据。
[0004]存在着以下缺点:
[0005]1、只能存储数据拥有者所分享的数据文件,无法更全面利用互联网大数据,用户只能在有限的数据文件里进行查找。
[0006]2、存在上传数据文件数据重复、缺失、异常、格式标准错误、失效的可能性。
[0007]3、用户只能通过共享链接获取共享数据,无法进行检索查找,并进行相似内容拓展类比。
[0008]4、无法判断相同类别的共享数据文件的质量优先级。

技术实现思路

[0009]本专利技术的目的在于提供一种基于大数据的数据文件共享系统及方法,以解决上述
技术介绍
中提出的问题。
[0010]为了解决上述技术问题,本专利技术提供如下技术方案:
[0011]一种基于大数据的数据文件共享系统,该数据文件共享系统包括数据采集模块、数据安全隐私保护模块,数据存储归档单元、数据访问共享模块,数据分析应用模块和系统优化模块;
[0012]所述数据访问共享模块对用户进行访问控制后,为用户提供数据文件检索查询功能和分享数据文件功能;所述数据采集模块根据用户检索的关键字在互联网进行采集数据文件和采集用户上传共享的数据文件,并且对采集到的数据文件进行数据清洗和预处理;所述数据安全隐私保护模块将预处理后的数据文件进行数据加密和数据脱敏,确保数据的保密完整性;所述数据存储归档模块将加密脱敏后的数据文件进行存储备份;所述数据分析应用模块为用户提供归档数据文件的备选数据文件,并提供与检索存储的数据文件的数据类比结果;所述系统优化模块追踪用户对存储数据文件的下载次数和检索次数,并且记录用户下载使用数据文件后对数据文件的评分反馈,根据检索下载次数和评分反馈设置常用关键词和存储文件检索排序;
[0013]所述数据访问共享模块的输出端连接数据数据采集模块、数据分析应用模块和系统优化模块的输入端,所述数据采集模块的输出端连接数据安全隐私保护模块的输入端,所述数据安全隐私保护模块的输出端连接数据存储归档模块的输入端,所述数据存储归档模块的输出端连接数据访问共享模块和数据分析应用模块的输入端,所述数据分析应用模块的输出端连接数据访问共享模块的输入端。
[0014]根据上述技术方案,所述数据访问共享模块包括访问控制单元、访问单元和共享单元;
[0015]所述访问控制单元采用数据共享协议对用户建立访问权限控制,限制对数据的访问和操作,用于防止未经授权的使用资源;所述访问单元为经过授权的用户提供关键词检索功能;所述共享单元可以使用户上传分享数据文件资源;
[0016]所述访问控制单元的输出端连接访问单元的输入端,所述访问单元的输出端连接数据采集模块和系统优化模块的输入端,所述共享单元的输出端连接数据采集模块的输入端。
[0017]根据上述技术方案,所述数据采集模块包括采集单元、清洗单元和预处理单元;
[0018]所述数据采集单元为网络爬虫、API接口调用和用户共享采集用户检索的数据文件;所述清洗单元是基于唯一标识符去除重复采集数据、基于条件平均值填充法填补缺失采集数据和基于聚类算法处理异常采集数据;所述预处理单元是数据格式转换和数据标准化,所述数据格式转换对清洗后的数据进行规格化处理进行格式转换;所述数据标准化使用数据无量纲化处理对格式转换后的数据文件进行标准化;
[0019]所述采集单元的输出端电性连接清洗单元的输入端,所述清洗单元的输出端电性连接预处理单元的输入端,所述预处理单元单元的输出端连接数据安全隐私保护模块。
[0020]根据上述技术方案,所述数据安全隐私保护模块包括数据加密单元和数据脱敏单元;
[0021]所述数据加密单元利用公开密钥对预处理后的数据文件进行加密,实现信息隐蔽,从而保护数据文件的安全;所述数据脱敏单元对加密后的预处理数据文件中的敏感数据进行脱敏处理,以保护个人隐私;
[0022]数据加密单元的输出端连接数据脱敏单元的输入端,数据脱敏单元的输出端连接数据存储处理模块的输入端。
[0023]根据上述技术方案,所述数据存储处理模块包括存储归档单元和备份恢复单元;
[0024]所述存储归档单元利用列名匹配将经过加密脱敏后的数据整合在一起并进行存储;所述备份恢复单元通过网盘将存储归档后的数据进行备份和恢复,以保证数据的可靠性和可恢复性;
[0025]所述存储归档单元的输出端连接备份恢复单元和数据访问共享模块和数据分析应用模块的输入端。
[0026]根据上述技术方案,所述数据分析应用模块包括数据分析单元和数据可视化单元;
[0027]所述数据分析单元对存储归档后的数据文件进行关键词提取,为用户提供相似关键词的数据文件作为用户检索备选数据文件,并与检索存储的数据文件通过文本匹配比对文本的相似性进行数据类比;所述数据可视化单元将数据分析单元提供的数据类比结果展
示成表格、图表、地图、图形的形式;
[0028]所述数据分析单元的输出端连接的数据可视化单元的输入端,所述数据可视化单元的输出端连接数据访问共享模块的输入端。
[0029]根据上述技术方案,所述系统优化模块包括访问监控单元和优化演进单元;
[0030]所述访问监控单元追踪用户对存储数据文件的下载次数和检索次数,体现用户对数据文件的需求倾向,并且提供评分机制用于记录用户下载使用数据文件后对数据文件的评分反馈;所述优化演进单元基于访问监控单元得出的访问次数、下载次数和评分反馈,将访问次数最高的关键词设置检索常用关键词、同一检索关键词的数据文件按照最高下载次数和评分反馈高的顺序进行优先排序,对评分反馈低的数据文件重新进行数据采集;
[0031]所述访问监控单元的输出端连接优化演进单元的输入端,所述优化演进单元的输出端连接数据采集模块的输入端。
[0032]为更好的实现上述方案还提出了一种基于大数据的数据文件共享方法,该数据文件共享的方法包括以下步骤:
[0033]访问共享文件,所述访问共享文件是指用户经过数据共享协议的授权后,在系统上可以对数据文件进行关键词查询、检索,并且上传分享数据文件资源;
[0034]采集数据文件,所述采集数据文件是通过网络爬虫、调用API接本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种基于大数据的数据文件共享系统,其特征在于:所述数据文件共享系统包括数据采集模块、数据安全隐私保护模块,数据存储归档单元、数据访问共享模块,数据分析应用模块和系统优化模块;所述数据访问共享模块对用户进行访问控制后,为用户提供数据文件检索查询功能和分享数据文件功能;所述数据采集模块根据用户检索数据文件的关键字在互联网进行采集数据文件和采集用户上传共享的数据文件,并且对采集到的数据文件进行数据清洗和预处理;所述数据安全隐私保护模块将预处理后的数据文件进行数据加密和数据脱敏,确保数据的保密完整性;所述数据存储归档模块将加密脱敏后的数据文件进行存储备份;所述数据分析应用模块为用户提供归档数据文件的备选数据文件,并提供与检索存储的数据文件的数据类比结果;所述系统优化模块追踪用户对存储数据文件的下载次数和检索次数,并且记录用户下载使用数据文件后对数据文件的评分反馈,根据检索下载次数和评分反馈设置常用关键词和存储文件检索排序;所述数据访问共享模块的输出端连接数据数据采集模块、数据分析应用模块和系统优化模块的输入端,所述数据采集模块的输出端连接数据安全隐私保护模块的输入端,所述数据安全隐私保护模块的输出端连接数据存储归档模块的输入端,所述数据存储归档模块的输出端连接数据访问共享模块和数据分析应用模块的输入端,所述数据分析应用模块的输出端连接数据访问共享模块的输入端。2.根据权利要求1所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据访问共享模块包括访问控制单元、访问单元和共享单元;所述访问控制单元采用数据共享协议对用户建立访问权限控制,限制对数据的访问和操作,用于防止未经授权的使用资源;所述访问单元为经过授权的用户提供关键词检索查询功能;所述共享单元可以使用户上传分享数据文件资源;所述访问控制单元的输出端连接访问单元的输入端,所述访问单元的输出端连接数据采集模块和系统优化模块的输入端,所述共享单元的输出端连接数据采集模块的输入端。3.根据权利要求2所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据采集模块包括采集单元、清洗单元和预处理单元;所述数据采集单元为利用网络爬虫、API接口调用和用户共享三种方法采集用户检索的数据文件;所述清洗单元是基于唯一标识符去除重复采集数据、基于条件平均值填充法填补缺失采集数据和基于聚类算法处理异常采集数据;所述预处理单元是数据格式转换和数据标准化,所述数据格式转换对清洗后的数据进行规格化处理进行格式转换;所述数据标准化使用数据无量纲化处理对格式转换后的数据文件进行标准化;所述采集单元的输出端电性连接清洗单元的输入端,所述清洗单元的输出端电性连接预处理单元的输入端,所述预处理单元单元的输出端连接数据安全隐私保护模块。4.根据权利要求3所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据安全隐私保护模块包括数据加密单元和数据脱敏单元;所述数据加密单元利用公开密钥对预处理后的数据文件进行加密,实现信息隐蔽,从而保护数据文件的安全;所述数据脱敏单元对加密后的预处理数据文件中的敏感数据进行脱敏处理,以保护个人隐私;数据加密单元的输出端连接数据脱敏单元的输入端,数据脱敏单元的输出端连接数据
存储处理模块的输入端。5.根据权利要求4所述的一种基于大数据的数据文件共享系统,其特征在于:所述数据存储处理模块包括存储归档单元和备份恢复单元;所述存储归档单元利用列名匹配将...

【专利技术属性】
技术研发人员:王天浩
申请(专利权)人:哈尔滨通功易事科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1