本发明专利技术涉及互联网通信技术领域,具体地说是一种对网络信息进行有效分类、分析,进而提供精确查找的集成社交网站信息的监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,本发明专利技术通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。
【技术实现步骤摘要】
:本专利技术涉及互联网通信
,具体地说是一种对网络信息进行有效的分类、分析,进而提供精确查找的集成社交网络信息监控系统。
技术介绍
:随着科技的发展,互联网得到了大规模应用,Web网页在存在大量有价值的信息的同时也存在大量诸如导航、版权、广告等与正文无关的噪声信息。噪声信息的存在使得后续信息服务的数据质量无法保证。从网页中提取有价值的内容来保证数据质量无疑可以为后续的网页信息处理应用奠定基础。在信息搜索、信息过滤、文本分类、文本聚类、文摘等应用中,去除掉网页中的噪声信息,提取网页的内容是非常重要的一步。比如在信息搜索中,在去除掉噪声信息的网页内容基础上建立索引可以有效地提高搜索的准确率;而在信息过滤、文本分类、文本聚类和网页自动摘要等应用中,准确的网页内容对系统的性能有很大的提升作用。如何从大量的、不完全的、有噪声的、模糊的、随机的数据中提取隐含在其中的、事先不知道的、但有时潜在有用的信息的过程被称为数据挖掘,显而易见,数据挖掘时大数据技术的关键。现有的大数据系统处理数据时仍采用单机节点上的串行方式实现,其数据处理量以及算法的负载度依赖于单个执行节点的性能,而由于大数据处理系统往往要对海量数据进行处理,现有的单机节点串行机制显然存在效率低、运算量低的问题。
技术实现思路
:本专利技术针对现有技术中存在的缺点和不足,提出了一种对网络信息进行有效的分类、分析,进而提供精确查找的集成社交网络信息监控系统。本专利技术可以通过以下措施达到:一种集成社交网络信息监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。本专利技术所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。本专利技术所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。本专利技术所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。本专利技术所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时停止拟合过程,并根据最终的再生矩阵及用户主观行为分析模型的结构得到模型的参数,输出用户主观行为模型。本专利技术通过对现有用户数据进行主观行为分析,更准确的获取用户偏好信息,进而获得监控结果,通过并行数据处理方式,有效提高数据处理效率,具有结构合理、处理速度快、效率高等显著的优点。附图说明:附图1是本专利技术的结构示意图。附图标记:数据处理服务器1、数据获取单元2、数据预处理单元3、数据挖掘单元4、结果输出单元5、聚类模块6、分类模块7、关联规则模块8、社会关系网分析模块9。具体实施方式:下面结合附图对本专利技术作进一步的说明。如附图所示,本专利技术提出了一种集成社交网络信息监控系统,其特征在于设有数据处理服务器1,所述数据处理服务器上设有数据获取单元2、数据预处理单元3、数据挖掘单元4、结果输出单元5;所述数据挖掘模块包括聚类模块6、分类模块7、关联规则模块8、社会关系网分析模块9,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。本专利技术所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。本专利技术所述数据挖掘单元设有模型构建模块,用于依据选取的信念指标设定用户主观行为分析模型的结构;材料收集模块,用于依据选取的信念指标编制调查问卷,并依据该调查问卷收集基于多个用户的第一样本数据;样本库,用于存放用于统计分析的样本数据;统计分析模块,用于将所述样本库输入的数据进行统计分析处理,获得各信念指标间的相关系数矩阵,将该相关系数矩阵输入模型拟合模块;并接收监控模块的相关系数查询请求,然后向该监控模块返回基于样本库所有样本数据的当前的相关系数矩阵。本专利技术所述数据挖掘单元还设有模型拟合模块,用于将统计分析处理后的相关系数矩阵与模型构建模块设定的用户主观行为分析模型进行模型拟合处理,得到再生矩阵。本专利技术所述数据挖掘单元还设有模型评价模块,用于计算模型拟合模块输出的再生矩阵与相关系数矩阵的拟合度结果决定是否再次触发模型拟合模块,即当拟合度小于设定拟合度时再次返回模型拟合模块进行拟合,当拟合度大于设定拟合度时本文档来自技高网...
【技术保护点】
一种集成社交网络信息监控系统,其特征在于设有数据处理服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由多个Map任务并行处理,这些Map任务被分配到所属处理任务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务的各Map任务的处理结果进行合并操作,完成数据预处理。
【技术特征摘要】
1.一种集成社交网络信息监控系统,其特征在于设有数据处理
服务器,所述数据处理服务器上设有数据获取单元、数据预处理单元、
数据挖掘单元、结果输出单元;所述数据挖掘模块包括聚类模块、分
类模块、关联规则模块、社会关系网分析模块,所述聚类模块中设有
K‐means算法模型;所述数据预处理模块采用并行数据预处理模块,
设有Map/Reduce处理模型,通过调用Map函数,将每个处理任务由
多个Map任务并行处理,这些Map任务被分配到所属处理任务分配
的执行节点上执行,再通过调用Reduce函数,分别对每个处理任务
的各Map任务的处理结果进行合并操作,完成数据预处理。
2.根据权利要求1所述的一种集成社交网络信息监控系统,其
特征在于所述数据挖掘模块为采用Map/Reduce机制的并行数据挖掘
模块,设有Map/Reduce处理模型,通过调用Map函数,将每个处理
任务由多个Map任务并行处理,这些Map任务被分配到所属处理任
务分配的执行节点上执行,再通过调用Reduce函数,分别对每个处
理任务的各Map任务的处理结果进行合并操作,完成并行数据挖掘。
3.根据权利要求1所述的一种集成社交网络信息监控系统,其
特征在于所述数据挖掘单元设有模型构...
【专利技术属性】
技术研发人员:高辉,尚成辉,
申请(专利权)人:芜湖乐锐思信息咨询有限公司,
类型:发明
国别省市:安徽;34
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。