【技术实现步骤摘要】
一种异构资源的整合方法
[0001]本专利技术属于计算机
,具体属于计算机学科中的数据挖掘的
;具体涉及一种异构资源的挖掘与整合方法。
技术介绍
[0002]当前互联网中各类媒体资源混杂地分布在不同的数据源中,为信息的查找与获取带来了很大困难。对这些分散的异构数据源中的媒体资源进行挖掘和整理,对于解决信息查找与获取的难题具有重要意义。
技术实现思路
[0003]本专利技术提供一种异构资源的整合方法,以解决现有技术中异构资源查找与获取难的问题。
[0004]为实现上述专利技术目的,本专利技术提供一种异构资源的整合方法,使用网络爬虫技术,对网站、网页数据,文档数据,微博信息,微信公众号信息以及用户行为数据进行抓取,并按照统一格式整合为结构化数据,最后设计数据分类处理模块,对处理后的数据按类别进行存储。
[0005]本专利技术提供的异构资源的整合方法包括以下工作步骤:步骤1:获取各类信息统一资源定位符;步骤2:增加相关性判断模块,过滤出主题相关性较高的媒体资源页面;步骤3:对过滤出的非结构化数据按照统一的格式进行整合,得到结构化数据,以文本的形式表示;步骤4:识别文本中的词条,进行细分处理;步骤5:去除文本中不存在实际意义的词,提高文本分析处理的效率;步骤6:通过特征提取技术将文本转化为向量表示,从而进一步利用分类算法来进行处理;步骤7:设计文本数据分类处理模块,对处理后的数据按类别进行存储。
[0006]所述异构资源整合方法,其特征在于,步骤2中所述的相关性判断模块通过 ...
【技术保护点】
【技术特征摘要】
1.一种异构资源整合方法,其特征在于,所述异构资源使用网络爬虫技术,对网站、网页数据,文档数据,微博信息,微信公众号信息以及用户行为数据进行抓取,并按照统一格式整合为结构化数据,最后设计数据分类处理模块,对处理后的数据按类别进行存储。2.根据权利要求1所述异构资源整合方法,其特征在于,包括以下工作步骤:步骤1:获取各类信息统一资源定位符;步骤2:增加相关性判断模块,过滤出主题相关性较高的媒体资源页面;步骤3:对过滤出的非结构化数据按照统一的格式进行整合,得到结构化数据,以文本的形式表示;步骤4:识别文本中的词条,进行细分处理;步骤5:去除文本中不存在实际意义的词,提高...
【专利技术属性】
技术研发人员:王林林,
申请(专利权)人:镇江睿泰教育科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。