一种异构资源的整合方法技术

技术编号:34169088 阅读:14 留言:0更新日期:2022-07-17 10:19
本发明专利技术公开了一种异构资源的整合方法,本发明专利技术的方法使用网络爬虫技术,对网站、网页数据,文档数据,微博信息,微信公众号信息以及用户行为数据进行抓取,并按照统一格式整合为结构化数据,最后设计数据分类处理模块,对处理后的数据按类别进行存储,进而真正实现对异构资源的统一管理,对结构化以及非结构化数据信息的统一搜索,以解决现有技术中异构资源查找与获取难的问题。与获取难的问题。与获取难的问题。

A method of integrating heterogeneous resources

【技术实现步骤摘要】
一种异构资源的整合方法


[0001]本专利技术属于计算机
,具体属于计算机学科中的数据挖掘的
;具体涉及一种异构资源的挖掘与整合方法。

技术介绍

[0002]当前互联网中各类媒体资源混杂地分布在不同的数据源中,为信息的查找与获取带来了很大困难。对这些分散的异构数据源中的媒体资源进行挖掘和整理,对于解决信息查找与获取的难题具有重要意义。

技术实现思路

[0003]本专利技术提供一种异构资源的整合方法,以解决现有技术中异构资源查找与获取难的问题。
[0004]为实现上述专利技术目的,本专利技术提供一种异构资源的整合方法,使用网络爬虫技术,对网站、网页数据,文档数据,微博信息,微信公众号信息以及用户行为数据进行抓取,并按照统一格式整合为结构化数据,最后设计数据分类处理模块,对处理后的数据按类别进行存储。
[0005]本专利技术提供的异构资源的整合方法包括以下工作步骤:步骤1:获取各类信息统一资源定位符;步骤2:增加相关性判断模块,过滤出主题相关性较高的媒体资源页面;步骤3:对过滤出的非结构化数据按照统一的格式进行整合,得到结构化数据,以文本的形式表示;步骤4:识别文本中的词条,进行细分处理;步骤5:去除文本中不存在实际意义的词,提高文本分析处理的效率;步骤6:通过特征提取技术将文本转化为向量表示,从而进一步利用分类算法来进行处理;步骤7:设计文本数据分类处理模块,对处理后的数据按类别进行存储。
[0006]所述异构资源整合方法,其特征在于,步骤2中所述的相关性判断模块通过统一资源定位符拆分来获取描述词,根据描述词中主题相关词所占的比例来判断统一资源定位符的相关性;对于网页内容的相关性判断,通过向量空间模型来对文档内容进行向量表示和主题相关性计算。
[0007]所述异构资源整合方法,其特征在于,步骤4中的细分处理,通过文本预处理,提取初步特征,特征降维,计算特征向量,文本分类实现。
[0008]本专利技术有益效果如下:本专利技术针对异构资源智能生成中所面临的关键问题,研究和设计相应的解决方案,面向异构资源主题的信息进行采集、整理和分类。进而真正实现对异构资源的统一管理,对结构化以及非结构化数据信息的统一搜索。
附图说明
[0009]为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术中记载的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0010]图1为本专利技术的方法流程图。
具体实施方式
[0011]为了便于本领域普通技术人员理解和实施本专利技术,下面结合附图及实施例对本专利技术作进一步的详细描述,应当理解,此处所描述的实施示例仅用于说明和解释本专利技术,并不用于限定本专利技术。
[0012]请见图1,本专利技术提供的一种异构资源的整合方法,包括以下步骤:步骤1:获取各类信息统一资源定位符;步骤2:增加相关性判断模块,过滤出主题相关性较高的媒体资源页面;步骤3:对过滤出的非结构化数据按照统一的格式进行整合,得到结构化数据,以文本的形式表示;步骤4:识别文本中的词条,进行细分处理;步骤5:去除文本中不存在实际意义的词,提高文本分析处理的效率;步骤6:通过特征提取技术将文本转化为向量表示,从而进一步利用分类算法来进行处理;步骤7:设计文本数据分类处理模块,对处理后的数据按类别进行存储。
[0013]本实施例的相关性判断模块,构建方法为:通过统一资源定位符拆分来获取描述词,根据描述词中主题相关词所占的比例来判断统一资源定位符的相关性;对于网页内容的相关性判断,通过向量空间模型来对文档内容进行向量表示和主题相关性计算。
[0014]本实施例中,细分处理方法通过文本预处理,提取初步特征,特征降维,计算特征向量,文本分类实现。
[0015]综上所述,本专利技术的异构资源的整合方法可以提取异构媒体数据源,整合相关领域信息,实现对采集的数据的结构化信息提取和分类处理,将异构资源转换为便于存储和管理的数据形式,实现异构资源的智能生成。
[0016]应当理解的是,本说明书未详细阐述的部分均属于现有技术。
[0017]应当理解的是,上述针对较佳实施例的描述较为详细,并不能因此而认为是对本专利技术专利保护范围的限制,本领域的普通技术人员在本专利技术的启示下,在不脱离本专利技术权利要求所保护的范围情况下,还可以做出替换或变形,均落入本专利技术的保护范围之内,本专利技术的请求保护范围应以所附权利要求为准。
本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种异构资源整合方法,其特征在于,所述异构资源使用网络爬虫技术,对网站、网页数据,文档数据,微博信息,微信公众号信息以及用户行为数据进行抓取,并按照统一格式整合为结构化数据,最后设计数据分类处理模块,对处理后的数据按类别进行存储。2.根据权利要求1所述异构资源整合方法,其特征在于,包括以下工作步骤:步骤1:获取各类信息统一资源定位符;步骤2:增加相关性判断模块,过滤出主题相关性较高的媒体资源页面;步骤3:对过滤出的非结构化数据按照统一的格式进行整合,得到结构化数据,以文本的形式表示;步骤4:识别文本中的词条,进行细分处理;步骤5:去除文本中不存在实际意义的词,提高...

【专利技术属性】
技术研发人员:王林林
申请(专利权)人:镇江睿泰教育科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1