当前位置: 首页 > 专利查询>戴智伟专利>正文

一种信息自动搜索归类再发布方法及系统技术方案

技术编号:16644875 阅读:31 留言:0更新日期:2017-11-26 17:22
本发明专利技术涉及一种信息自动搜索归类再发布方法及系统,该方法包括:步骤S1、信息监测线程监测到用户添加新信息后,启动信息搜索收集线程获取用户添加的新信息;步骤S2、存储器存储信息搜索收集线程获取的新信息;步骤S3、分析器分析存储器中存储的新信息类别;步骤S4、推送器按所述新信息类别向相应的信息页面推送发布新信息;步骤S5、信息互通线程建立原点信息和转发信息之间的关系链接;其中,所述原点信息包括所述推送器推送发布的新信息;步骤S6、信息互通线程检测到用户删除原点信息后,删除所述原点信息和转发信息之间的关系链接。通过本发明专利技术的技术方案,能实现用户所需信息及新添加信息的自动搜索、归类和发布。

Method and system for automatic search, classification and re distribution of information

The invention relates to an automatic classification and search method and system for publishing information, the method comprises the following steps: S1, information monitoring thread monitoring to the user to add new information, start collecting information search thread to get new information added by the user; step S2, memory information search new information collection thread gets; step S3, analyzer analysis of new categories of information stored in the memory; step S4, pusher push release new information to the corresponding page information according to the new categories of information; establish the origin information and forwarding links between information and information exchange step S5 thread; among them, the new information of the origin information including the pusher push send the release of information exchange; step S6 thread detects the user delete origin information, delete the link between the origin information and forwarding information. Through the technical scheme of the invention, the automatic search, classification and publication of the required information and the new added information can be realized.

【技术实现步骤摘要】
一种信息自动搜索归类再发布方法及系统
本专利技术涉及信息处理
,具体涉及一种信息自动搜索归类再发布方法及系统。
技术介绍
当今世界计算机互联网技术已广为人类所用,未来也将为人类的进步发挥越来越重要的作用。随着科技的发展,计算机互联网技术肯定会越来越复杂多样,但是为了提升用户体验,将来用户的使用方法和手段却必定要求其越来越简单。当前在互联网上当我们要发表文章时,可能需要到微博上;当我们要提问时,可能要到知乎;当我们要发简历找工作、发布告转让店面信息时可能需要到58同城;做生意、卖产品、卖服务可能需要到淘宝或者京东上先开一个店;可能等等……这对于目前的绝大多数用户来说会显得有些复杂。如果当一个用户想做任何一件互联网上的事,都可以随处、随意发布而后其他事情都交由计算机系统技术来帮助完成,那么这将大大降低用户的使用难度并节省用户的宝贵时间,从而为社会的发展、人类的进步带来一些帮助。
技术实现思路
有鉴于此,本专利技术的目的在于克服现有技术的不足,提供一种信息自动搜索归类再发布方法及系统,实现用户所需信息及新添加信息的自动搜索、归类和发布。为实现以上目的,本专利技术采用如下技术方案:一种信息自动搜索归类再发布方法,包括:步骤S1、信息监测线程监测到用户添加新信息后,启动信息搜索收集线程获取用户添加的新信息;步骤S2、存储器存储信息搜索收集线程获取的新信息;步骤S3、分析器分析存储器中存储的新信息类别;步骤S4、推送器按所述新信息类别向相应的信息页面推送发布新信息;步骤S5、信息互通线程建立原点信息和转发信息之间的关系链接;其中,所述原点信息包括所述推送器推送发布的新信息;步骤S6、信息互通线程检测到用户删除原点信息后,删除已转发信息及所述原点信息和转发信息之间的关系链接;其中,所述步骤S4中的信息页面包括互联网上已建立的各类网站信息页面和用户当前所在的原点信息页面,其中,用户当前所在的原点信息页面上的信息为原点信息,用户转发的原点信息为转发信息。优选地,所述步骤S1中,所述信息搜索收集线程获取用户添加的新信息具体包括:爬虫程序获取与预设信息类别相关的新信息,并对所述新信息进行分词处理,获得包含若干词和/或词组的分词处理结果信息;分别基于语义库中同一语义属性参数对所述词和/或词组进行加权运算,得到所述新信息的语义属性参数;若所述新信息的语义属性参数在预设的信息类别参数范围内,则将所述新信息保存至抓取结果队列。优选地,所述分别基于语义库中同一语义属性参数对所述词和/或词组进行加权运算,得到所述新信息的语义属性参数之前还包括:对所述词和/或词组进行聚类操作,根据所述语义库数据获取所述词和/或词组的所述语义属性参数。优选地,所述步骤S3具体包括:步骤S31、将待处理的新信息收集并存储到分布式文件系统HDFS文件系统中;步骤S32、利用硬聚类K-Means算法对存储到所述HDFS文件系统中的所述新信息进行聚类,并获得一个或者多个聚类数据群;将获得的每一个所述聚类数据群分别作为一类热点信息。优选地,所述步骤S32中,利用硬聚类K-Means算法对存储到所述HDFS文件系统中的所述新信息进行聚类,具体包括:步骤S321、从存储到所述HDFS文件系统中的全部新信息中任意选择k个信息,并对所述K个信息的当前位置作为初始聚类中心;其中,k为整数,是预先给定的聚类数;步骤S322、计算全部新信息中的每一个未被选择的新信息与k个所述初始聚类中心的距离;步骤S323、获得所述每一个未被选择的新信息与全部k个所述初始聚类中心计算出的全部所述距离中的最小距离;步骤S324、将所述未被选择的新信息分配给与该最小距离相对应的所述初始聚类中心;步骤S325、根据每个所述初始聚类中心所分配到的全部所述未被选择的新信息的分布情况,拟合出每一个所述初始聚类中心所分配到的全部未被选择的新信息的均值中心位置,并将所述均值中心位置作为聚类中心;步骤S326、判断所述初始聚类中心与所述聚类中心的位置是否相同,如果所述初始聚类中心与所述聚类中心的位置不相同,则进入步骤S327;如果所述初始聚类中心与所述聚类中心的位置相同,则所述聚类结束;步骤S327、将k个所述初始聚类中心处的新信息分别迁移到与每个所述初始聚类中心相对应的所述聚类中心,并返回步骤S322。优选地,所述聚类中心处的新信息与被分配给所述聚类中心的所述未被选择的新信息共同组成数据群。优选地,所述步骤S3还包括:步骤S33、采用Fortune算法对获得的每一类所述热点信息分别生成一个泰森多边形Voronoi图。优选地,所述步骤S33具体包括:将一个所述聚类数据群中的每一个新信息分别作为一个定点;采用预设的扫描线从预设起点开始移动,对整个所述聚类数据群进行扫描;获得多个以所述定点为焦点,以所述扫描线为准线的抛物线;当所述扫描线对所述聚类数据群扫描结束时,获得的多个所述抛物线中每相邻的两个所述抛物线之间的交点以及所述交点之间的连线形成的多个多边形域构成所述Voronoi图;其中,每个所述多边形域包含一个所述定点。优选地,所述新信息包括用户外部最新发布以及系统内部最新发布的各种信息。一种信息自动搜索归类再发布系统,包括:服务器和用户终端,其中,所述服务器和用户终端通过互联网无线和/或有线连接,所述互联网包括全球性互联网以及区域性互联网;所述用户终端指多个互联网终端设备,包括手机、平板电脑、笔记本电脑和/或台式机电脑;所述服务器包括信息监测模块、信息捜索收集模块、信息存储模块、信息计算分析模块、信息推送发布模块、信息链接管理模块,其中,所述信息监测模块用于监测用户及系统是否发布了新信息;所述信息捜索收集模块用于获取所述信息监测模块监测到的用户或系统发布的新信息;所述信息存储模块用于存储所述用户或系统发布的所有新信息;所述信息计算分析模块用于将各种新信息按类别归类;所述信息推送发布模块用于将归类好的新信息向同类别的信息页面推送发布;所述信息链接管理模块用于建立原点信息和转发信息之间的关系链接,并在检测到用户删除原点信息后,删除已转发信息及所述原点信息和转发信息之间的关系链接;其中,所述用户指多个使用互联网终端设备的人,包括信息发布者和信息使用者。本专利技术采用以上技术方案,至少具备以下有益效果:由上述技术方案可知,本专利技术提供的这种信息自动搜索归类再发布方法及系统,互联网用户发布任何信息都可以在任一终端上随处、随意发布而无需多花脑力、时间寻找相关之所,从而大大降低用户的使用难度并节省了用户的宝贵时间。另外,互联网用户发布任何信息,被转发后被其他用户在其他处使用的结果,该用户都能在其原点信息页面获取到并可在原点信息页面上和其他信息页面上的其他用户取得“直接”联系,同样能大大降低用户的使用难度并节省了用户的宝贵时间。再者,互联网用户查找所需信息可直接进入相关信息页面翻看或在小范围内搜索,而无需通过大范围翻找或大范围的搜索再在大量的搜索结果中翻寻,从而再次大大降低了用户的使用难度并节省了用户的宝贵时间。附图说明为了更清楚地说明本专利技术实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的本文档来自技高网...
一种信息自动搜索归类再发布方法及系统

【技术保护点】
一种信息自动搜索归类再发布方法,其特征在于,包括:步骤S1、信息监测线程监测到用户添加新信息后,启动信息搜索收集线程获取用户添加的新信息;步骤S2、存储器存储信息搜索收集线程获取的新信息;步骤S3、分析器分析存储器中存储的新信息类别;步骤S4、推送器按所述新信息类别向相应的信息页面推送发布新信息;步骤S5、信息互通线程建立原点信息和转发信息之间的关系链接;其中,所述原点信息包括所述推送器推送发布的新信息;步骤S6、信息互通线程检测到用户删除原点信息后,删除已转发信息及所述原点信息和转发信息之间的关系链接;其中,所述步骤S4中的信息页面包括互联网上已建立的各类网站信息页面和用户当前所在的原点信息页面,其中,用户当前所在的原点信息页面上的信息为原点信息,用户转发的原点信息为转发信息。

【技术特征摘要】
1.一种信息自动搜索归类再发布方法,其特征在于,包括:步骤S1、信息监测线程监测到用户添加新信息后,启动信息搜索收集线程获取用户添加的新信息;步骤S2、存储器存储信息搜索收集线程获取的新信息;步骤S3、分析器分析存储器中存储的新信息类别;步骤S4、推送器按所述新信息类别向相应的信息页面推送发布新信息;步骤S5、信息互通线程建立原点信息和转发信息之间的关系链接;其中,所述原点信息包括所述推送器推送发布的新信息;步骤S6、信息互通线程检测到用户删除原点信息后,删除已转发信息及所述原点信息和转发信息之间的关系链接;其中,所述步骤S4中的信息页面包括互联网上已建立的各类网站信息页面和用户当前所在的原点信息页面,其中,用户当前所在的原点信息页面上的信息为原点信息,用户转发的原点信息为转发信息。2.根据权利要求1所述的信息自动搜索归类再发布方法,其特征在于,所述步骤S1中,所述信息搜索收集线程获取用户添加的新信息具体包括:爬虫程序获取与预设信息类别相关的新信息,并对所述新信息进行分词处理,获得包含若干词和/或词组的分词处理结果信息;分别基于语义库中同一语义属性参数对所述词和/或词组进行加权运算,得到所述新信息的语义属性参数;若所述新信息的语义属性参数在预设的信息类别参数范围内,则将所述新信息保存至抓取结果队列。3.根据权利要求2所述的信息自动搜索归类再发布方法,其特征在于,所述分别基于语义库中同一语义属性参数对所述词和/或词组进行加权运算,得到所述新信息的语义属性参数之前还包括:对所述词和/或词组进行聚类操作,根据所述语义库数据获取所述词和/或词组的所述语义属性参数。4.根据权利要求1所述的信息自动搜索归类再发布方法,其特征在于,所述步骤S3具体包括:步骤S31、将待处理的新信息收集并存储到分布式文件系统HDFS文件系统中;步骤S32、利用硬聚类K-Means算法对存储到所述HDFS文件系统中的所述新信息进行聚类,并获得一个或者多个聚类数据群;将获得的每一个所述聚类数据群分别作为一类热点信息。5.根据权利要求4所述的信息自动搜索归类再发布方法,其特征在于,所述步骤S32中,利用硬聚类K-Means算法对存储到所述HDFS文件系统中的所述新信息进行聚类,具体包括:步骤S321、从存储到所述HDFS文件系统中的全部新信息中任意选择k个信息,并对所述K个信息的当前位置作为初始聚类中心;其中,k为整数,是预先给定的聚类数;步骤S322、计算全部新信息中的每一个未被选择的新信息与k个所述初始聚类中心的距离;步骤S323、获得所述每一个未被选择的新信息与全部k个所述初始聚类中心计算出的全部所述距离中的最小距离;步骤S324、将所述未被选择的新信息分配给与该最小距离相对应的所述初始聚类中心;步骤S...

【专利技术属性】
技术研发人员:戴智伟
申请(专利权)人:戴智伟
类型:发明
国别省市:江西,36

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1