基于智慧社区的信息主题抽取系统及方法技术方案

技术编号:38580648 阅读:13 留言:0更新日期:2023-08-26 23:26
本发明专利技术涉及智慧社区信息处理技术领域,具体公开了基于智慧社区的信息主题抽取系统及方法,所述的方法包括以下步骤:步骤S1:建立主题匹配数据库;步骤S2:获取检索信息,识别所述的检索信息中的主题词条,生成检索主题集;步骤S3:任取一个所述的生成检索主题集中的主题词条,并获取名称与所述的主题词条相同的子数据库,识别所述的子数据库中是否存在二级主题与所述的主题词条相同;步骤S4:如果所述的子数据库存在与所述的检索主题集中的主题词条相同的二级主题时,则获取所述的子数据库中的信息并生成目标主题集。相比与传统技术,本发明专利技术可以在用户无法具体表达明确的主题的情况下,提高检索的准确性和全面性的效果。提高检索的准确性和全面性的效果。提高检索的准确性和全面性的效果。

【技术实现步骤摘要】
基于智慧社区的信息主题抽取系统及方法


[0001]本专利技术涉及智慧社区信息处理
,具体涉及基于智慧社区的信息主题抽取系统及方法。

技术介绍

[0002]智慧社区是指通过利用各种智能技术和方式,整合社区现有的各类服务资源,为社区群众提供政务、商务、娱乐、教育、医护及生活互助等多种便捷服务的模式。从应用方向来看,“智慧社区”应实现“以智慧政务提高办事效率,以智慧民生改善人民生活,以智慧家庭打造智能生活,以智慧小区提升社区品质”的目标。
[0003]而为了满足社区内部人员对于信息的获取,社区内部需要设置相应的网络和搜索引擎。尽管搜索引擎得到了飞速的发展和广泛的应用,但是当前的通用搜索引擎在检索结果的准确性、覆盖率、时效性等方面都还存在不足,仍然无法完全满足用户的需求。因此面向主题的搜索引擎受到人们越来越多的关注。面向主题的搜索引擎只对特定网站或特定主题的网页进行索引,从信息采集的角度,面向主题的搜索引擎需要过滤与本主题无关的内容,从而减少了网页采集和分析的数据规模。面向主题的搜索引擎可以利用领域知识和特点,通过具有特色的采集调度和内容抽取技术,实现比通用搜索引擎获取网页更高的效率,并提高信息抽取的质量。
[0004]而在使用面向主题的搜索引擎时,主题往往是用户进行输入的。因此,在用户的检索过程中,很有可能会出现以下情况:1、用户同时输入多个检索主题;2、用户不明确自己的主题是什么,只能够大概描述相关内容3、多个主题间没有明确的关联信息等等,从而造成检索无法正常进行;因此如何在用户无法具体表达明确的主题的情况下,提高检索的准确性和全面性是现有技术急需要解决的问题。

技术实现思路

[0005]本专利技术的目的在于提供基于智慧社区的信息主题抽取系统及方法,解决以下技术问题:
[0006]如何在用户无法具体表达明确的主题的情况下,提高检索的准确性和全面性。
[0007]本专利技术的目的可以通过以下技术方案实现:
[0008]基于智慧社区的信息主题抽取方法,包括以下步骤:
[0009]步骤S1:建立主题匹配数据库,所述的主题匹配数据库包括有若干子数据库,其中所述的子数据库中包括核心主题和二级主题,所述的二级主题与所述的核心主题相关联且被所述的核心主题所包含,所述的子数据库以所述的核心主题命名;
[0010]步骤S2:获取检索信息,识别所述的检索信息中的主题词条,生成检索主题集;
[0011]步骤S3:任取一个所述的生成检索主题集中的主题词条,并获取名称与所述的主题词条相同的子数据库,识别所述的子数据库中是否存在二级主题与所述的主题词条相同;
[0012]步骤S4:如果所述的子数据库存在与所述的检索主题集中的主题词条相同的二级主题时,则获取所述的子数据库中的信息并生成目标主题集;
[0013]步骤S5:将所述的主题词条从所述的检索主题集中删除并重复步骤S3和步骤S4;
[0014]步骤S6:根据所述的目标主题集中的词条内容设定种子网页,提取所述的种子网页中的内容和新链接,作为待采集的网页;对待采集的网页进行分析,判断网页是否与主题相关,并且提取出该网页中出现的新链接,作为待采集的网页。
[0015]作为本专利技术进一步的方案:在所述的步骤S3中,任取一个所述的生成检索主题集中的主题词条之后,不存在名称与所述的主题词条相同的子数据库时,获取已生成的目标主题集,识别所述的目标主题集中是否存在与所述的主题词条相同的二级主题或核心主题,如果所述的目标主题集中存在所述的主题词条相同的二级主题或核心主题时,将所述的主题词条从检索主题集中删除并重复步骤S3和步骤S4。
[0016]作为本专利技术进一步的方案:在步骤S4中,如果所述的子数据库不存在与所述的检索主题集中的主题词条相同的二级主题时,获取已生成的目标主题集,识别所述的目标主题集中是否存在与所述的主题词条相同的二级主题或核心主题,如果所述的目标主题集中存在所述的主题词条相同的二级主题或核心主题时,将所述的主题词条从检索主题集中删除并重复步骤S3和步骤S4。
[0017]作为本专利技术进一步的方案:在所述的步骤S3中,任取一个所述的生成检索主题集中的主题词条之后,不存在名称与所述的主题词条相同的子数据库,并且所述的目标主题集中不存在所述的主题词条相同的二级主题或核心主题时,则单独生成一个目标主题集。
[0018]作为本专利技术进一步的方案:在步骤S4中,如果所述的子数据库不存在与所述的检索主题集中的主题词条相同的二级主题,并且所述的目标主题集中存在所述的主题词条相同的二级主题或核心主题时,获取所述的子数据库中的信息并生成目标主题集。
[0019]作为本专利技术进一步的方案:在识别所述的检索信息中的主题词条后,删除所述的主题词条中的重复词条后,再生成所述的检索主题集。
[0020]作为本专利技术进一步的方案:在所述的步骤S3中,识别所述的子数据库中是否存在二级主题与所述的主题词条相同的具体过程如下所示:
[0021]获取检索主题集中任意一个的主题词条,识别所述的子数据库中是否存在与相同的二级主题;
[0022]如果所述的子数据库中存在与所述的主题词条相同的二级主题,则识别完成;
[0023]如果所述的子数据库中不存在与所述的主题词条相同的二级主题,则获取检索主题集中下一个主题词条,重复识别过程。
[0024]基于智慧社区的信息主题抽取系统,包括:
[0025]主题匹配数据库:包括有若干子数据库,其中所述的子数据库中包括核心主题和二级主题,所述的二级主题与所述的核心主题相关联且被所述的核心主题所包含,所述的子数据库以所述的核心主题命名;
[0026]词条识别模块:获取检索信息,识别所述的检索信息中的主题词条,生成检索主题集;
[0027]检索主题识别模块:任取一个所述的生成检索主题集中的主题词条,并获取名称与所述的主题词条相同的子数据库,识别所述的子数据库中是否存在二级主题与所述的主
题词条相同;如果所述的子数据库存在与所述的主题词条相同的二级主题,则获取所述的子数据库中的信息并生成检索主题集;将所述的主题词条从所述的检索主题集中删除并重复生成检索主题集;
[0028]主题信息抽取模块:根据所述的检索主题集中的词条内容设定种子网页,提取所述的种子网页中的内容和新链接,作为待采集的网页;对待采集的网页进行分析,判断网页是否与主题相关,并且提取出该网页中出现的新链接,作为待采集的网页。
[0029]本专利技术的有益效果:在本专利技术中,以不同的核心主题的框架可以生成不同的子数据库,在用户对于所检索的主题并不明确的话,现有技术是无法顺利完成检索过程的情况时,通过抓取用户的检索信息,分析检索信息中所涉及的各个词条内容,并通过与所建立的主题匹配数据库进行匹配来预测用户的检索目的,从而起到在用户无法具体表达明确的主题的情况下,提高检索的准确性和全面性的效果;
附图说明
[0030]下面结合附图对本专利技术作进一步的说明。
[00本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.基于智慧社区的信息主题抽取方法,其特征在于,包括以下步骤:步骤S1:建立主题匹配数据库,所述的主题匹配数据库包括有若干子数据库,其中所述的子数据库中包括核心主题和二级主题,所述的二级主题与所述的核心主题相关联且被所述的核心主题所包含,所述的子数据库以所述的核心主题命名;步骤S2:获取检索信息,识别所述的检索信息中的主题词条,生成检索主题集;步骤S3:任取一个所述的生成检索主题集中的主题词条,并获取名称与所述的主题词条相同的子数据库,识别所述的子数据库中是否存在二级主题与所述的主题词条相同;步骤S4:如果所述的子数据库存在与所述的检索主题集中的主题词条相同的二级主题时,则获取所述的子数据库中的信息并生成目标主题集;步骤S5:将所述的主题词条从所述的检索主题集中删除并重复步骤S3和步骤S4;步骤S6:根据所述的目标主题集中的词条内容设定种子网页,提取所述的种子网页中的内容和新链接,作为待采集的网页;对待采集的网页进行分析,判断网页是否与主题相关,并且提取出该网页中出现的新链接,作为待采集的网页。2.根据权利要求1所述的基于智慧社区的信息主题抽取方法,其特征在于,在所述的步骤S3中,任取一个所述的生成检索主题集中的主题词条之后,不存在名称与所述的主题词条相同的子数据库时,获取已生成的目标主题集,识别所述的目标主题集中是否存在与所述的主题词条相同的二级主题或核心主题,如果所述的目标主题集中存在所述的主题词条相同的二级主题或核心主题时,将所述的主题词条从检索主题集中删除并重复步骤S3和步骤S4。3.根据权利要求1所述的基于智慧社区的信息主题抽取方法,其特征在于,在步骤S4中,如果所述的子数据库不存在与所述的检索主题集中的主题词条相同的二级主题时,获取已生成的目标主题集,识别所述的目标主题集中是否存在与所述的主题词条相同的二级主题或核心主题,如果所述的目标主题集中存在所述的主题词条相同的二级主题或核心主题时,将所述的主题词条从检索主题集中删除并重复步骤S3和步骤S4。4.根据权利要求2所述的基于智慧社区的信息主题抽取方法,其特征在于,在所述的步骤S3中,任取一个所述的生成检索主题集中的主题词条之后,不存在名称与所述的...

【专利技术属性】
技术研发人员:张玉海马克霞范波
申请(专利权)人:山东物慧信息科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1