一种主题脉落的生成方法和系统技术方案

技术编号:33709953 阅读:31 留言:0更新日期:2022-06-06 08:40
本发明专利技术公开了一种主题脉落的生成方法和系统,包括获取话题集合,构建主题的信息结构,抽取话题文本的基础信息,生成话题文本的多角度描述信息,根据基础信息和多角度描述信息构建图谱网络,对图谱网络进行主题梳理,获取有效话题有序集合,根据有效话题有序集合生成主题脉落。根据上述技术方案,可以将同一个话题下的文本内容按相同事件准确归类,并分析出事件话题的先后时间顺序以形成主题脉落,实现过程清晰、灵活、高效、具有可扩展性。具有可扩展性。具有可扩展性。

【技术实现步骤摘要】
一种主题脉落的生成方法和系统


[0001]本专利技术涉及计算机应用领域,具体而言,涉及一种主题脉落的生成方法和系统。

技术介绍

[0002]如今互联网信息爆炸式增长,信息来源繁多,面临着凌乱无序,过多冗余的问题。因此需要一种技术方法,用计算机来自动处理这些信息,把相同主题的信息归纳起来,就可以为信息工作者对信息的使用、生产、以及后期处理提供有效的帮助。例如新闻类信息的事件脉络生成,主要是为了解决在新闻舆情系统中,哪些新闻文章是指向同一个事件,这些同一个事件的新闻文章,时序是怎样的,从而得知这个事件的脉络是怎样发展的。
[0003]目前常用的方式有神经网络文本分类和文本向量的方法来做主题归纳,但是用神经网络文本分类的方法来做主题归纳,由于考虑全盘文本,语气词感叹词形容词会导致非常大的干扰,分类边界会不清晰;完全依赖神经网络,可微调性也比较差。用文本向量的方法来做主题归纳,容易关联错误,比如“姐夫”“妹夫”会认为是相近,结果就是匹配更多不相关的主题。
[0004]因此需要一种事件脉络生成的方法,可以清晰、准确、灵活地对话题信息归纳,生成主题脉落。

技术实现思路

[0005]为实现以上目的,本专利技术提供了一种主题脉落的生成方法,包括以下步骤:
[0006]获取话题集合;
[0007]构建主题的信息结构:一个主题的信息结构包括多个话题,其中一个话题包括多个话题文本;
[0008]抽取话题文本的基础信息,生成所述话题文本的多角度描述信息;
[0009]根据基础信息和多角度描述信息构建图谱网络;图谱网络进行主题梳理,获取有效话题有序集合;
[0010]根据有效话题有序集合生成主题脉落。
[0011]其中,生成话题文本的多角度描述信息包括:从话题文本中抽取三元组后,选择有效的三元组;其中三元组的元素包括主语、谓语和宾语。
[0012]进一步的,图谱网络结构包括:标题节点、元素节点、节点路径,节点路径为标题与元素节点的间的关系;
[0013]进一步的,根据基础信息和多角度描述信息构建图谱网络,即将基础信息和多角度描述信息的元素填入图谱网络的结构。
[0014]进一步的,主题梳理包括:
[0015]通过图谱路径搜索获取关联的话题集合;
[0016]对关联话题进行关联度计算,获取有效话题集合;
[0017]对有效话题集合进行时间过滤;
[0018]根据时间对有效话题进行排序,生成有效话题有序集合;
[0019]对有效话题有序集合进行主题归类,生成主题脉落。
[0020]进一步的,话题文本的基础信息包括并不限于:地点、对象名称,其中对象名称包括人名、机构名。
[0021]进一步的,抽取三元组的步骤包括:
[0022]对话题文本进行分词处理,获取文本关键词,关键词包括动词和名词;
[0023]从关键词中提取动词,作为三元组的谓语;
[0024]以谓语为标准,上下文查找名词确定主语;
[0025]以谓语为标准,上下文查找名词确定宾语。
[0026]进一步的,上下文查找名词确定主语还包括对所述主语进行完整词义处理;上下文查找名词确定宾语还包括对宾语进行完整词义处理。
[0027]选择有效的三元组的过程包括:
[0028]量化三元组,获取三元组分值;
[0029]根据三元组积分进行排序,过滤可淘汰三元组。
[0030]另一方面,本专利技术提供了一种主题脉落的生成系统,其特征在于,包括:
[0031]话题获取模块:用于获取话题集合,输出所述话题集合元素的内容;
[0032]信息结构处理模块:用于处理话题集合元素的文本内容,对文本内容进行信息结构化的处理,将文本内容解析为话题文本,根据话题文本输出基础信息和多角度描述信息;
[0033]图谱网络应用模块:根据信息结构处理模块的输出内容,构建图谱网络,输出有效话题有序集合;图谱网络结构包括:标题节点、元素节点、节点路径;其中,节点路径为标题与元素节点的间的关系;
[0034]主题脉落输出模块:根据有效话题有序集合生成主题脉落。
[0035]进一步的,信息处理模块包括:
[0036]信息提取子模块:用于抽取话题文本的基础信息,基础信息包括地点、对象名称;
[0037]三元组处理子模块:用于从话题文本中抽取、完善三元组,三元组的元素包括主语、谓语和宾语,完善三元组包括补齐三元组的内容、筛除无效三元组;
[0038]图谱网络应用模块包括:
[0039]图谱网络生成模块:根据信息处理模块输出的基础信息和多角度描述信息和图谱网络的结构,生成图谱网络;
[0040]图谱网络计算模块:计算指定话题的关联度,输出有效话题集合;
[0041]集合梳理模块:用于对图谱网络计算模块输出的有效话题集合进行时间过滤和排序,输出有效话题有序集合。
[0042]根据本专利技术,将同一个话题下的文本内容按相同事件准确归类,并分析出事件话题的先后时间顺序以形成主题脉落,实现过程清晰、灵活、高效、具有可扩展性。
附图说明
[0043]图1是根据本专利技术实施例提供的相同事件的微博话题原始信息图;
[0044]图2是根据本专利技术实施例提供的主题脉落的生成方法流程图;
[0045]图3是根据本专利技术实施例提供的主题信息结构图;
[0046]图4是根据本专利技术实施例提供的图谱网络结构图;
[0047]图5是根据本专利技术实施例提供的微博主题脉落图;
[0048]图6是根据本专利技术实施例提供的主题脉落的生成系统结构图。
具体实施方式
[0049]下面结合说明书附图对本专利技术的具体实现方式做一详细描述。
[0050]本专利技术要解决的问题,例如新闻类信息的事件脉络生成,主要是为了解决在新闻舆情系统中,哪些新闻文章是指向同一个事件,这些同一个事件的新闻文章,时序是怎样的,从而得知这个事件的脉络是怎样发展的。即通过技术手段,将同一个话题下的文本内容按相同事件归类,并分析出事件话题的先后时间顺序。
[0051]本文中以微博场景下的一个案例举例进行说明:微博的内容具备话题性质,信息的创作者,会以#号嵌入话题的标题,所以每一个话题天然的聚合了该话题下的发布信息,本例内容如图1所示。但话题与话题之间虽然是同一个事件,以一定的时间先后顺序构成了整个事件,但微博本身并没有联系。
[0052]将事件的话题关联起来的步骤,首先看主题的结构,如图3所示:一个主题包括多个话题,话题包含标题,每个话题下有创作者发布的内容(即话题文本),发布的时间,显然话题所描述的事件存在于话题文本里,那么只要分析话题文本就能找到关联的方法。另一方面,相同事件的话题下的话题文本存在的共同点需要梳理出来,我们在描述一件事情的时候,通常会说时间(when),地点(where),人物(who),以及对事件各角度的描述 (what)。其中事件各角度的本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种主题脉落的生成方法,其特征在于,包括以下步骤:获取话题集合;构建主题的信息结构,其中,一个主题的所述信息结构包括多个话题,其中一个所述话题包括多个话题文本;抽取所述话题文本的基础信息;生成所述话题文本的多角度描述信息;根据所述基础信息和多角度描述信息构建图谱网络;对所述图谱网络进行主题梳理,获取有效话题有序集合;根据所述有效话题有序集合生成主题脉落。2.根据权利要求1所述的主题脉落的生成方法,其特征在于,所述生成所述话题文本的多角度描述信息包括:从所述话题文本中抽取三元组后,选择有效的三元组;其中,所述三元组的元素包括主语、谓语和宾语。3.根据权利要求1所述的主题脉落的生成方法,其特征在于,所述主题的图谱网络结构包括:标题节点、元素节点、节点路径;其中,节点路径为标题与元素节点的间的关系;所述根据所述基础信息和多角度描述信息构建图谱网络,指将所述基础信息和多角度描述信息的元素填入所述图谱网络的结构。4.根据权利要求1所述的主题脉落的生成方法,其特征在于,所述主题梳理包括:通过图谱路径搜索获取关联的话题集合;对所述关联话题进行关联度计算,获取有效话题集合;对所述有效话题集合进行时间过滤;根据所述时间对所述有效话题进行排序,生成有效话题有序集合;对所述有效话题有序集合进行主题归类,生成主题脉落。5.根据权利要求1所述的主题脉落的生成方法,其特征在于,所述话题文本的基础信息包括:地点、对象名称,其中对象名称包括人名、机构名。6.根据权利要求2所述的主题脉落的生成方法,其特征在于,所述抽取三元组的步骤包括:对话题文本进行分词处理,获取文本关键词,所述关键词包括动词和名词;从所述关键词中提取动词,作为三元组的谓语;以所述谓语为标准,上下文查找名词确定主语;以所述谓语为标准,...

【专利技术属性】
技术研发人员:欧锦华李晓鹏田丹高瑞雪
申请(专利权)人:广州启生信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1