一种事件挖掘方法和装置制造方法及图纸

技术编号:25915104 阅读:18 留言:0更新日期:2020-10-13 10:33
本申请公开了一种事件挖掘方法和装置;本申请可以从文本数据集中提取多个参考文本;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。本申请可以实现周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。

【技术实现步骤摘要】
一种事件挖掘方法和装置
本申请涉及计算机
,具体涉及一种事件挖掘方法和装置。
技术介绍
随着计算机技术和网络技术的飞速发展,互联网在人们的日常生活和工作学习中发挥的作用也越来越大,人们经常通过互联网来搜索各种资讯信息。在每年特定的时间段都会发生一些特定的活动或事件,例如高考、节假日和一些固定年度赛季等,即使具体每年事件发生的确切日期不一定一样,但在这些事件发生的前、中、后等不同时间段,用户在搜索引擎中对这些事件的搜索行为会表现出有规律的周期性特点,产品运营人员会对这些周期性事件加以运营。在目前的相关技术中,一般基于人工经验的方式,收集一些典型的周期性事件词,这样挖掘的效率太低,而且挖掘结果准确率相对较低。
技术实现思路
本申请实施例提供一种事件挖掘方法和装置,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。本申请实施例提供一种事件挖掘方法,包括:从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。相应的,本申请实施例提供一种事件挖掘装置,包括:提取单元,用于从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;分类单元,用于对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;聚类单元,用于对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析单元,用于分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;判别单元,用于基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。可选的,在本申请的一些实施例中,所述分类单元可以包括获取子单元、卷积子单元、预测子单元和第一确定子单元,如下:所述获取子单元,用于获取各个参考文本对应的词向量;卷积子单元,用于对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;预测子单元,用于基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;第一确定子单元,用于根据所述概率,从所述多个参考文本中确定事件文本集。可选的,在本申请的一些实施例中,所述分类单元具体可以用于通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。可选的,在本申请的一些实施例中,所述分类单元还可以包括训练子单元,如下:所述训练子单元,用于获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。可选的,在本申请的一些实施例中,所述聚类单元可以包括构建子单元、第二确定子单元、选取子单元和聚类子单元,如下:所述构建子单元,用于对所述事件文本集中的参考文本构建词向量;第二确定子单元,用于确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;选取子单元,用于从所述词向量中选取K个词向量分别作为K个参考聚类中心;聚类子单元,用于基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。可选的,在本申请的一些实施例中,所述聚类子单元具体可以用于对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;针对每个参考文本集,从所述参考文本集中选取词向量作为新聚类中心;基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集。其中,步骤“基于K个新聚类中心,分别对K个参考文本集进行更新,得到K个子事件对应的聚类后文本集”具体可以包括:对于每个参考文本集,将新聚类中心作为新的参考聚类中心,返回执行所述对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离的步骤,直到每个参考文本集的新聚类中心与参考聚类中心相同,获得K个子事件对应的聚类后文本集。可选的,在一些实施例中,所述分析单元可以包括第三确定子单元、划分子单元和计算子单元,如下:所述第三确定子单元,用于确定所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到映射关系集合;划分子单元,用于基于预设时间周期,对所述映射关系集合进行划分,得到多个子映射关系集合;计算子单元,用于计算每两个子映射关系集合之间的相似度。可选的,在一些实施例中,所述判别单元具体可以用于基于所述相似度,对所述子事件进行周期性判别,并输出周期性判别结果。可选的,在一些实施例中,所述计算子单元具体可以用于确定每两个子映射关系集合中对应的搜索时间;基于每两个子映射关系集合中对应的搜索时间,对每两个子映射关系集合中目标文本的文本数量进行协方差运算,得到协方差值;计算每个子映射关系集合中,各个搜索时间对应的目标文本的文本数量均值;基于每两个子映射关系集合的协方差值,以及每两个子映射关系集合的文本数量均值,计算每两个子映射关系集合之间的相似度。可选的,在本申请的一些实施例中,所述事件挖掘装置还可以包括显示单元,所述显示单元可以用于当所述周期性判别结果为所述子事件具有周期性时,在所述目标事件对应的运营页面上显示所述子事件对应的版块控件;基于对所述版块控件的操作,显示所述子事件对应的版块页面,所述版块页面包括所述子事件对应的事件内容信息。本申请实施例提供的一种电子设备,包括处理器和存储器,所述存储器存储有多条指令,所述处理器加载所述指令,以执行本申请实施例提供的事件挖掘方法中的步骤。此外,本申请实施例还提供一种存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现本申请实施例提供的事件挖掘方法中的步本文档来自技高网...

【技术保护点】
1.一种事件挖掘方法,其特征在于,包括:/n从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;/n对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;/n对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;/n分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;/n基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。/n

【技术特征摘要】
1.一种事件挖掘方法,其特征在于,包括:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。


2.根据权利要求1所述的方法,其特征在于,所述对所述多个参考文本进行事件分类,得到事件文本集,包括:
获取各个参考文本对应的词向量;
对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
根据所述概率,从所述多个参考文本中确定事件文本集。


3.根据权利要求1所述的方法,其特征在于,所述对所述多个参考文本进行事件分类,得到事件文本集,包括:
通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。


4.根据权利要求3所述的方法,其特征在于,所述通过分类模型对所述多个参考文本进行事件分类,得到事件文本集之前,还包括:
获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;
通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;
基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;
基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。


5.根据权利要求1所述的方法,其特征在于,所述对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,包括:
对所述事件文本集中的参考文本构建词向量;
确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
从所述词向量中选取K个词向量分别作为K个参考聚类中心;
基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。


6.根据权利要求5所述的方法,其特征在于,所述基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集,包括:
对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;
基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;
针对每个参考文本集,从所述参...

【专利技术属性】
技术研发人员:康战辉
申请(专利权)人:腾讯科技深圳有限公司
类型:发明
国别省市:广东;44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1