【技术实现步骤摘要】
一种事件挖掘方法和装置
本申请涉及计算机
,具体涉及一种事件挖掘方法和装置。
技术介绍
随着计算机技术和网络技术的飞速发展,互联网在人们的日常生活和工作学习中发挥的作用也越来越大,人们经常通过互联网来搜索各种资讯信息。在每年特定的时间段都会发生一些特定的活动或事件,例如高考、节假日和一些固定年度赛季等,即使具体每年事件发生的确切日期不一定一样,但在这些事件发生的前、中、后等不同时间段,用户在搜索引擎中对这些事件的搜索行为会表现出有规律的周期性特点,产品运营人员会对这些周期性事件加以运营。在目前的相关技术中,一般基于人工经验的方式,收集一些典型的周期性事件词,这样挖掘的效率太低,而且挖掘结果准确率相对较低。
技术实现思路
本申请实施例提供一种事件挖掘方法和装置,实现了周期性事件的自动挖掘,提高了事件挖掘结果的准确性,同时还可以提升挖掘效率。本申请实施例提供一种事件挖掘方法,包括:从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;基于所述分析结果对所 ...
【技术保护点】
1.一种事件挖掘方法,其特征在于,包括:/n从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;/n对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;/n对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;/n分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;/n基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。/n
【技术特征摘要】
1.一种事件挖掘方法,其特征在于,包括:
从文本数据集中提取多个参考文本,其中,所述文本数据集包括原始文本、以及所述原始文本的搜索时间;
对所述多个参考文本进行事件分类,得到事件文本集,所述事件文本集包括与目标事件相关联的参考文本;
对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,其中,所述子事件从属于所述目标事件;
分析所述文本数据集中目标文本的文本数量、与所述目标文本的搜索时间之间的映射关系,得到分析结果,其中,所述目标文本为所述文本数据集中属于所述子事件的文本;
基于所述分析结果对所述子事件进行周期性判别,并输出周期性判别结果。
2.根据权利要求1所述的方法,其特征在于,所述对所述多个参考文本进行事件分类,得到事件文本集,包括:
获取各个参考文本对应的词向量;
对各个参考文本对应的词向量进行卷积操作和池化操作,得到各个参考文本对应的特征信息;
基于各个参考文本对应的特征信息,预测各个参考文本属于目标事件的概率;
根据所述概率,从所述多个参考文本中确定事件文本集。
3.根据权利要求1所述的方法,其特征在于,所述对所述多个参考文本进行事件分类,得到事件文本集,包括:
通过分类模型对所述多个参考文本进行事件分类,得到事件文本集。
4.根据权利要求3所述的方法,其特征在于,所述通过分类模型对所述多个参考文本进行事件分类,得到事件文本集之前,还包括:
获取训练文本,所述训练文本包括正样本和负样本,所述正样本属于目标事件的期望概率大于第一预设概率,所述负样本属于目标事件的期望概率小于第二预设概率;
通过预设分类模型,对所述训练文本对应的词向量进行卷积操作以及池化操作,得到所述训练文本对应的特征信息;
基于所述训练文本对应的特征信息,预测所述训练文本属于目标事件的实际概率;
基于所述训练文本中的正样本对应的实际概率和期望概率,以及所述训练文本中的负样本对应的实际概率和期望概率,调整预设分类模型的参数,得到分类模型。
5.根据权利要求1所述的方法,其特征在于,所述对所述事件文本集中的参考文本进行聚类处理,得到子事件对应的聚类后文本集,包括:
对所述事件文本集中的参考文本构建词向量;
确定需要聚类出的子事件的个数K,其中,K为不小于1的正整数;
从所述词向量中选取K个词向量分别作为K个参考聚类中心;
基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集。
6.根据权利要求5所述的方法,其特征在于,所述基于K个参考聚类中心,对所述词向量进行聚类处理,得到K个子事件对应的聚类后文本集,包括:
对不属于参考聚类中心的每一个词向量,分别计算所述词向量与K个参考聚类中心的向量距离;
基于所述向量距离,将不属于参考聚类中心的每一个词向量分别归类到K个参考聚类中心所表征的子事件的其中一个,得到K个参考文本集;
针对每个参考文本集,从所述参...
【专利技术属性】
技术研发人员:康战辉,
申请(专利权)人:腾讯科技深圳有限公司,
类型:发明
国别省市:广东;44
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。