用于检测新闻事件的方法和装置制造方法及图纸

技术编号：25042330 阅读：19 留言：0更新日期：2020-07-29 05:32

本公开的实施例公开了用于检测新闻事件的方法和装置，涉及知识图谱技术领域。该方法的一具体实施方式包括：通过多任务学习框架中的资讯事件判别模型过滤至少一条新闻，得到包含潜在事件的候选新闻；对候选新闻的标题进行事件名抽取，得到当前事件名；从事件库中召回至少一个候选事件名；通过多任务学习框架对当前事件名和至少一个候选事件名进行事件归一判别，得到当前事件名与每个候选事件名是同一事件的概率；对于每个候选事件名，若当前事件名与该候选事件名是同一事件的概率大于预定阈值，则将当前事件名合并到事件库中该候选事件对应的事件簇中，否则，新建一个事件。该实施方式能够提高新闻检测速度和准确率，提升计算资源的利用率。

全部详细技术资料下载

【技术实现步骤摘要】
用于检测新闻事件的方法和装置
本公开的实施例涉及计算机
，具体涉及用于检测新闻事件的方法和装置。
技术介绍
随着互联网的快速普及，网络信息呈爆炸式增长，每个人需要花费大量的精力去对信息进行筛选。当用户想要了解近期发生的事情，或者关注某个人、某个组织时，需要从大量未经过筛选整理的新闻资讯中，挑选出重要的信息。如果能够自动的从资讯中将非事件(比如广告、健康知识等)去掉，仅将包含事件的资讯呈现给用户，就能够大大减少用户信息筛选的成本，能够以最快的速度了解外界发生的变化。现有的检测新闻事件的方法主要分为两种，一是通过聚类方法、突发检测、事件短句结合的方法。但这些方法主要是依靠聚类方法，从针对某些资源按照某种相似度计算的方法进行聚类，聚类的基本单元是新闻标题或者标题短句这样能反应事件信息的某种资源。聚类方法属于无监督方法的一种，无监督的方法利用语料中存在的大量冗余信息做聚类计算，然而新闻或微博常常语料较长、词语较多，存在同时描述多个事件的问题。因此基于这种方法进行事件检测，容易造成簇不纯，也容易造成超大簇，同时影响事件检测的准确率和召回率，因此这类方法难以获得理想的检测效果。二是通过有监督优化模型核心能力，通过人工标注语料，训练多个二分类模型，这种方法目前取得了较好的效果，但该方法存在问题是1)需要构建多个任务，每个任务需要使用的计算资源是独立的，资源利用率低；2)每个任务单独训练，存在过拟合问题，导致最终的效果低于其中任一模型。
技术实现思路
本公开的实施例提出了用于检测新闻事件的方法和装置...

【技术保护点】
1.一种用于检测新闻事件的方法，包括：/n响应于接收到待识别的至少一条新闻，通过多任务学习框架中的资讯事件判别模型过滤所述至少一条新闻，得到包含潜在事件的候选新闻；/n通过所述多任务学习框架中的事件名抽取模型对所述候选新闻的标题进行事件名抽取，得到当前事件名；/n通过所述当前事件名从事件库中召回至少一个候选事件名；/n通过所述多任务学习框架中的事件归一判别模型对所述当前事件名和所述至少一个候选事件名进行事件归一判别，得到当前事件名与每个候选事件名是同一事件的概率；/n对于每个候选事件名，若所述当前事件名与该候选事件名是同一事件的概率大于预定阈值，则将所述当前事件名合并到所述事件库中该候选事件对应的事件簇中，否则，在所述事件库中新建一个事件。/n

【技术特征摘要】
1.一种用于检测新闻事件的方法，包括：
响应于接收到待识别的至少一条新闻，通过多任务学习框架中的资讯事件判别模型过滤所述至少一条新闻，得到包含潜在事件的候选新闻；
通过所述多任务学习框架中的事件名抽取模型对所述候选新闻的标题进行事件名抽取，得到当前事件名；
通过所述当前事件名从事件库中召回至少一个候选事件名；
通过所述多任务学习框架中的事件归一判别模型对所述当前事件名和所述至少一个候选事件名进行事件归一判别，得到当前事件名与每个候选事件名是同一事件的概率；
对于每个候选事件名，若所述当前事件名与该候选事件名是同一事件的概率大于预定阈值，则将所述当前事件名合并到所述事件库中该候选事件对应的事件簇中，否则，在所述事件库中新建一个事件。

2.根据权利要求1所述的方法，其中，所述多任务学习框架包括：输入层、参数共享层、任务参数层和任务输出层。

3.根据权利要求2所述的方法，其中，所述多任务学习框架通过以下步骤训练：
获取第一训练样本集，其中，第一训练样本包括新闻和用于表征新闻是否包含事件的第一标注信息；
将所述第一训练样本集中的第一训练样本中的新闻和第一标注信息分别作为所述多任务学习框架的输入和期望输出，利用机器学习方法训练所述多任务学习框架的参数共享层的深度学习神经网络和任务参数层的资讯事件判别模型；
获取第二训练样本集，其中，第二训练样本包括包含事件的新闻的标题、事件名和用于表征事件名是否是从标题中提取的第二标注信息；
将所述第二训练样本集中的第二训练样本中的标题、事件名作为所述多任务学习框架的输入，将所述第二标注信息作为所述多任务学习框架的期望输出，利用机器学习方法训练所述多任务学习框架的参数共享层的深度学习神经网络和任务参数层的事件名判别模型；
获取第三训练样本集，其中，第三训练样本包括一对事件名和用于表征该对事件名是否是同一事件的第三标注信息；
将所述第三训练样本集中的第三训练样本中的一对事件名和第三标注信息分别作为所述多任务学习框架的输入和期望输出，利用机器学习方法训练所述多任务学习框架的参数共享层的深度学习神经网络和任务参数层的事件归一判别模型。

4.根据权利要求1所述的方法，其中，所述事件名抽取模型包括事件名匹配模型和事件名判别模型，所述事件名匹配模型用于提取事件名，所述事件名判别模型用于判别提取的事件名是否是合适的表示事件的事件名。

5.根据权利要求2所述的方法，其中，所述参数共享层是深度学习网络，多个任务共享所述深度学习网络的参数，输出当前输入的模型表示向量。

6.根据权利要求2所述的方法，其中，所述任务参数层包括：资讯事件判别模型、事件名判别模型和事件归一判别模型，所述任务参数层接收所述共享参数层输出的当前输入的模型表示向量，与任务参数层的参数做运算得到任务相关的表示向量，不同任务拥有不同的参数。

7.根据权利要求2所述的方法，其中，所述任务输出层将不同任务的表示向量计算，输出不同任务判别出的类别的概率。

8.一种用于检测新闻事件的装置，包括：
过滤单元，被配置成响应于接收到待识别的至少一条新闻，通过多任务学习框架中的资讯事件判别模型过滤所述至少一条新闻，得到包含潜在事件的候选新闻；
抽取单元，被配置成通过所述多任务学习框架...

【专利技术属性】
技术研发人员：潘禄，陈玉光，李法远，韩翠云，刘远圳，黄佳艳，
申请(专利权)人：北京百度网讯科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人