一种文本处理方法、电子设备和存储介质技术

技术编号:25223973 阅读:20 留言:0更新日期:2020-08-11 23:13
本申请实施例提供一种文本处理方法、电子设备和存储介质,该方法包括:获得待处理的文本以及所述文本对应的标签;从所述文本所包含的事件句中,确定多个候选事件句,其中,事件句是指包含事件触发词和命名实体的语句;分别计算多个候选事件句与所述标签的相似度;将所述多个候选事件句中相似度满足预设相似度条件的候选事件句作为所述文本对应的主题句。如此,所确定出的主题句准确度较高,能够简洁、准确地描述文本。

【技术实现步骤摘要】
一种文本处理方法、电子设备和存储介质
本申请涉及计算机
,尤其涉及一种文本处理方法、电子设备和存储介质。
技术介绍
随着计算机技术和互联网的不断发展,越来越多的信息以电子文本的形式呈现给用户,互联网已经成为人们获取信息的主要来源,例如,人们可以从社交网站获取新闻信息。然而,随着互联网中文本的急剧增加,人们很难从众多的文本中快速、准确地获取自己感兴趣的信息。目前,为了便于用户从众多文本中获取信息,主要是通过词频-逆文档频率(TermFrequency-InverseDocumentFrequency,TF-IDF)方法来确定用于描述文本的主题句,但是,这种方式所确定出的主题句准确度较低,不能简洁、准确地描述文本。
技术实现思路
有鉴于此,本申请实施例提供一种文本处理方法、电子设备和存储介质,所确定出的主题句准确度较高,能够简洁、准确地描述文本。本申请实施例主要提供如下技术方案:第一方面,本申请实施例提供了一种文本处理方法,包括:获得待处理的文本以及所述文本对应的标签;从所述文本所包含的事件句中,确定多个候选事件句,其中,事件句是指包含事件触发词和命名实体的语句;分别计算多个候选事件句与所述标签的相似度;将所述多个候选事件句中相似度满足预设相似度条件的候选事件句作为所述文本对应的主题句。在一种示例性实施例中,所述从所述文本所包含的事件句中,确定多个候选事件句,包括:对所述文本进行处理,获得所述文本中包含的事件句;基于所述文本中包含的事件句,构建加权无向图,其中,所述加权无向图中的节点表示事件句,所述加权无向图中的每条边表示每条边所连接的两个事件句之间相关联,所述加权无向图中的每个边的权重值表示每个边所连接的两个事件句之间的关联强度;基于所述加权无向图,从所述文本所包含的事件句中,确定多个候选事件句。在一种示例性实施例中,所述对所述文本进行处理,获得所述文本中包含的事件句,包括:对所述文本进行分句处理,得到多个语句;对所述多个语句进行命名实体识别,得到多个包含命名实体的语句;基于预先构建的事件触发词集,对所述多个包含命名实体的语句进行事件触发词识别,得到所述文本中包含的事件句。在一种示例性实施例中,所述基于所述文本中包含的事件句,构建加权无向图,包括:针对每个事件句,通过自然语言处理方法,生成每个事件句的关键词词典,其中,每个事件句的关键词词典包括:该事件句中包含的事件信息及其对应的类型信息,事件信息包括:命名实体、事件触发词、论元中的一种或多种,类型信息包括:命名实体所对应的命名实体类型、事件触发词所对应的事件类型、论元所对应的触发词类型中的一种或多种;基于每两个事件句的关键词词典,计算每两个事件句之间的关联强度;根据所述文本中包含的事件句以及每两个事件句之间的关联强度,生成加权无向图。在一种示例性实施例中,所述基于每两个事件句的关键词词典,计算每两个事件句之间的关联强度,包括:对每两个事件句的关键词词典进行遍历,计算出每两个事件句所对应的多个事件信息对的相似度;将每两个事件句所对应的多个事件信息对的相似度相加,得到每两个事件句之间的关联强度。在一种示例性实施例中,所述对每两个事件句的关键词词典进行遍历,计算出每两个事件句所对应的多个事件信息对的相似度,包括:对每两个事件句的关键词词典进行遍历,得到每两个事件句所对应的多个事件信息对以及多个类型信息对,其中,多个类型信息对与多个事件信息对一一对应;针对每个事件信息对以及与每个事件信息对所对应的类型信息,通过如下处理,计算出每个事件信息对的相似度:确定该类型信息对中的两个类型信息是否相同;若该类型信息对中的两个类型信息是相同的,将该类型信息对所对应的事件信息对的相似度记为0;若该类型信息对中的两个类型信息是不相同的,根据文本相似度方法,计算该类型信息对所对应的事件信息对的相似度。在一种示例性实施例中,所述基于所述加权无向图,从所述文本所包含的事件句中,确定多个候选事件句,包括:基于所述加权无向图,计算每个事件句的重要性得分;基于每个事件句的重要性得分,从所述文本所包含的事件句中,确定多个候选事件句。在一种示例性实施例中,所述基于每个事件句的重要性得分,从所述文本所包含的事件句中,确定多个候选事件句,包括:根据每个事件句的重要性得分,以从大到小的顺序,对所述文本所包含的事件句进行排序,得到事件句序列;将事件句序列中排序靠前的多个事件句,确定为所述多个候选事件句;或者,将所述文本所包含的事件句中重要性得分大于预设值的多个事件句,确定为所述多个候选事件句。第二方面,本申请实施例提供了一种电子设备,包括:至少一个处理器;以及与所述处理器连接的至少一个存储器、总线;其中,所述处理器、存储器通过所述总线完成相互间的通信;所述处理器用于调用所述存储器中的程序指令,以执行上述一个或多个实施例中的文本处理方法的步骤。第三方面,本申请实施例提供了一种计算机可读存储介质,包括:存储的程序,其中,在所述程序运行时控制所述存储介质所在电子设备执行上述一个或多个实施例中的文本处理方法的步骤。本申请实施例提供的文本处理方法、电子设备和存储介质,在获得待处理的文本以及该文本对应的标签之后,可以从文本所包含的事件句中,确定多个候选事件句,其中,事件句是指包含事件触发词和命名实体的语句;然后,分别计算多个候选事件句与标签的相似度;将多个候选事件句中相似度满足预设相似度条件的候选事件句作为文本对应的主题句。这样,通过从文本所包含的事件句中来选择多个候选事件句,再将多个候选事件句中相似度满足预设相似度条件的候选事件句作为文本对应的主题句。如此,所确定出的文本对应的主题句包含有关键的事件信息,准确度较高,能够简洁、准确地描述文本。从而,通过获取所确定出的文本对应的主题句,有利于人们快捷、准确地获取文本中关键的事件信息。本申请的其它特征和优点将在随后的说明书中阐述,并且,部分地从说明书中变得显而易见,或者通过实施本申请而了解。本申请的其他优点可通过在说明书以及附图中所描述的方案来实现和获得。附图说明附图用来提供对本申请技术方案的理解,并且构成说明书的一部分,与本申请的实施例一起用于解释本申请的技术方案,并不构成对本申请技术方案的限制。图1为本申请实施例中的文本处理方法的一种流程示意图;图2为本申请实施例中的加权无向图的示意图;图3为本申请实施例中的电子设备的结构示意图。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述。本申请实施例提供一种文本处理方法。在实际应用中,该方法可应用于各种需要简洁、准确地描述出文本的场合中,例如,在社交领域中,在大量的同一标签下的文本中快速找到代表该类文本所描述事件的主题句;在新闻领域中,给大量同一标签下的新闻报道建立标题、摘要、索引等;在金融领域中,获取所关注公司的金融活动、经营状态等。图1为本申请实施例中的文本处理方法的流程示意图,如图1本文档来自技高网...

【技术保护点】
1.一种文本处理方法,包括:/n获得待处理的文本以及所述文本对应的标签;/n从所述文本所包含的事件句中,确定多个候选事件句,其中,事件句是指包含事件触发词和命名实体的语句;/n分别计算多个候选事件句与所述标签的相似度;/n将所述多个候选事件句中相似度满足预设相似度条件的候选事件句作为所述文本对应的主题句。/n

【技术特征摘要】
1.一种文本处理方法,包括:
获得待处理的文本以及所述文本对应的标签;
从所述文本所包含的事件句中,确定多个候选事件句,其中,事件句是指包含事件触发词和命名实体的语句;
分别计算多个候选事件句与所述标签的相似度;
将所述多个候选事件句中相似度满足预设相似度条件的候选事件句作为所述文本对应的主题句。


2.根据权利要求1所述的方法,其特征在于,所述从所述文本所包含的事件句中,确定多个候选事件句,包括:
对所述文本进行处理,获得所述文本中包含的事件句;
基于所述文本中包含的事件句,构建加权无向图,其中,所述加权无向图中的节点表示事件句,所述加权无向图中的每条边表示每条边所连接的两个事件句之间相关联,所述加权无向图中的每个边的权重值表示每个边所连接的两个事件句之间的关联强度;
基于所述加权无向图,从所述文本所包含的事件句中,确定多个候选事件句。


3.根据权利要求2所述的方法,其特征在于,所述对所述文本进行处理,获得所述文本中包含的事件句,包括:
对所述文本进行分句处理,得到多个语句;
对所述多个语句进行命名实体识别,得到多个包含命名实体的语句;
基于预先构建的事件触发词集,对所述多个包含命名实体的语句进行事件触发词识别,得到所述文本中包含的事件句。


4.根据权利要求2所述的方法,其特征在于,所述基于所述文本中包含的事件句,构建加权无向图,包括:
针对每个事件句,通过自然语言处理方法,生成每个事件句的关键词词典,其中,每个事件句的关键词词典包括:该事件句中包含的事件信息及其对应的类型信息,事件信息包括:命名实体、事件触发词、论元中的一种或多种,类型信息包括:命名实体所对应的命名实体类型、事件触发词所对应的事件类型、论元所对应的触发词类型中的一种或多种;
基于每两个事件句的关键词词典,计算每两个事件句之间的关联强度;
根据所述文本中包含的事件句以及每两个事件句之间的关联强度,生成加权无向图。


5.根据权利要求4所述的方法,其特征在于,所述基于每两个事件句的关键词词典,计算每两个事件句之间的关联强度,包括:
对每两个事件句的关键词词典进行遍历,计算出每两个事件句所对应的多...

【专利技术属性】
技术研发人员:姜旭付骁弈李嘉琛
申请(专利权)人:上海明略人工智能集团有限公司
类型:发明
国别省市:上海;31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1