【技术实现步骤摘要】
标签确定方法、设备和存储介质
[0001]本申请涉及计算机
,具体涉及深度学习、自然语言处理等人工智能
,尤其涉及标签确定方法、设备和存储介质。
技术介绍
[0002]对于文章的标签抽取,具体是指从文章中提取出能够反映出文章内容的多个标签。准确地确定出文章的标签,对于后续对文章的分类、推荐以及关联具有重要的意义。因此,如何准确确定出文章的标签是目前亟需解决的技术问题。
技术实现思路
[0003]本申请提供了一种用于标签确定方法、设备和存储介质。根据本申请的一方面,提供了一种标签确定方法,包括:获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;根据所述多个节点以及节点之间的有向边,确定所述有向图中所述多个节点的中介中心性;根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,并将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中;根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签;根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合。
[0004]根据本申请的另一方面,提供了一种标签确定装置,包括:第一获取模块,用于获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向 ...
【技术保护点】
【技术特征摘要】
1.一种标签确定方法,包括:获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;根据所述多个节点以及节点之间的有向边,确定所述有向图中所述多个节点的中介中心性;根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,并将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中;根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签;根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合。2.根据权利要求1所述的方法,其中,所述根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,包括:按照中介中心性从大到小的顺序,对所述多个节点的中介中心性进行排序,以得到排序结果;从排序结果中获取排序在前N位的节点作为目标节点,其中,N为大于或者等于1的整数。3.根据权利要求1所述的方法,其中,所述语义分析模型包括注意力层、语义表示层以及语义分析层,所述根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签,包括:针对每个分词,获取所述分词在所述待处理文章的分布特征信息;将所述分布特征信息输入到所述注意力层,以得到所述分词的注意力分数;将所述注意力分数以及所述分词输入到语义表示层,以得到所述分词的语义表示;通过所述语义分析层对所述多个分词的语义表示进行语义分析,以得到对应的类别标签。4.根据权利要求1所述的方法,其中,所述根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合之前,所述方法还包括:对所述待处理文章进行关键词提取,并将所提取到的关键词添添加到所述候选标签集合中;和/或者从所述待处理文章中获取与预设标签匹配的词语,并将匹配到的词语添加到所述候选标签集合中;和/或者根据所述多个分词之间的相似度,对所述多个分词进行词语聚类,以及将词语聚类结果得到的标签添加到所述候选标签集合中。5.根据权利要求1
‑
4中任一项所述的方法,其中,所述候选标签集合包括M个候选标签,其中,M为大于1的整数,在所述根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合之前,所述方法还包括:根据预设的语义匹配模型,分别对每个所述候选标签与所述待处理文章进行语义匹配,以得到每个所述候选标签与所述待处理文章之间的匹配程度;根据所述匹配程度,对所述M个候选标签进行排序,以得到标签排序结果;从所述标签排序结果中,获取排序在K位之后的第一候选标签,其中,K为大于或者等于
1的整数,且所述K小于M;删除所述候选标签集合中的第一候选标签。6.根据权利要求1所述的方法,其中,所述将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中之前,所述方法还包括:将所述目标分词输入到预先训练的分类模型中,以得到所述目标分词的分类结果;在根据所述分词结果确定所述目标分词符合语义标准的情况下,执行将所述目标分词添加到所述待处理文章的候选标签集合中的步骤。7.一种标签确定装置,包括:第一获取模块,用于获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;第一确定模块,用于根据所述多个节...
【专利技术属性】
技术研发人员:杨浩,刘昊,肖欣延,洪豆,
申请(专利权)人:百度在线网络技术北京有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。