标签确定方法、设备和存储介质技术

技术编号:28209197 阅读:35 留言:0更新日期:2021-04-24 14:42
本申请公开了标签确定方法、设备和存储介质,涉及深度学习、自然语言处理等人工智能技术领域。具体实现方案为:在确定待处理文章的标签的过程,结合待处理文章的有向图,确定出待处理文章的候选标签集合,并结合预设的语义分析模型对待处理文章对应的分词进行语义分析,以根据语义分析结果确定待处理文章的类别标签。由此,提出了一种结合有向图确定文章的标签的方式,通过对待处理文章的有向图以及待处理文章的分词,准确确定出了待处理文章的标签。签。签。

【技术实现步骤摘要】
标签确定方法、设备和存储介质


[0001]本申请涉及计算机
,具体涉及深度学习、自然语言处理等人工智能
,尤其涉及标签确定方法、设备和存储介质。

技术介绍

[0002]对于文章的标签抽取,具体是指从文章中提取出能够反映出文章内容的多个标签。准确地确定出文章的标签,对于后续对文章的分类、推荐以及关联具有重要的意义。因此,如何准确确定出文章的标签是目前亟需解决的技术问题。

技术实现思路

[0003]本申请提供了一种用于标签确定方法、设备和存储介质。根据本申请的一方面,提供了一种标签确定方法,包括:获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;根据所述多个节点以及节点之间的有向边,确定所述有向图中所述多个节点的中介中心性;根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,并将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中;根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签;根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合。
[0004]根据本申请的另一方面,提供了一种标签确定装置,包括:第一获取模块,用于获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;第一确定模块,用于根据所述多个节点以及节点之间的有向边,确定所述有向图中所述多个节点的中介中心性;第一标签模块,用于根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,并将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中;第二标签模块,用于根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签;第二确定模块,用于根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合。
[0005]根据本申请的另一方面,提供了一种电子设备,包括:至少一个处理器;以及与所述至少一个处理器通信连接的存储器;其中,所述存储器存储有可被所述至少一个处理器执行的指令,所述指令被所述至少一个处理器执行,以使所述至少一个处理器能够执行本申请的标签确定方法。
[0006]根据本申请的另一方面,提供了一种存储有计算机指令的非瞬时计算机可读存储介质,所述计算机指令用于使所述计算机执行本申请实施例公开的标签确定方法。
[0007]根据本申请的另一方面,提供了一种计算机程序产品,包括计算机程序,所述计算机程序被处理器执行时实现本申请的标签确定方法。
[0008]上述申请中的一个实施例具有如下优点或有益效果:
[0009]在确定待处理文章的标签的过程,结合待处理文章的有向图,确定出待处理文章的候选标签集合,并结合预设的语义分析模型对待处理文章对应的分词进行语义分析,以根据语义分析结果确定待处理文章的类别标签。由此,提出了一种结合有向图确定文章的标签的方式,通过对待处理文章的有向图以及待处理文章的分词,准确确定出了待处理文章的标签。
[0010]应当理解,本部分所描述的内容并非旨在标识本申请的实施例的关键或重要特征,也不用于限制本申请的范围。本申请的其它特征将通过以下的说明书而变得容易理解。
附图说明
[0011]附图用于更好地理解本方案,不构成对本申请的限定。其中:
[0012]图1是根据本申请一个实施例提供的一种标签确定方法的流程示意图;
[0013]图2是步骤104的细化流程示意图;
[0014]图3是根据本申请另一个实施例提供的一种标签确定方法的流程示意图;
[0015]图4是根据本申请一个具体实施例提供的一种标签确定方法的流程示意图;
[0016]图5是根据本申请一个实施例提供的一种标签确定装置的结构示意图;
[0017]图6是根据本申请另一个实施例提供的一种标签确定装置的结构示意图;
[0018]图7是用来实现本申请实施例的标签确定方法的电子设备的框图。
具体实施方式
[0019]以下结合附图对本申请的示范性实施例做出说明,其中包括本申请实施例的各种细节以助于理解,应当将它们认为仅仅是示范性的。因此,本领域普通技术人员应当认识到,可以对这里描述的实施例做出各种改变和修改,而不会背离本申请的范围和精神。同样,为了清楚和简明,以下的描述中省略了对公知功能和结构的描述。
[0020]下面参考附图描述本申请实施例的标签确定方法、设备和存储介质。
[0021]图1是根据本申请一个实施例提供的一种标签确定方法的流程示意图。
[0022]如图1所示,该标签确定方法可以包括:
[0023]步骤101,获取待处理文章的有向图。
[0024]其中,待处理文章包括多个分词,有向图包括多个节点以及节点之间的有向边,且多个节点分别与多个分词对应,有向边的方向从先出现的分词指向后出现的分词。
[0025]其中,上述标签确定方法的执行主体为标签确定装置,该标签确定装置可以由软件和/或硬件的方式实现,该实施例中的标签确定装置可以配置电子设备中,该电子设备可以包括但不限于终端设备、服务器等。
[0026]在本实施例中,上述多个分词是通过对待处理文章进行分词而得到的。为了可以得到待处理文章的分词,通过对待处理文章进行分词而得到多个分词的可能实现方式为:对待处理文章进行分词,以得到多个候选分词集合,基于预设的统计语言模型地每个候选分词集合进行路径搜索,并得到每个候选分词集对应的路径评分,根据路径评分从多个候选分词集合中选择出目标分词集合,并将目标分词集合中的分词作为待处理文章的分词结果。
[0027]其中,统计语言模型可以根据实际业务需求选择,例如,统计语言模型可以为N元模型(即,N

Gram模型)。
[0028]其中,上述待处理文章可以为任意的文章。
[0029]在一种示例性的实施方式,在接收到用户的文章发布请求后,可根据文章发送请求获取待发布的文章,并将待发布的文章作为待处理文章,以通过该实施例的方式确定出该待处理文章的标签,并基于待处理文章的标签进行后续发布处理。
[0030]步骤102,根据多个节点以及节点之间的有向边,确定有向图中多个节点的中介中心性。
[0031]其中,中介中心性是指一个结点担任其它两个结点之间最短路的桥梁的次数。
[0032]步骤103,根据多个节点的中介中心性,从多个节点中选择出目标节点,并将与目标节点所对应的目标分词添加到待处理文章的候选标签集合中。
[0033]步骤104,根据预设的语义分析模型对多个分词进行语义分析,以得到对应的类别标签。
[0034]在本实施例中,通过预设的语义分析模型对多个分词进行综合语义分析,以得到多个分本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种标签确定方法,包括:获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;根据所述多个节点以及节点之间的有向边,确定所述有向图中所述多个节点的中介中心性;根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,并将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中;根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签;根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合。2.根据权利要求1所述的方法,其中,所述根据所述多个节点的中介中心性,从所述多个节点中选择出目标节点,包括:按照中介中心性从大到小的顺序,对所述多个节点的中介中心性进行排序,以得到排序结果;从排序结果中获取排序在前N位的节点作为目标节点,其中,N为大于或者等于1的整数。3.根据权利要求1所述的方法,其中,所述语义分析模型包括注意力层、语义表示层以及语义分析层,所述根据预设的语义分析模型对所述多个分词进行语义分析,以得到对应的类别标签,包括:针对每个分词,获取所述分词在所述待处理文章的分布特征信息;将所述分布特征信息输入到所述注意力层,以得到所述分词的注意力分数;将所述注意力分数以及所述分词输入到语义表示层,以得到所述分词的语义表示;通过所述语义分析层对所述多个分词的语义表示进行语义分析,以得到对应的类别标签。4.根据权利要求1所述的方法,其中,所述根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合之前,所述方法还包括:对所述待处理文章进行关键词提取,并将所提取到的关键词添添加到所述候选标签集合中;和/或者从所述待处理文章中获取与预设标签匹配的词语,并将匹配到的词语添加到所述候选标签集合中;和/或者根据所述多个分词之间的相似度,对所述多个分词进行词语聚类,以及将词语聚类结果得到的标签添加到所述候选标签集合中。5.根据权利要求1

4中任一项所述的方法,其中,所述候选标签集合包括M个候选标签,其中,M为大于1的整数,在所述根据所述候选标签集合和所述类别标签,确定出所述待处理文章对应的标签集合之前,所述方法还包括:根据预设的语义匹配模型,分别对每个所述候选标签与所述待处理文章进行语义匹配,以得到每个所述候选标签与所述待处理文章之间的匹配程度;根据所述匹配程度,对所述M个候选标签进行排序,以得到标签排序结果;从所述标签排序结果中,获取排序在K位之后的第一候选标签,其中,K为大于或者等于
1的整数,且所述K小于M;删除所述候选标签集合中的第一候选标签。6.根据权利要求1所述的方法,其中,所述将与所述目标节点所对应的目标分词添加到所述待处理文章的候选标签集合中之前,所述方法还包括:将所述目标分词输入到预先训练的分类模型中,以得到所述目标分词的分类结果;在根据所述分词结果确定所述目标分词符合语义标准的情况下,执行将所述目标分词添加到所述待处理文章的候选标签集合中的步骤。7.一种标签确定装置,包括:第一获取模块,用于获取待处理文章的有向图,其中,所述待处理文章包括多个分词,所述有向图包括多个节点以及节点之间的有向边,且所述多个节点分别与所述多个分词对应,所述有向边的方向从先出现的分词指向后出现的分词;第一确定模块,用于根据所述多个节...

【专利技术属性】
技术研发人员:杨浩刘昊肖欣延洪豆
申请(专利权)人:百度在线网络技术北京有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1