System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,更具体的说是涉及一种确保节点标签一致性的层次文本分类方法及系统。
技术介绍
1、目前,多标签文本分类是指将一个实例同时分类到多个标签中,但各个标签之间不存在层次关系,彼此是平行的。而层次文本分类(hierarchical text classification,htc)则是一种特殊的多标签分类任务,标签之间存在明确的层次关系,通常呈现为树状或图状结构。在这种情况下,一个实例不仅需要被分类到多个级别,还必须遵循这些级别之间的父子依赖关系。
2、如图9所示,给定一个输入文本:“贝克汉姆的新书即将发行……”我们可以对其进行标签分类为:“新闻-体育-足球”或者“特征-书籍”,这表明,层次文本分类可能是单路径问题也有可能是多路径问题。由于层次文本分类的特性,每个节点的预测结果应与其路径中所有祖先节点的预测结果保持一致,即分类结果必须确保父子节点之间的关联关系位于同一条路径中。如图9所示,正确的分类结果由绿色节点表示,形成完整的路径,例如:“新闻-体育-足球”。这种父子节点关系的一致性称为标签一致性。
3、但是,大部分的分类方法往往将层次文本分类视为平面的多标签分类任务,未能充分利用层次化的标签结构,导致标签不一致的问题。如图10所示,传统方法可能会产生孤立的断点(红色节点),例如“体育”和“特征”未能被正确预测,导致路径中的父子节点关系不完整或不一致。这种标签不一致的结果与现实不符,难以满足实际应用场景的需求。
4、因此,如何将不一致的整体节点结构恢复成一致性结构是本领域技术
技术实现思路
1、有鉴于此,本专利技术提供了一种确保节点标签一致性的层次文本分类方法及系统,通过确保逻辑规则约束来消除孤立断点,将整体节点结构的不一致性恢复成一致性结构。
2、为了实现上述目的,本专利技术采用如下技术方案:
3、一种确保节点标签一致性的层次文本分类方法,包括:
4、通过文本编码器提取每篇新闻文章的上下文特征;
5、将所述上下文特征输入多标签分类器中,输出每个所述上下文特征的标签对应的初步分类概率;
6、将每个标签作为一个节点,通过重构函数将各个所述节点的初步分类概率重构为所述节点的置信度;
7、基于子节点、父节点与置信度进行消息生成,将生成的消息进行聚合,直至消息传播收敛,再通过收敛后的聚合消息进行节点状态更新,输出新闻文章的最终多标签分类结果。
8、优选的,所述提取每篇新闻文章的上下文特征具体包括:通过bert文本编码器,将每篇新闻文章x通过bert文本编码器提取上下文特征;
9、h=bert(x);
10、其中,h是bert文本编码器提取的上下文特征。
11、优选的,所述将所述上下文特征输入多标签分类器中具体包括:
12、p=w·h+b;
13、其中,w是权重矩阵,b是偏置,p是每个标签的初步分类得分。
14、优选的,所述通过重构函数将各个所述节点的初步分类概率重构为所述节点的置信度具体包括:
15、vc=σ(pc);
16、其中,vc为节点c的初始置信度,σ(·)为概率重构函数,pc是新闻文本对分类到节点c的初始得分。
17、优选的,所述基于子节点、父节点与置信度进行消息生成具体包括:
18、方法一,根据父节点对应的子节点的初始置信度来调整父节点的分类概率,父节点接收所述子节点传来的消息;
19、方法二,或根据父节点的初始置信度来调整子节点的分类概率,子节点接收所述父节点传来的消息;
20、方法三,或根据父节点对应的子节点的初始置信度来调整父节点的分类概率,父节点接收所述子节点传来的消息,同时根据父节点的初始置信度来调整子节点的分类概率,子节点接收所述父节点传来的消息。
21、优选的,所述方法一中,进行节点状态更新具体包括:
22、将生成的消息进行聚合,vc′=vc+ma+mb;
23、其中,vc′聚合后的父节点状态,vc为节点c的初始置信度,ma和mb分别表示来自子节点a和b的消息,不断更新节点间的分类概率,直到消息传播收敛;
24、进行节点状态更新,转换为概率值:pc=sigmod(vc′(2)-vc′(1)),vc′(2)和vc′(1)表示节点c两种不同的状态置信度。
25、优选的,所述方法二中,进行节点状态更新具体包括:
26、将生成的消息进行聚合,va′=va+md;
27、其中,va′聚合后的子节点状态,va为节点a的初始置信度,md表示来自父节点d的消息,不断更新节点间的分类概率,直到消息传播收敛;
28、进行节点状态更新,转换为概率值:pa=sigmod(va′(2)-va′(1)),va′(2)和va′(1)表示节点a两种不同的状态置信度。
29、优选的,所述方法三中,进行节点状态更新具体包括:
30、将生成的消息进行聚合,vc′=vc+ms2f+mf2s;
31、其中,ms2f表示来自不同子节点的消息,mf2s表示来自父节点的消息,不断更新节点间的概率,直到消息传播收敛;
32、进行节点状态更新,转换为概率值:pc=sigmod(vc′(2)-vc′(1));
33、其中,vc′(2)和vc′(1)表示节点c两种不同的状态置信度。
34、一种确保节点标签一致性的层次文本分类系统,包括:
35、特征提取模块,通过文本编码器提取每篇新闻文章的上下文特征;
36、分类概率计算模块,将所述上下文特征输入多标签分类器中,输出每个所述上下文特征的标签对应的初步分类概率;
37、置信度重构模块,将每个标签作为一个节点,通过重构函数将各个所述节点的初步分类概率重构为所述节点的置信度;
38、分类模块,基于子节点、父节点与置信度进行消息生成,将生成的消息进行聚合,直至消息传播收敛,再通过收敛后的聚合消息进行节点状态更新,输出新闻文章的最终多标签分类结果。
39、经由上述的技术方案可知,与现有技术相比,本专利技术公开提供了一种确保节点标签一致性的层次文本分类方法及系统,通过逻辑规则约束的消息传递机制,实现了分类任务中的标签一致性,同时确保了分类结果的准确性与层次结构的完整性。本专利技术能够有效应对多层次标签体系,通过将标签信息传递到父节点和子节点之间,提升了分类模型对复杂结构的适应能力。它不仅减少了标签分类中的误差,还提升了模型的整体性能。
本文档来自技高网...【技术保护点】
1.一种确保节点标签一致性的层次文本分类方法,其特征在于,包括:
2.根据权利要求1所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述提取每篇新闻文章的上下文特征具体包括:通过BERT文本编码器,将每篇新闻文章X通过BERT文本编码器提取上下文特征;
3.根据权利要求1所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述将所述上下文特征输入多标签分类器中具体包括:
4.根据权利要求1所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述通过重构函数将各个所述节点的初步分类概率重构为所述节点的置信度具体包括:
5.根据权利要求4所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述基于子节点、父节点与置信度进行消息生成具体包括:
6.根据权利要求5所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述方法一中,进行节点状态更新具体包括:
7.根据权利要求5所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述方法二中,进行节点状态更新具体包括:<
...【技术特征摘要】
1.一种确保节点标签一致性的层次文本分类方法,其特征在于,包括:
2.根据权利要求1所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述提取每篇新闻文章的上下文特征具体包括:通过bert文本编码器,将每篇新闻文章x通过bert文本编码器提取上下文特征;
3.根据权利要求1所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述将所述上下文特征输入多标签分类器中具体包括:
4.根据权利要求1所述的一种确保节点标签一致性的层次文本分类方法,其特征在于,所述通过重构函数将各个所述节点的初步分类概率重构为所述节点的置信度具体包括:
5.根据权利要求4所述的一种确保节点标...
【专利技术属性】
技术研发人员:张丽娟,沙莎,贺亚晨,周俊丞,迟梁,何成,
申请(专利权)人:浙江科技大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。