文本分类的方法、话题生成的方法、装置、设备及介质制造方法及图纸

技术编号：27412583 阅读：16 留言：0更新日期：2021-02-21 14:28

本发明专利技术涉及一种人工智能技术，揭露了一种文本分类的方法、话题生成的方法、装置、设备及介质，该方法包括：抓取网络文章，获取各篇文章对应的关键词；获取各篇文章两两之间的共同关键词，基于所述共同关键词构建表征图，所述表征图中每个节点代表一篇文章，有共同关键词的两两节点之间进行连线；基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度，基于所述紧密度获取每个节点的节点向量；将每个节点的节点向量输入至预定的分类模型中进行训练，获取所述分类模型输出的已分类的各个节点的集合。本发明专利技术能够对文本进行准确分类。本发明专利技术能够对文本进行准确分类。本发明专利技术能够对文本进行准确分类。

全部详细技术资料下载

【技术实现步骤摘要】
文本分类的方法、话题生成的方法、装置、设备及介质

[0001]本专利技术涉及人工智能
，尤其涉及一种文本分类的方法、话题生成的方法、装置、设备及介质。

技术介绍

[0002]目前，网络上每天产出大量信息，包括突发事件、事件分析、舆情预测、社会发展事件等等，信息依靠互联网实现快速传播，每个人都能快速获取到大量的信息。文本分类在信息处理中占据着重要地位，通过有效方法对信息进行准确分类，对于信息的处理具有很大的价值。传统的文本分类方法包括两种，一种是基于聚类和相似度的方法，通过计算文本的标题或摘要的相似度，把相关的文本聚类在一起，另一种是基于分类模型的方法，比如对文章等文本使用RNN、Text-CNN等算法建模，输出文本分类。
[0003]然而，上述方法都是处理的文本的序列化表征特征，能够取得一定效果，但文本包含的信息是非常多的，例如，对于某篇文章，其对另外的多篇文章存在关联关系，这种两两之间的关联关系对于该篇文章来说是相对的，能够表征该篇文章分别与另外的多篇文章的相对关联程度，而通过序列化表征特征的方法无法挖掘这种内在关系，也就无法准确分类文本，因此，对文本进行准确分类的技术有待进一步提高。

技术实现思路

[0004]本专利技术的目的在于提供一种文本分类的方法、话题生成的方法、装置、设备及介质，旨在对文本进行准确分类。
[0005]本专利技术提供一种文本分类的方法，包括：
[0006]抓取网络文章，获取各篇文章对应的关键词；
[0007]获取各篇文章两两之间的共同关键...

【技术保护点】

【技术特征摘要】
1.一种文本分类的方法，其特征在于，包括：抓取网络文章，获取各篇文章对应的关键词；获取各篇文章两两之间的共同关键词，基于所述共同关键词构建表征图，所述表征图中每个节点代表一篇文章，有共同关键词的两两节点之间进行连线；基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度，基于所述紧密度获取每个节点的节点向量；将每个节点的节点向量输入至预定的分类模型中进行训练，获取所述分类模型输出的已分类的各个节点的集合。2.根据权利要求1所述的文本分类的方法，其特征在于，所述基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度，基于所述紧密度获取每个节点的节点向量的步骤，具体包括：统计相连的两节点对应的两篇文章中所述共同关键词的数量；统计每个共同关键词在相连的两节点对应的两篇文章中分别出现的次数；基于所述所述共同关键词的数量及所述分别出现的次数计算每个节点与相连的其他节点之间的紧密度S：其中，A、B代表所述表征图中相连的节点，n为A、B两节点所对应的两篇文章中共同关键词的数量，i为共同关键词的序号，A
i
为第i个共同关键词在节点A所对应的文章中出现的次数，B
i
为第i个共同关键词在节点B所对应的文章中出现的次数，μ为共同关键词的数量的倒数；将每个节点与相连的其他节点之间的紧密度进行向量化，得到每个节点对应的节点向量。3.根据权利要求1或2所述的文本分类的方法，其特征在于，所述将每个节点的节点向量输入至预定的分类模型中进行训练，获取所述分类模型输出的已分类的各个节点的集合的步骤，具体包括：将每个节点的节点向量输入到图注意力网络，将节点向量输入到图注意力网络的各节点作为各待分类节点，计算每个待分类节点的损失函数；对于每个待分类节点，在所述损失函数最小化时，基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度，所述邻居节点为所述表征图中与所述待分类节点相连的节点；基于所述贡献度对所述邻居节点进行聚合。4.根据权利要求3所述的文本分类的方法，其特征在于，所述基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度包括：e
AB
＝LeakyReLU(α
T
[W
A
||W
B
])，其中，LeakyReLU为带泄露修正线性单元函数，A、B为所述表征图中相连的节点，W
A
为节点A的节点向量，W
B
为节点B的节点向量，||为W
A
...

【专利技术属性】
技术研发人员：刘金克，
申请(专利权)人：平安科技深圳有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人