文本分类的方法、话题生成的方法、装置、设备及介质制造方法及图纸

技术编号:27412583 阅读:16 留言:0更新日期:2021-02-21 14:28
本发明专利技术涉及一种人工智能技术,揭露了一种文本分类的方法、话题生成的方法、装置、设备及介质,该方法包括:抓取网络文章,获取各篇文章对应的关键词;获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。本发明专利技术能够对文本进行准确分类。本发明专利技术能够对文本进行准确分类。本发明专利技术能够对文本进行准确分类。

【技术实现步骤摘要】
文本分类的方法、话题生成的方法、装置、设备及介质


[0001]本专利技术涉及人工智能
,尤其涉及一种文本分类的方法、话题生成的方法、装置、设备及介质。

技术介绍

[0002]目前,网络上每天产出大量信息,包括突发事件、事件分析、舆情预测、社会发展事件等等,信息依靠互联网实现快速传播,每个人都能快速获取到大量的信息。文本分类在信息处理中占据着重要地位,通过有效方法对信息进行准确分类,对于信息的处理具有很大的价值。传统的文本分类方法包括两种,一种是基于聚类和相似度的方法,通过计算文本的标题或摘要的相似度,把相关的文本聚类在一起,另一种是基于分类模型的方法,比如对文章等文本使用RNN、Text-CNN等算法建模,输出文本分类。
[0003]然而,上述方法都是处理的文本的序列化表征特征,能够取得一定效果,但文本包含的信息是非常多的,例如,对于某篇文章,其对另外的多篇文章存在关联关系,这种两两之间的关联关系对于该篇文章来说是相对的,能够表征该篇文章分别与另外的多篇文章的相对关联程度,而通过序列化表征特征的方法无法挖掘这种内在关系,也就无法准确分类文本,因此,对文本进行准确分类的技术有待进一步提高。

技术实现思路

[0004]本专利技术的目的在于提供一种文本分类的方法、话题生成的方法、装置、设备及介质,旨在对文本进行准确分类。
[0005]本专利技术提供一种文本分类的方法,包括:
[0006]抓取网络文章,获取各篇文章对应的关键词;
[0007]获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
[0008]基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
[0009]将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
[0010]本专利技术还提供一种基于上述的文本分类的方法的话题生成的方法,所述话题生成的方法包括:
[0011]抓取网络文章,获取各篇文章对应的关键词;
[0012]获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
[0013]基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
[0014]将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输
出的已分类的各个节点的集合;
[0015]从各类别的集合中选取预设数量的节点,基于所选取节点提取对应的文章的共同信息,基于所述共同信息生成话题。
[0016]本专利技术还提供一种文本分类的装置,包括:
[0017]抓取模块,用于抓取网络文章,获取各篇文章对应的关键词;
[0018]构建模块,用于获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;
[0019]处理模块,用于基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;
[0020]分类模块,用于将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。
[0021]本专利技术还提供一种计算机设备,所述计算机设备包括存储器及与所述存储器连接的处理器,所述存储器中存储有可在所述处理器上运行的计算机程序,所述处理器执行所述计算机程序时实现如上述的文本分类的方法的步骤,或者实现如上述的话题生成的方法的步骤。
[0022]本专利技术还提供一种计算机可读存储介质,所述计算机可读存储介质上存储有计算机程序,所述计算机程序被处理器执行时实现如上述的文本分类的方法的步骤,或者实现如上述的话题生成的方法的步骤。
[0023]本专利技术的有益效果是:本专利技术通过文章之间的共同关键词构建表征图,计算表征图中每个节点与其他相连节点的紧密度,从而得到每个节点对应的节点向量,将每个节点的节点向量输入分类模型中进行训练,得到分类后各个节点的集合,本实施例通过构建文章的表征图,将节点与相连节点的紧密度作为节点向量,通过将节点向量输入至分类模型中进行训练来对节点进行分类,能够挖掘一个节点与其他的多个节点相对的关联紧密度,这种紧密度为该文章与其他文章间进一步的内在联系或者空间联系,通过这种内在联系或者空间联系,可以准确地将最相似的文章分为一类,得到更好的分类。
附图说明
[0024]图1为本专利技术文本分类的方法一实施例的流程示意图;
[0025]图2为图1中的表征图的示意图;
[0026]图3为图1中基于共同关键词计算每个节点与相连的其他节点之间的紧密度,基于紧密度获取每个节点的节点向量的步骤的细化流程示意图;
[0027]图4为图1中将每个节点的节点向量输入至预定的分类模型中进行训练,获取分类模型输出的已分类的各个节点的集合的步骤的细化流程示意图;
[0028]图5为本专利技术话题生成的方法一实施例的流程示意图;
[0029]图6为本专利技术文本分类的装置一实施例的结构示意图;
[0030]图7为本专利技术计算机设备一实施例的硬件架构的示意图。
具体实施方式
[0031]为了使本专利技术的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对
本专利技术进行进一步详细说明。应当理解,此处所描述的具体实施例仅用以解释本专利技术,并不用于限定本专利技术。基于本专利技术中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。
[0032]需要说明的是,在本专利技术中涉及“第一”、“第二”等的描述仅用于描述目的,而不能理解为指示或暗示其相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括至少一个该特征。另外,各个实施例之间的技术方案可以相互结合,但是必须是以本领域普通技术人员能够实现为基础,当技术方案的结合出现相互矛盾或无法实现时应当认为这种技术方案的结合不存在,也不在本专利技术要求的保护范围之内。
[0033]参阅图1所示,是本专利技术文本分类的方法一实施例的流程示意图,该方法包括:
[0034]步骤S1,抓取网络文章,获取各篇文章对应的关键词;
[0035]其中,可以定时(例如每天)从网络上抓取网络文章,从而生成对应时段的话题。网络文章包括不同标签类别的文章,例如要闻、财经、教育、体育等标签类别的网络文章。
[0036]其中,首先对每篇文章进行分词,可以使用分词工具逐个对每篇文章进行分词处理,例如使用Stanford汉语分词工具、jieba分词等分词工具进行分词处理。对于每篇文章,分词处理后可以得到一个对应的单词列表。
[0037]通过预定的关键词提取本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种文本分类的方法,其特征在于,包括:抓取网络文章,获取各篇文章对应的关键词;获取各篇文章两两之间的共同关键词,基于所述共同关键词构建表征图,所述表征图中每个节点代表一篇文章,有共同关键词的两两节点之间进行连线;基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量;将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合。2.根据权利要求1所述的文本分类的方法,其特征在于,所述基于所述共同关键词计算每个节点与相连的其他节点之间的紧密度,基于所述紧密度获取每个节点的节点向量的步骤,具体包括:统计相连的两节点对应的两篇文章中所述共同关键词的数量;统计每个共同关键词在相连的两节点对应的两篇文章中分别出现的次数;基于所述所述共同关键词的数量及所述分别出现的次数计算每个节点与相连的其他节点之间的紧密度S:其中,A、B代表所述表征图中相连的节点,n为A、B两节点所对应的两篇文章中共同关键词的数量,i为共同关键词的序号,A
i
为第i个共同关键词在节点A所对应的文章中出现的次数,B
i
为第i个共同关键词在节点B所对应的文章中出现的次数,μ为共同关键词的数量的倒数;将每个节点与相连的其他节点之间的紧密度进行向量化,得到每个节点对应的节点向量。3.根据权利要求1或2所述的文本分类的方法,其特征在于,所述将每个节点的节点向量输入至预定的分类模型中进行训练,获取所述分类模型输出的已分类的各个节点的集合的步骤,具体包括:将每个节点的节点向量输入到图注意力网络,将节点向量输入到图注意力网络的各节点作为各待分类节点,计算每个待分类节点的损失函数;对于每个待分类节点,在所述损失函数最小化时,基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度,所述邻居节点为所述表征图中与所述待分类节点相连的节点;基于所述贡献度对所述邻居节点进行聚合。4.根据权利要求3所述的文本分类的方法,其特征在于,所述基于所述待分类节点的节点向量计算邻居节点对所述待分类节点的贡献度包括:e
AB
=LeakyReLU(α
T
[W
A
||W
B
]),其中,LeakyReLU为带泄露修正线性单元函数,A、B为所述表征图中相连的节点,W
A
为节点A的节点向量,W
B
为节点B的节点向量,||为W
A
...

【专利技术属性】
技术研发人员:刘金克
申请(专利权)人:平安科技深圳有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1