消息文本的聚类方法及装置制造方法及图纸

技术编号:32010534 阅读:13 留言:0更新日期:2022-01-22 18:27
本申请公开了一种消息文本的聚类方法及装置,属于人工智能技术领域。其中,消息文本的聚类方法包括:获取N条目标消息文本对应的词向量;对所述词向量进行特征提取,得到所述目标消息文本的特征向量;对所述N条目标消息文本的特征向量进行聚类处理,得到所述N条目标消息文本的聚类概率;基于所述聚类概率获取所述目标消息文本对应的标签。述目标消息文本对应的标签。述目标消息文本对应的标签。

【技术实现步骤摘要】
消息文本的聚类方法及装置


[0001]本申请属于人工智能
,具体涉及一种消息文本的聚类方法及装置。

技术介绍

[0002]在移动终端的消息文本聚类功能开启的情况下,该移动终端可以将消息文本上传至服务器;服务器基于训练好的模型,可以得到消息文本的聚类结果并将聚类结果返回该移动终端。该移动终端可以基于上述消息文本的聚类结果,对上述消息文本进行整合显示,展示聚合结果及上述消息文本之间关联性等,方便用户进行查看、编辑等管理操作。
[0003]但现有消息文本的聚类方法虽然可以在无监督的情况下根据消息文本的语义相关性对其进行分组,但聚类的准确性较低。

技术实现思路

[0004]本申请实施例的目的是提供一种消息文本的聚类方法及装置,能够解决消息文本聚类的准确性较低的问题。
[0005]第一方面,本申请实施例提供了一种消息文本的聚类方法,该方法包括:
[0006]获取N条目标消息文本对应的词向量;
[0007]对所述词向量进行特征提取,得到所述目标消息文本的特征向量;
[0008]对所述N条目标消息文本的特征向量进行聚类处理,得到所述N条目标消息文本的聚类概率;
[0009]基于所述聚类概率获取所述目标消息文本对应的标签。
[0010]第二方面,本申请实施例提供了一种消息文本的聚类装置,该装置包括:
[0011]获取模块,用于获取N条目标消息文本对应的词向量;
[0012]提取模块,用于对所述词向量进行特征提取,得到所述目标消息文本的特征向量;
[0013]聚类模块,用于对所述N条目标消息文本的特征向量进行聚类处理,得到所述N条目标消息文本的聚类概率;
[0014]基于所述聚类概率获取所述目标消息文本对应的标签。
[0015]第三方面,本申请实施例提供了一种电子设备,该电子设备包括处理器、存储器及存储在所述存储器上并可在所述处理器上运行的程序或指令,所述程序或指令被所述处理器执行时实现如第一方面所述的方法的步骤。
[0016]第四方面,本申请实施例提供了一种可读存储介质,所述可读存储介质上存储程序或指令,所述程序或指令被处理器执行时实现如第一方面所述的方法的步骤。
[0017]第五方面,本申请实施例提供了一种芯片,所述芯片包括处理器和通信接口,所述通信接口和所述处理器耦合,所述处理器用于运行程序或指令,实现如第一方面所述的方法。
[0018]在本申请实施例中,对目标消息文本对应的词向量进行特征提取,得到目标消息文本的特征向量,对N条目标消息文本的特征向量进行聚类处理,得到N条目标消息文本的
聚类概率,基于聚类概率获取所述目标消息文本对应的标签,能够更加丰富准确地表示目标消息文本的上下文语义信息,得到的目标消息文本的特征向量能更准确、全面地表征目标消息文本的特征,能基于目标消息文本的特征向量获取更准确、更优的消息文本聚类结果。
附图说明
[0019]图1是本申请实施例提供的消息文本的聚类方法的流程示意图之一;
[0020]图2是本申请实施例提供的金字塔模块的示意图;
[0021]图3是本申请实施例提供的消息文本的聚类方法的流程示意图之二;
[0022]图4是本申请实施例提供的消息文本的聚类装置的结构示意图;
[0023]图5是本申请实施例提供的电子设备的结构示意图;
[0024]图6是本申请实施例提供的电子设备的硬件结构示意图。
具体实施方式
[0025]下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员获得的所有其他实施例,都属于本申请保护的范围。
[0026]本申请的说明书和权利要求书中的术语“第一”、“第二”等是用于区别类似的对象,而不用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施,且“第一”、“第二”等所区分的对象通常为一类,并不限定对象的个数,例如第一对象可以是一个,也可以是多个。此外,说明书以及权利要求中“和/或”表示所连接对象的至少其中之一,字符“/”,一般表示前后关联对象是一种“或”的关系。
[0027]下面结合附图,通过具体的实施例及其应用场景对本申请实施例提供的消息文本的聚类方法及装置进行详细地说明。
[0028]图1是本申请实施例提供的消息文本的聚类方法的流程示意图之一。下面结合图1描述本申请实施例提供的消息文本的聚类方法。如图1所示,该方法包括:
[0029]步骤101、获取N条目标消息文本对应的词向量。可选地,本申请实施例提供的消息文本的聚类方法的执行主体为消息文本的聚类装置。
[0030]该消息文本的聚类装置可以以各种形式来实施。例如,本申请实施例中描述的该消息文本的聚类装置可以包括诸如移动电话、智能电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、导航装置、智能手环、智能手边、数码相机等等的移动终端以及诸如台式计算机等等的固定终端。下面,假设该消息文本的聚类装置是固定终端。然而,本领域技术人员将理解的是,在特别用于移动目的的场景中,根据本申请实施例的构造也能够应用于移动类型的终端。
[0031]可选地,目标消息文本可以是具有消息接收功能的应用程序(APP,Application)接收到的消息文本。示例性地,具有消息接收功能的应用程序,可以是短信应用程序或者任意一种即时通讯应用程序。
[0032]可选地,基于自然语言处理(NLP,Natural Language Processing)中的任意一种
词向量的生成方法,分别对N条目标消息文本中的每一目标消息文本进行文本词特征提取,可以得到该目标消息文本对应的词向量。
[0033]其中,N为大于1的正整数。
[0034]词向量(Word embedding),是词的向量化表示,是来自词汇表的单词或短语被映射到实数的向量。
[0035]词向量的生成方法主要包括两类:基于统计的方法和基于语言模型(Language Model)的方法。
[0036]步骤102、对词向量进行特征提取,得到目标消息文本的特征向量。
[0037]可选地,对于每一目标消息文本,可以通过特征提取模型,对该目标消息文本对应的词向量进行特征提取,得到该目标消息文本的特征向量。
[0038]示例性地,可以分别将每一目标消息文本对应的词向量输入预先训练好的特征提取模型,该特征提取模型对该目标消息文本对应的词向量进行特征提取,获取该特征提取模型输出的该目标消息文本的特征向量。
[0039]特征提取模型是预先通过训练得到的模型。该特征提取模型,用于基于目标消息文本对应的词向量,提取该目标消息文本中的上下文语义信息。该目标消息文本中本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种消息文本的聚类方法,其特征在于,包括:获取N条目标消息文本对应的词向量;对所述词向量进行特征提取,得到所述目标消息文本的特征向量;对所述N条目标消息文本的特征向量进行聚类处理,得到所述N条目标消息文本的聚类概率;基于所述聚类概率获取所述目标消息文本对应的标签。2.根据权利要求1所述的消息文本的聚类方法,其特征在于,所述对所述词向量进行特征提取,得到所述目标消息文本的特征向量,包括:基于自注意力机制,对所述词向量进行特征提取,得到所述目标消息文本对应的自注意力特征图;基于特征提取模型中的多通道特征提取层,对所述目标消息文本对应的自注意力特征图进行特征提取,得到所述目标消息文本的特征向量;其中,所述多通道特征提取层包括M个特征提取网络;M为大于1的正整数;至少一个所述特征提取网络,为金字塔卷积神经网络。3.根据权利要求2所述的消息文本的聚类方法,其特征在于,所述基于特征提取模型中的多通道特征提取层,对所述目标消息文本对应的自注意力特征图进行特征提取,得到所述目标消息文本的特征向量,包括:分别基于每一所述特征提取网络,对所述目标消息文本对应的自注意力特征图进行特征提取,得到M个第一子向量;对所述M个第一子向量进行拼接处理,得到所述目标消息文本的特征向量。4.根据权利要求2所述的消息文本的聚类方法,其特征在于,所述基于自注意力机制,对所述词向量进行特征提取,得到所述目标消息文本对应的自注意力特征图,包括:基于自注意力机制,对所述词向量进行转换,获得第一向量、第二向量以及第三向量;对所述第一向量、第二向量以及第三向量进行线性变换,获得第四向量、第五向量和第六向量;计算所述第四向量和第五向量的相似度,并对所述相似度进行归一化处理,获得权重向量;将所述权重向量与所述第六向量相乘,获得所述自注意力特征图。5.根据权利要求1至4任一所述的消息文本的聚类方法,其特征在于,所述获取N条目标消息文本对应的词向量,包括:对每一所述目标消息文本进行分词处理,得到所述目标消息文本的分词结果;基于所述目标消息文本的分词结果,获取目标消息文本对应的词向量。6.一种消息文本的聚类装置,其特征在于,包括:第一获取模块,用于获取N条目标消息文本对应的词向量;提取模块,用于对所述词向量进行特征提取,得到所述目标消息文本的特征向量;聚类模块,用于对所述N条目标消息文本的特征向...

【专利技术属性】
技术研发人员:田文雨
申请(专利权)人:维沃移动通信有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1