有害短信分析方法、装置和存储介质制造方法及图纸

技术编号:35898501 阅读:18 留言:0更新日期:2022-12-10 10:33
本申请公开了有害短信分析方法、装置和存储介质,包括对中文语料进行预处理,获得不同的所述中文语料对应的不同序列;使用盘古模型提取每个序列的词嵌入向量;采用LSTM对所述词嵌入向量进行深层特征提取,获得每一个序列对应的文本深层语义特征;将所述文本深层语义特征经过全连接层和Softmax分类器,进行模型的训练和测试。本申请通过盘古大模型和迁移学习技术,减少所需的有标签的有害短信数据量,训练所需要的时间和计算资源也大大减少,具有更好的适应性,能在短时间内生成可靠的有害短信检测分析模型,提高了通信网有害短信的分析效率。率。率。

【技术实现步骤摘要】
有害短信分析方法、装置和存储介质


[0001]本申请涉及有害短信分析领域,尤其是有害短信分析方法、装置和存储介质。

技术介绍

[0002]通信网上的短信通过正在逐渐渗透到人们日常生活中的各个角落。然而,短信中往往也夹杂着大量无用甚至有害的垃圾信息、诈骗信息,这些有害信息不仅会降低正常用户的平台使用体验满意度,更有可能诱导一部分网络用户不知不觉中收到网络诈骗的侵害。这些有害短信无疑会对我们的生活与经济造成巨大的损失。
[0003]相关的针对有害短信识别的自然语言处理深度学习模型往往需要大量的有标签数据进行训练,而在实际应用中,很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息,这就导致利用小样本数据训练出的模型往往无法达到理想的效果,此外,训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源,导致针对于新任务的训练成本大大提高。
[0004]因此,相关技术存在的上述技术问题亟待解决。

技术实现思路

[0005]本申请旨在解决相关技术中的技术问题之一。为此,本申请实施例提供有害短信分析方法、装置和存储介质,能够以较低的成本进行有害短信分析。
[0006]根据本申请实施例一方面,提供一种有害短信分析方法,所述方法包括:
[0007]对中文语料进行预处理,获得不同的所述中文语料对应的不同序列;
[0008]使用盘古模型提取每个序列的词嵌入向量;
[0009]采用LSTM对所述词嵌入向量进行深层特征提取,获得每一个序列对应的文本深层语义特征;
[0010]将所述文本深层语义特征经过全连接层和Softmax分类器,进行模型的训练和测试。
[0011]在其中一个实施例中,所述对中文语料进行预处理,包括:
[0012]针对每条所述中文语料,通过生成数据字典进行文本字符化,获得不同的所述中文语料对应的不同序列;
[0013]在每一个序列中,用字符标识作为当前序列的第一个标记,通过字符标识对当前序列进行分割,最后得到每条中文语料的词向量序列。
[0014]在其中一个实施例中,所述对中文语料进行预处理后,所述方法还包括:
[0015]根据所述中文语料是否包含有害短信对所述中文语料打上相应标签。
[0016]在其中一个实施例中,所述方法还包括对所述盘古模型进行预训练,包括:
[0017]向所述盘古模型输入中文语料训练集、测试集和训练超参数;
[0018]使用所述中文语料训练集训练所述盘古模型;
[0019]判断所述盘古模型的准确率是否达到预设值,若是,则输出所述盘古模型,若否,
则调整所述训练超参数并继续训练所述盘古模型。
[0020]在其中一个实施例中,所述方法还包括:若所述盘古模型的准确率达到预设值,则判断所述训练超参数的调整次数是否达到预设调整次数,若是,则输出所述盘古模型。
[0021]在其中一个实施例中,将所述文本深层语义特征经过全连接层和Softmax分类器,包括:
[0022]将所述文本深层语义特征输入Softmax分类器进行归一化概率预测,获得概率预测向量;
[0023]根据所述概率预测向量进行语料性质分析,确定是否含有有害短信。
[0024]在其中一个实施例中,所述方法还包括:若根据所述概率预测向量进行语料性质分析,确定含有有害短信,则自动屏蔽所述有害短信并通知用户。
[0025]根据本申请实施例一方面,提供有害短信分析装置,所述装置包括:
[0026]第一模块,用于对中文语料进行预处理,获得不同的所述中文语料对应的不同序列;
[0027]第二模块,用于使用盘古模型提取每个序列的词嵌入向量;
[0028]第三模块,用于采用LSTM对所述词嵌入向量进行深层特征提取,获得每一个序列对应的文本深层语义特征;
[0029]第四模块,用于将所述文本深层语义特征经过全连接层和Softmax分类器,进行模型的训练和测试。
[0030]根据本申请实施例一方面,提供有害短信分析装置,所述装置包括:
[0031]至少一个处理器;
[0032]至少一个存储器,所述存储器用于存储至少一个程序;
[0033]当至少一个所述程序被至少一个所述处理器执行时实现如前面实施例所述的有害短信分析方法。
[0034]根据本申请实施例一方面,提供存储介质,所述存储介质存储有处理器可执行的程序,所述处理器可执行的程序被处理器执行时实现如前面实施例所述的有害短信分析方法。
[0035]本申请实施例提供的有害短信分析方法、装置和存储介质的有益效果为:本申请对中文语料进行预处理,获得不同的所述中文语料对应的不同序列;使用盘古模型提取每个序列的词嵌入向量;采用LSTM对所述词嵌入向量进行深层特征提取,获得每一个序列对应的文本深层语义特征;将所述文本深层语义特征经过全连接层和Softmax分类器,进行模型的训练和测试。本申请通过盘古大模型和迁移学习技术,减少所需的有标签的有害短信数据量,训练所需要的时间和计算资源也大大减少,具有更好的适应性,能在短时间内生成可靠的有害短信检测分析模型,提高了通信网有害短信的分析效率。
[0036]本申请的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本申请的实践了解到。
附图说明
[0037]为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于
本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
[0038]图1为本申请实施例提供的一种有害短信分析方法的流程图;
[0039]图2为本申请实施例提供的盘古大模型预训练算法框图;
[0040]图3为本申请实施例提供的一种有害短信分析装置的示意图;
[0041]图4为本申请实施例提供的另一种有害短信分析装置的示意图。
具体实施方式
[0042]为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。
[0043]本申请的说明书和权利要求书及附图中的术语“第一”、“第二”、“第三”和“第四”等是用于区别不同对象,而不是用于描述特定顺序。此外,术语“包括”和“具有”以及它们任何变形,意图在于覆盖不排他的包含。例如包含了一系列步骤或单元的过程、方法、系统、产品或设备没有限定于已列出的步骤或单元,而是可选地还包括没有列出的步骤或单元,或可选地还包括对于这些过程、方法、产品或设备固有的其它步骤或单元。
[0044]在本文中提及“实施本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.有害短信分析方法,其特征在于,所述方法包括:对中文语料进行预处理,获得不同的所述中文语料对应的不同序列;使用盘古模型提取每个序列的词嵌入向量;采用LSTM对所述词嵌入向量进行深层特征提取,获得每一个序列对应的文本深层语义特征;将所述文本深层语义特征经过全连接层和Softmax分类器,进行模型的训练和测试。2.根据权利要求1所述的有害短信分析方法,其特征在于,所述对中文语料进行预处理,包括:针对每条所述中文语料,通过生成数据字典进行文本字符化,获得不同的所述中文语料对应的不同序列;在每一个序列中,用字符标识作为当前序列的第一个标记,通过字符标识对当前序列进行分割,最后得到每条中文语料的词向量序列。3.根据权利要求1所述的有害短信分析方法,其特征在于,所述对中文语料进行预处理后,所述方法还包括:根据所述中文语料是否包含有害短信对所述中文语料打上相应标签。4.根据权利要求1所述的有害短信分析方法,其特征在于,所述方法还包括对所述盘古模型进行预训练,包括:向所述盘古模型输入中文语料训练集、测试集和训练超参数;使用所述中文语料训练集训练所述盘古模型;判断所述盘古模型的准确率是否达到预设值,若是,则输出所述盘古模型,若否,则调整所述训练超参数并继续训练所述盘古模型。5.根据权利要求4所述的有害短信分析方法,其特征在于,所述方法还包括:若所述盘古模型的准确率达到预设值,则判断所述训练超参数的调整次数是否达到预设调整次数,若是,则输出所述...

【专利技术属性】
技术研发人员:刘立峰吕鑫刁海峰王坤田巍
申请(专利权)人:珠海高凌信息科技股份有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1