有害短信分析方法、装置和存储介质制造方法及图纸

技术编号：35898501 阅读：27 留言：0更新日期：2022-12-10 10:33

本申请公开了有害短信分析方法、装置和存储介质，包括对中文语料进行预处理，获得不同的所述中文语料对应的不同序列；使用盘古模型提取每个序列的词嵌入向量；采用LSTM对所述词嵌入向量进行深层特征提取，获得每一个序列对应的文本深层语义特征；将所述文本深层语义特征经过全连接层和Softmax分类器，进行模型的训练和测试。本申请通过盘古大模型和迁移学习技术，减少所需的有标签的有害短信数据量，训练所需要的时间和计算资源也大大减少，具有更好的适应性，能在短时间内生成可靠的有害短信检测分析模型，提高了通信网有害短信的分析效率。率。率。

全部详细技术资料下载

【技术实现步骤摘要】
有害短信分析方法、装置和存储介质

[0001]本申请涉及有害短信分析领域，尤其是有害短信分析方法、装置和存储介质。

技术介绍

[0002]通信网上的短信通过正在逐渐渗透到人们日常生活中的各个角落。然而，短信中往往也夹杂着大量无用甚至有害的垃圾信息、诈骗信息，这些有害信息不仅会降低正常用户的平台使用体验满意度，更有可能诱导一部分网络用户不知不觉中收到网络诈骗的侵害。这些有害短信无疑会对我们的生活与经济造成巨大的损失。
[0003]相关的针对有害短信识别的自然语言处理深度学习模型往往需要大量的有标签数据进行训练，而在实际应用中，很难获得针对某一特殊领域或者特殊用户群体的大量的有标签的训练信息，这就导致利用小样本数据训练出的模型往往无法达到理想的效果，此外，训练出一个成熟的深度机器学习模型往往需要消耗大量的时间以及计算资源，导致针对于新任务的训练成本大大提高。
[0004]因此，相关技术存在的上述技术问题亟待解决。

技术实现思路

[0005]本申请旨在解决相关技术中的技术问题之一。为此，本申请实施例提供有害短信分析方法、装置和存储介质，能够以较低的成本进行有害短信分析。
[0006]根据本申请实施例一方面，提供一种有害短信分析方法，所述方法包括：
[0007]对中文语料进行预处理，获得不同的所述中文语料对应的不同序列；
[0008]使用盘古模型提取每个序列的词嵌入向量；
[0009]采用LSTM对所述词嵌入向量进行深层特征提取，获得每一个序列对应的文本深层语义...

【技术保护点】

【技术特征摘要】
1.有害短信分析方法，其特征在于，所述方法包括：对中文语料进行预处理，获得不同的所述中文语料对应的不同序列；使用盘古模型提取每个序列的词嵌入向量；采用LSTM对所述词嵌入向量进行深层特征提取，获得每一个序列对应的文本深层语义特征；将所述文本深层语义特征经过全连接层和Softmax分类器，进行模型的训练和测试。2.根据权利要求1所述的有害短信分析方法，其特征在于，所述对中文语料进行预处理，包括：针对每条所述中文语料，通过生成数据字典进行文本字符化，获得不同的所述中文语料对应的不同序列；在每一个序列中，用字符标识作为当前序列的第一个标记，通过字符标识对当前序列进行分割，最后得到每条中文语料的词向量序列。3.根据权利要求1所述的有害短信分析方法，其特征在于，所述对中文语料进行预处理后，所述方法还包括：根据所述中文语料是否包含有害短信对所述中文语料打上相应标签。4.根据权利要求1所述的有害短信分析方法，其特征在于，所述方法还包括对所述盘古模型进行预训练，包括：向所述盘古模型输入中文语料训练集、测试集和训练超参数；使用所述中文语料训练集训练所述盘古模型；判断所述盘古模型的准确率是否达到预设值，若是，则输出所述盘古模型，若否，则调整所述训练超参数并继续训练所述盘古模型。5.根据权利要求4所述的有害短信分析方法，其特征在于，所述方法还包括：若所述盘古模型的准确率达到预设值，则判断所述训练超参数的调整次数是否达到预设调整次数，若是，则输出所述...

【专利技术属性】
技术研发人员：刘立峰，吕鑫，刁海峰，王坤，田巍，
申请(专利权)人：珠海高凌信息科技股份有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人