【技术实现步骤摘要】
信息识别方法、装置、终端设备以及存储介质
[0001]本专利技术涉及通信
,尤其涉及一种信息识别方法、装置、终端设备以及存储介质。
技术介绍
[0002]随着信息时代通信服务业的高速发展,垃圾信息已经对人们的生活造成了一定的困扰,因此信息识别具有重要的社会价值和实用意义。
[0003]现有的信息识别方法通常利用Word2Vec产生词向量,完成信息文本及其拼音文本的向量化表示,然后将相应训练集通过CNN模型或RNN模型对信息特征和信息类别之间的关系进行建模,最后以此判断一个信息是否为垃圾信息。
[0004]但是,基于Word2Vec对信息进行向量化,所考虑的信息较为单一,无法解决多义词的问题;CNN模型和RNN模型的特征提取能力不够强,导致对信息特征和信息类别之间关系的建模不够充分;且RNN模型处理数据的并行计算能力差。
技术实现思路
[0005]本专利技术的主要目的在于提供一种信息识别方法、装置、终端设备以及存储介质,旨在提高信息识别的准确率。
[0006]为实现上述目的,本专利技术提供一种信息识别方法,所述信息识别方法包括以下步骤:
[0007]获取待识别信息;
[0008]将所述待识别信息输入信息识别模型中进行预测,得到预测结果,其中,所述信息识别模型基于预设的矩阵编码器、预先创建的语句通顺性模型训练得到;
[0009]根据所述预测结果判断所述待识别信息是否为垃圾信息。
[0010]可选地,所述将所述待识别信息输入信息识别模型中进行预测 ...
【技术保护点】
【技术特征摘要】
1.一种信息识别方法,其特征在于,所述信息识别方法包括以下步骤:获取待识别信息;将所述待识别信息输入信息识别模型中进行预测,得到预测结果,其中,所述信息识别模型基于预设的矩阵编码器、预先创建的语句通顺性模型训练得到;根据所述预测结果判断所述待识别信息是否为垃圾信息。2.如权利要求1所述的信息识别方法,其特征在于,所述将所述待识别信息输入信息识别模型中进行预测,得到预测结果的步骤之前还包括:创建所述信息识别模型,具体包括:获取训练用的第一样本信息,所述第一样本信息包括第一垃圾信息和第一正常信息;基于第一BERT模型、Transformer编码器、预先创建的语句通顺性模型、预测层、交互层,构建得到初始信息识别模型;将所述第一样本信息输入所述初始信息识别模型,并结合第一损失函数对所述初始信息识别模型进行迭代训练,得到创建后的信息识别模型。3.如权利要求2所述的信息识别方法,其特征在于,所述Transformer编码器包括第一Transformer编码器及第二Transformer编码器,所述待识别信息包括信息文本和拼音文本,所述将所述待识别信息输入信息识别模型中进行预测,得到预测结果的步骤包括:将所述待识别信息输入所述信息识别模型中进行以下处理:通过所述信息识别模型中的第一BERT模型对所述信息文本及所述拼音文本进行文本向量化表示,得到对应的信息矩阵及拼音矩阵;将所述信息矩阵输入预先创建的语句通顺性模型进行判断,得到所述信息文本对应的第一通顺性向量;将所述信息矩阵及拼音矩阵分别对应输入到所述第一Transformer编码器及所述第二Transformer编码器进行特征提取,得到对应的信息特征矩阵及拼音特征矩阵;通过所述交互层对所述信息特征矩阵及所述拼音特征矩阵进行处理,得到对应的信息向量及拼音向量;通过所述预测层对所述信息向量、所述拼音向量及所述第一通顺性向量进行计算,得到预测结果。4.如权利要求3所述的信息识别方法,其特征在于,所述通过所述交互层对所述信息特征矩阵及所述拼音特征矩阵进行处理,得到对应的信息向量及拼音向量的步骤包括:通过所述交互层对所述信息特征矩阵及所述拼音特征矩阵进行交互,得到交互注意力矩阵;基于所述交互注意力矩阵,分别对所述信息特征矩阵及所述拼音特征矩阵进行最大池化操作,得到对应的信息向量及拼音向量。5.如权利要求3所述的信息识别方法,其特征在于,所述预测层包括拼接层、第一全连接层、第一Sigmoid函数,所述通过所述预测层对所述信息向量、所述拼音向量及所述第一通顺性向量进行计算,得到预测结果的步骤包括:通过所述拼接层将所述信息向量、所述拼音向量及所述通顺性向量进行拼接,得到拼接后的预测向量;通过所述第一全连接层及所述第一Sigmoid函数对所述预测向量进行计算,得到所述
待识...
【专利技术属性】
技术研发人员:蔡林杰,杨显栋,杨岳周,钱海,蒋海滨,
申请(专利权)人:咪咕文化科技有限公司中国移动通信集团有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。