基于图文混合特征的网站分类方法、系统、设备及介质技术方案

技术编号：28675543 阅读：29 留言：0更新日期：2021-06-02 02:52

本发明专利技术涉及一种基于图文混合特征的网站分类方法、系统、设备及介质，分类方法包括：通过内存式段落向量模型，将任何一块文本转换为段落向量；使用ResNet模型，将图像矩阵输入模型后取倒数第二层输出转换为特征向量作为输入；将上述的图、文特征信息矩阵关联起来，输入LSTM模型训练，生成最终的网页分类网络。本发明专利技术通过基于图文混合特征的模型LSTM来表征网页内容，图文混合特征由PV‑DM模型、RESNET模型的预测值的关联序列表示，模型不仅能描述网页的内容信息，此顺序模型还描述了人类阅读文章的顺序，极大的提高了识别的准确率。

全部详细技术资料下载

【技术实现步骤摘要】
基于图文混合特征的网站分类方法、系统、设备及介质
本专利技术涉及计算机图像处理领域，具体涉及一致基于图文混合特征的网站分类方法、系统、设备及介质。
技术介绍
随着互联网的普及，web建站的门槛越来越低，充斥着各种无ICP备案的网站、色情网站、赌博网站、侵权影视网站、侵权小说网站等违法网站。这些网站对社会发展造成极恶劣的影响，成为了网络违法犯罪的温床。同时对版权市场造成比较大的冲击，非常不利于保护版权。所以文化监察部门的需求是对私自设立的网站进行精准分类，以提高执法效率。通过机器学习的方法来网站分类的办法主要有以下几种：1)基于网页文本A.单纯针对通过深度学习CNN等算法来解释文字之间的相似度；B.通过逻辑回归、贝叶斯等机器学习的方法来对文本分类；C.通过网页结构属性特征来做输入，比如html标签、CSS、各类属性等，通过SVM神经网络来做预测；2)基于网站日志数据来做分类；但这些方法都没办法解决分类准确性低的问题，准确率不超过80％。
技术实现思路
针对目前的网站分类错误率高的问题，本专利技术提出一种基于图文混合特征的网站分类方法、系统、设备及介质，通过使用图文混合特征来描述网页的内容，从根本上解决了描述网页内容的问题，从而大大提高了网站分类精度。实现本专利技术目的的技术方案为：一种基于图文混合特征的网站分类方法，包括：顺序提取网页中的文本、图片；通过内存分布式段落向量模型，将一块文本转换为段落向量；使用Res...

【技术保护点】
1.一种基于图文混合特征的网站分类方法，其特征在于，包括：/n顺序提取网页中的文本、图片；/n通过内存分布式段落向量模型，将一块文本转换为段落向量；/n使用ResNet模型，将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量，将该张量转换为图像分类向量；/n将上述段落向量和图像分类向量分别转换为一维序列并关联，输入LSTM模型训练，生成最终的网页分类网络。/n

【技术特征摘要】
1.一种基于图文混合特征的网站分类方法，其特征在于，包括：
顺序提取网页中的文本、图片；
通过内存分布式段落向量模型，将一块文本转换为段落向量；
使用ResNet模型，将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量，将该张量转换为图像分类向量；
将上述段落向量和图像分类向量分别转换为一维序列并关联，输入LSTM模型训练，生成最终的网页分类网络。

2.根据权利要求1所述的基于图文混合特征的网站分类方法，其特征在于，通过内存式段落向量模型，将一块文本转换为段落向量，具有方法为：
使用段落语料库训练出一个内存式段落向量模型，将需要网页中提取的文本输入模型，得到模型输出结果为目标文本的段落向量。

3.根据权利要求1所述的基于图文混合特征的网站分类方法，其特征在于，使用现有的标注图片训练集训练好多分类的ResNet模型；从网页训练集里抽取出图片输入模型，取出模型输出的倒数第二层形状为(1,c,x,y)的张量。

4.根据权利要求1所述的基于图文混合特征的网站分类方法，其特征在于，将上述段落向量和图像分类向量分别转换为一维序列并关联，输入LSTM模型训练，生成最终的网页分类网络，具体方法为：
使用网页分类的文本图片训练集的一组文本和图片作为输入，将文本输入PV-DM模型输出预测的段落向量，并转换为一维序列作为输入，如果网页组中没有文本，那么段落向量为全0的一维序列；
将组中的图片输入至训练好的图片分类ResNet模型，取模型倒数第二层输出的形状为(1,c,x,y)的张量转换为一维序列作为输入；如果网页组中没有图片，那么图片分类向量为全0的一维序列；
其中1代表图片序号向量的长度，c代表分类向量的长度，x*y代表图像中包含多少个(224,224)的小区域；
当x＝1,y＝1，直接将c分类向量作为结果；
当x>1或者y>1时，将(1,c,x,y)的张量先转换为(c,x*y)的矩阵，然后把每一行当做特征向量，将多个特征向量做求和取平均的操作，最终输出图像分类向量；
将上述一维序列顺序拼接，输入LSTM模型训练，生成最终的网页分类网络。

5.一种基于图文混合特征的网站分类系统，其特征在于，包括：
段落向量转换模块，通过内存式段落向量模型，将一块文本转换为段落向量；
图像分类向量生成模块，使用ResNet模型，将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,...

【专利技术属性】
技术研发人员：张乐平，顾明娟，吴一超，卞豪，
申请(专利权)人：江苏匠算天诚信息科技有限公司，
类型：发明
国别省市：江苏;32

全部详细技术资料下载我是这个专利的主人