【技术实现步骤摘要】
基于图文混合特征的网站分类方法、系统、设备及介质
本专利技术涉及计算机图像处理领域,具体涉及一致基于图文混合特征的网站分类方法、系统、设备及介质。
技术介绍
随着互联网的普及,web建站的门槛越来越低,充斥着各种无ICP备案的网站、色情网站、赌博网站、侵权影视网站、侵权小说网站等违法网站。这些网站对社会发展造成极恶劣的影响,成为了网络违法犯罪的温床。同时对版权市场造成比较大的冲击,非常不利于保护版权。所以文化监察部门的需求是对私自设立的网站进行精准分类,以提高执法效率。通过机器学习的方法来网站分类的办法主要有以下几种:1)基于网页文本A.单纯针对通过深度学习CNN等算法来解释文字之间的相似度;B.通过逻辑回归、贝叶斯等机器学习的方法来对文本分类;C.通过网页结构属性特征来做输入,比如html标签、CSS、各类属性等,通过SVM神经网络来做预测;2)基于网站日志数据来做分类;但这些方法都没办法解决分类准确性低的问题,准确率不超过80%。
技术实现思路
针对目前的网站分类错误率高的问题,本专利技术提出一种基于图文混合特征的网站分类方法、系统、设备及介质,通过使用图文混合特征来描述网页的内容,从根本上解决了描述网页内容的问题,从而大大提高了网站分类精度。实现本专利技术目的的技术方案为:一种基于图文混合特征的网站分类方法,包括:顺序提取网页中的文本、图片;通过内存分布式段落向量模型,将一块文本转换为段落向量;使用Res ...
【技术保护点】
1.一种基于图文混合特征的网站分类方法,其特征在于,包括:/n顺序提取网页中的文本、图片;/n通过内存分布式段落向量模型,将一块文本转换为段落向量;/n使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,将该张量转换为图像分类向量;/n将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络。/n
【技术特征摘要】
1.一种基于图文混合特征的网站分类方法,其特征在于,包括:
顺序提取网页中的文本、图片;
通过内存分布式段落向量模型,将一块文本转换为段落向量;
使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,将该张量转换为图像分类向量;
将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络。
2.根据权利要求1所述的基于图文混合特征的网站分类方法,其特征在于,通过内存式段落向量模型,将一块文本转换为段落向量,具有方法为:
使用段落语料库训练出一个内存式段落向量模型,将需要网页中提取的文本输入模型,得到模型输出结果为目标文本的段落向量。
3.根据权利要求1所述的基于图文混合特征的网站分类方法,其特征在于,使用现有的标注图片训练集训练好多分类的ResNet模型;从网页训练集里抽取出图片输入模型,取出模型输出的倒数第二层形状为(1,c,x,y)的张量。
4.根据权利要求1所述的基于图文混合特征的网站分类方法,其特征在于,将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络,具体方法为:
使用网页分类的文本图片训练集的一组文本和图片作为输入,将文本输入PV-DM模型输出预测的段落向量,并转换为一维序列作为输入,如果网页组中没有文本,那么段落向量为全0的一维序列;
将组中的图片输入至训练好的图片分类ResNet模型,取模型倒数第二层输出的形状为(1,c,x,y)的张量转换为一维序列作为输入;如果网页组中没有图片,那么图片分类向量为全0的一维序列;
其中1代表图片序号向量的长度,c代表分类向量的长度,x*y代表图像中包含多少个(224,224)的小区域;
当x=1,y=1,直接将c分类向量作为结果;
当x>1或者y>1时,将(1,c,x,y)的张量先转换为(c,x*y)的矩阵,然后把每一行当做特征向量,将多个特征向量做求和取平均的操作,最终输出图像分类向量;
将上述一维序列顺序拼接,输入LSTM模型训练,生成最终的网页分类网络。
5.一种基于图文混合特征的网站分类系统,其特征在于,包括:
段落向量转换模块,通过内存式段落向量模型,将一块文本转换为段落向量;
图像分类向量生成模块,使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,...
【专利技术属性】
技术研发人员:张乐平,顾明娟,吴一超,卞豪,
申请(专利权)人:江苏匠算天诚信息科技有限公司,
类型:发明
国别省市:江苏;32
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。