基于图文混合特征的网站分类方法、系统、设备及介质技术方案

技术编号:28675543 阅读:18 留言:0更新日期:2021-06-02 02:52
本发明专利技术涉及一种基于图文混合特征的网站分类方法、系统、设备及介质,分类方法包括:通过内存式段落向量模型,将任何一块文本转换为段落向量;使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出转换为特征向量作为输入;将上述的图、文特征信息矩阵关联起来,输入LSTM模型训练,生成最终的网页分类网络。本发明专利技术通过基于图文混合特征的模型LSTM来表征网页内容,图文混合特征由PV‑DM模型、RESNET模型的预测值的关联序列表示,模型不仅能描述网页的内容信息,此顺序模型还描述了人类阅读文章的顺序,极大的提高了识别的准确率。

【技术实现步骤摘要】
基于图文混合特征的网站分类方法、系统、设备及介质
本专利技术涉及计算机图像处理领域,具体涉及一致基于图文混合特征的网站分类方法、系统、设备及介质。
技术介绍
随着互联网的普及,web建站的门槛越来越低,充斥着各种无ICP备案的网站、色情网站、赌博网站、侵权影视网站、侵权小说网站等违法网站。这些网站对社会发展造成极恶劣的影响,成为了网络违法犯罪的温床。同时对版权市场造成比较大的冲击,非常不利于保护版权。所以文化监察部门的需求是对私自设立的网站进行精准分类,以提高执法效率。通过机器学习的方法来网站分类的办法主要有以下几种:1)基于网页文本A.单纯针对通过深度学习CNN等算法来解释文字之间的相似度;B.通过逻辑回归、贝叶斯等机器学习的方法来对文本分类;C.通过网页结构属性特征来做输入,比如html标签、CSS、各类属性等,通过SVM神经网络来做预测;2)基于网站日志数据来做分类;但这些方法都没办法解决分类准确性低的问题,准确率不超过80%。
技术实现思路
针对目前的网站分类错误率高的问题,本专利技术提出一种基于图文混合特征的网站分类方法、系统、设备及介质,通过使用图文混合特征来描述网页的内容,从根本上解决了描述网页内容的问题,从而大大提高了网站分类精度。实现本专利技术目的的技术方案为:一种基于图文混合特征的网站分类方法,包括:顺序提取网页中的文本、图片;通过内存分布式段落向量模型,将一块文本转换为段落向量;使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,将该张量转换为图像分类向量;将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络。进一步的,通过内存式段落向量模型,将一块文本转换为段落向量,具有方法为:使用现有的段落语料库训练出一个内存式段落向量模型,得将需要网页中提取的文本输入模型,得到模型输出结果为目标文本的段落向量。进一步的,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,具体方法为:使用现有的标注图片训练集训练好多分类的ResNet模型;从网页训练集里抽取出图片输入模型,取出模型输出的倒数第二层形状为(1,c,x,y)的张量,并且将张量转换为图像分类向量。进一步的,将上述段落向量和基于图像主题的分布矩阵分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络,具体方法为:使用网页分类的文本图片训练集的一组文本和图片作为输入,将文本输入PV-DM模型输出预测的段落向量,并转换为一维序列作为输入,如果网页组中没有文本,那么段落向量为全0的一维序列;将组中的图片输入至训练好的图片分类ResNet模型,取模型倒数第二层输出的形状为(1,c,x,y)的张量转换为一维序列作为输入;其中1代表图片序号向量的长度,c代表分类向量的长度,x*y代表图像中包含了多少个(224,224)的小区域;当x=1,y=1,也就是在输入图像是一张小图的情况下,直接将c分类向量作为我们的结果;当x>1或者y>1时,也就是在输入图像是一张大图的情况下,需要将(1,c,x,y)的张量先转换为(c,x*y)的矩阵,然后把每一行当做特征向量,将多个特征向量做求和取平均的操作,达到聚类的目的,最终输出图像分类向量。如果网页组中训练中没有图片,那么图片分类向量为全0的一维序列;将上述一维序列顺序拼接,输入LSTM模型训练,生成最终的网页分类网络。本专利技术还提供一种基于图文混合特征的网站分类系统,包括:段落向量转换模块,通过内存式段落向量模型,将任何一块文本转换为段落向量;图像分类向量生成模块,使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,将该张量转换为图像分类向量;网页分类模块,将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络。一种电子设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,所述处理器执行所述程序时实现上述的基于图文混合特征的网站分类方法。一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现上述的基于图文混合特征的网站分类方法。与现有技术相比,本专利技术的有益效果为:本专利技术通过基于图文混合特征的模型LSTM来表征网页内容,图文混合特征由PV-DM模型、ResNet模型的预测值的关联序列表示,模型不仅能描述网页的内容信息,此顺序模型还描述了人类阅读文章的顺序,极大的提高了识别的准确率,在现有50M规模的网页测试集上达到91.3%。附图说明图1为基于图文混合特征的网站分类方法流程图。图2是本专利技术通过PV-DM,ResNet模型提取网页图、文主题特征的示意图。图3是训练网页分类LSTM模型及预测的过程框图。具体实施方式本专利技术提出一种基于图文混合特征的网站分类方法,如图1所示,包括如下步骤:第一步、通过内存式段落向量模型(DistributedMemoryModelofParagraphVectors,PV-DM),来将任何一块文本转换为段落向量(ParagraphVectors)。PV-DM能更好地描述变长文本段落的语义。第二步、使用50层的ResNet模型,将图像矩阵输入模型后取最后第二层特征作为输入。第三步、将上述的图、文特征信息矩阵关联起来,输入LSTM模型训练,生成最终的网页分类网络。如图2所示,任何网页都有一个居中的主体部分。此主体部分可以用一个序列的方式表达出来,如果是单纯的文本,可以单独表达为单独的某种文本特征,如果单纯的图片,可以表达为某种图片特征,如果同时兼具文本和图片,可以表达为两种特征向量的组合。具体转换如下:1)顺序提取网页中的文本、图片;2)使用网页分类的文本图片训练集的一组文本和图片作为输入,将文本输入PV-DM模型输出预测的段落向量,并转换为一维序列作为输入,如果网页组中没有文本,那么段落向量为全0的一维序列;3)将组中的图片输入至训练好的图片分类ResNet模型,取模型倒数第二层输出的形状为(1,c,x,y)的张量转换为一维序列作为输入;如果网页组中没有图片,那么图片分类向量为全0的一维序列;其中1代表图片序号向量的长度,c代表分类向量的长度,x*y代表图像中包含了多少个(224,224)的小区域;当x=1,y=1,直接将c分类向量作为我们的结果;当x>1或者y>1时,将(1,c,x,y)的张量先转换为(c,x*y)的矩阵,然后把每一行当做特征向量,将多个特征向量做求和取平均的操作,最终输出图像分类向量;4)将上述一维序列顺序拼接,输入LSTM模型训练,生成最终的网页分类网络。如本文档来自技高网...

【技术保护点】
1.一种基于图文混合特征的网站分类方法,其特征在于,包括:/n顺序提取网页中的文本、图片;/n通过内存分布式段落向量模型,将一块文本转换为段落向量;/n使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,将该张量转换为图像分类向量;/n将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络。/n

【技术特征摘要】
1.一种基于图文混合特征的网站分类方法,其特征在于,包括:
顺序提取网页中的文本、图片;
通过内存分布式段落向量模型,将一块文本转换为段落向量;
使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,y)的张量,将该张量转换为图像分类向量;
将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络。


2.根据权利要求1所述的基于图文混合特征的网站分类方法,其特征在于,通过内存式段落向量模型,将一块文本转换为段落向量,具有方法为:
使用段落语料库训练出一个内存式段落向量模型,将需要网页中提取的文本输入模型,得到模型输出结果为目标文本的段落向量。


3.根据权利要求1所述的基于图文混合特征的网站分类方法,其特征在于,使用现有的标注图片训练集训练好多分类的ResNet模型;从网页训练集里抽取出图片输入模型,取出模型输出的倒数第二层形状为(1,c,x,y)的张量。


4.根据权利要求1所述的基于图文混合特征的网站分类方法,其特征在于,将上述段落向量和图像分类向量分别转换为一维序列并关联,输入LSTM模型训练,生成最终的网页分类网络,具体方法为:
使用网页分类的文本图片训练集的一组文本和图片作为输入,将文本输入PV-DM模型输出预测的段落向量,并转换为一维序列作为输入,如果网页组中没有文本,那么段落向量为全0的一维序列;
将组中的图片输入至训练好的图片分类ResNet模型,取模型倒数第二层输出的形状为(1,c,x,y)的张量转换为一维序列作为输入;如果网页组中没有图片,那么图片分类向量为全0的一维序列;
其中1代表图片序号向量的长度,c代表分类向量的长度,x*y代表图像中包含多少个(224,224)的小区域;
当x=1,y=1,直接将c分类向量作为结果;
当x>1或者y>1时,将(1,c,x,y)的张量先转换为(c,x*y)的矩阵,然后把每一行当做特征向量,将多个特征向量做求和取平均的操作,最终输出图像分类向量;
将上述一维序列顺序拼接,输入LSTM模型训练,生成最终的网页分类网络。


5.一种基于图文混合特征的网站分类系统,其特征在于,包括:
段落向量转换模块,通过内存式段落向量模型,将一块文本转换为段落向量;
图像分类向量生成模块,使用ResNet模型,将图像矩阵输入模型后取倒数第二层输出的形状为(1,c,x,...

【专利技术属性】
技术研发人员:张乐平顾明娟吴一超卞豪
申请(专利权)人:江苏匠算天诚信息科技有限公司
类型:发明
国别省市:江苏;32

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1