一种面向青少年群体的文字和图像数据的过滤方法及系统技术方案

技术编号:21971525 阅读:22 留言:0更新日期:2019-08-28 01:29
本发明专利技术公开了一种面向青少年群体的文字和图像数据的过滤方法及系统,所述过滤方法及过滤系统通过对互联网页面数据进行数据预处理,并对数据预处理获取的结果进行是否属于青少年数据的判别、是否属于低质量数据的判别以及是否适合青少年观看图片的判别等操作,在常规的数据过滤基础上,排除了庸俗的网络文字以及图片。优点是:引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;通过大数据训练,挖掘含有恶意跳转的JS代码,具有极强的数据净化能力;使青少年不感兴趣的数据被滤掉,向青少年输送特定内容的信息,使青少年在有限的时间有效的汲取互联网上的有用信息;从青少年的角度出发,使得互联网页面上的数据更加积极健康向上。

A Filtration Method and System of Text and Image Data for Youth Groups

【技术实现步骤摘要】
一种面向青少年群体的文字和图像数据的过滤方法及系统
本专利技术涉及文本过滤、图像分类领域,尤其涉及一种面向青少年群体的文字和图像数据的过滤方法及系统。
技术介绍
近些年来,随着光纤通信、无线通信等基础设施的完善,越来越多的用户可以通过电脑、平板、手机等终端连入互联网。这种方便性使得初次上网人群的呈现低龄化的趋势。但是,互联网具有开放性,它不会选择性的向特定人群传递特定信息。此外,互联网也具有多样性,除了有价值的信息之外,还充斥了暴力、黄色、赌博等不良有害信息。对于黄色、赌博、暴力等有害信息的过滤传统手段主要有:1.人工审查,即在发稿前由编辑部门进行审核,保证发布的每条稿件无差错;2.关键字匹配,即设定关键词黑名单,命中黑名单词汇的信息被过滤掉;3.从白名单站点中进行数据筛选,即从大站、政府站点等优质站点中进行数据筛选。第一种方法在面对每天的海量信息时效率低下,且实时性较差;第二种方法的缺陷在于内容的发布者会通过变换文字、加入特殊符号等各种各样的形式产生垃圾信息,黑名单词表无法做到完全覆盖;第三种方法则因为只限定特定的站点,从而造成大量优质的信息可能会被遗漏。此外,随着互联网技术的发展,越来越多的互联网用户不仅是内容的接收者,更可能是内容的发布者;很多内容输出人员甚至是商业公司会通过庸俗的文字或者低俗图片来达到吸引阅读量或者追求自身利益的目的,这些信息如果不加区分的全部推送给青少年,不仅会严重挤压青少年宝贵的时间,更可能会向青少年灌输错误的价值观、人生观。
技术实现思路
本专利技术的目的在于提供一种面向青少年群体的文字及图像数据过滤方法及系统,从而解决现有技术中存在的前述问题。为了实现上述目的,本专利技术采用的技术方案如下:一种面向青少年群体的文字和图像数据的过滤方法,所述过滤方法包括如下步骤,S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。优选的,步骤S1包括如下内容,S101、网页建树;按照HTMLDTD4.0规范分解互联网页面上所有的标签,一个标签作为一个树节点,按照标签之间的包含依赖关系、采用递归下降的方法构造语法树,并将互联网页面上的文本分为不同的区域,分别为META区域、正文区域、链接区域;S102、分区文本提取;对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。优选的,所述标题提取具体为,遍历分区后的文本,当遍历到TAG_TITLE节点后,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取标题内容;所述META信息提取具体为,遍历分区后的文本中的META节点,获取KEYWORDS-DESCRIPTION节点,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取META内容;所述链接文本提取具体为,从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接,并从A和OPTION的PURE_TEXT子节点中提取链接文本。优选的,步骤S2包括如下内容,S201、在分区文本中收集一批已标明是否适合青少年的数据,作为FastText模型的第一训练集,记为T={<X1,y1>,<X2,y2>,...,<XN,yN>}其中,i为第一训练集中数据的编号,i=1,2,...,N,N为第一训练集中数据总数,Xi为第一训练集中第i个数据,yi为第一训练集中第i个数据的标签,如果该数据适合青少年,则yi=1;如果该数据不适合青少年,则yi=0;S202、对第一训练集中的数据进行切词,生成多维词向量,表示为Xi={xi1,xi2,......xik},其中,xik表示第i条数据切词后的第k个词;并将第一训练集灌入FastText框架进行训练,得到FastText模型;S203、对第一训练集中部分标注过的数据,将其切词后的多为词向量输入FastText模型,获取输出结果,判断输出结果与设定阈值之间的大小关系,若输出结果大于或等于设定阈值,则过滤该数据,若输出结果小于设定阈值,则该数据适合青少年,并执行步骤S3。优选的,根据输出结果和部分标注过数据的标签之间的差异,适应性的调整设定阈值或第一训练集。优选的,步骤S3包括如下内容,S301、依据已知低质量页面中的JS,对分区文本中数据的JS代码进行聚类,提取常见的作弊JS跳转代码,并生成模板;对步骤S1中提取出的分区文本中数据的JS代码与模板进行正则匹配,如果匹配成功,则过滤分区文本中的数据;如果匹配失败,则执行步骤S302;S302、构建赌博、色情、暴力以及对应的变种词表;通过构建Trie树的方式进行多模匹配,如果匹配成功,则过滤该分区文本中的数据;如果匹配失败,则执行步骤S303;S303、对META区域、正文区域、连接区域的数据进行识别,如果数据被识别为低质量数据,则过滤该数据;如果数据不被识别为低质量数据,则该数据将被呈现。优选的,步骤S4包括如下内容,S401、寻找并下载分区文本中的有效图片链接,收集四类语料,分别为正常、色情、性感和变态;在数据预处理阶段将各图片裁剪成指定大小,令图片链构成第二训练集G={<P1,q1>,<P2,q2>,...,<PM,qM>}其中,j为第二训练集中数据的编号,j=1,2,...,M,M为第二训练集中数据总数;Pj为第二训练集中第j个数据,qj为第二训练集中第j个数据的标签;所述第二训练集中的各个标签分别为正常、色情、性感和变态的其中之一;S402、将第二训练集通过卷积神经网络进行训练,并获取训练模型;S402、采用训练模型判别分区文本中的实际图片,如果该图片被识别为非正常图片,则该图片将被过滤,若该图片被识别为正常图片,则该图片将被呈现。优选的,所述卷积神经网络包括输入层、卷积层、池化层、扁平化层、全连接层和输出层,其以交叉熵均值作为cost,以Adam优化算法寻找全局最优点;所述训练集以每512条数据为一个批次使用所述卷积神经网络进行训练。本专利技术的目的还在于提供一种面向青少年群体的文字和图像数据的过滤系统,所述过滤系统用于实现上述任一所述的过滤方法,所述过滤系统包括,数据预处理模块;用于对互联网上的HTML页面进行数据预处理,所述数据预处理模块中设置有页面分区机制,能够将HTML文本分为不同的区域;青少年数据判断模块;用于判断分区文本中的数据是否为适合青少年阅读的数据;低质量数据判断模块,用于判断分区文本中的数据是否属于低质量数据;青少年图片判断模块;用于判断分区文本中的图片是否适合呈现给青少年。本专利技术的有益效果是:1、本专利技术通过引入HTML视觉分块技术,充分挖掘互联网页面中的不良信息;并通过大数据训练,挖掘含有恶意跳转的JS代码,具有极本文档来自技高网...

【技术保护点】
1.一种面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述过滤方法包括如下步骤,S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。

【技术特征摘要】
1.一种面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述过滤方法包括如下步骤,S1、对互联网页面上的文本进行数据预处理;所述数据预处理包括网页建树和分区文本提取;S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据,若是,则执行步骤S3,若否,则过滤该条数据;S3、分区文本中的数据中添加非文本特征,并判断其是否属于低质量数据,若是,则过滤该条数据;若否,则该条数据将被呈现;S4、寻找并下载分区文本中的有效图片链接,并对图片的二进制流进行处理,通过卷积神经网络判断该图片是否适合呈现给青少年,若是,则执行步骤S5,若否,则过滤该图片。2.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:步骤S1包括如下内容,S101、网页建树;按照HTMLDTD4.0规范分解互联网页面上所有的标签,一个标签作为一个树节点,按照标签之间的包含依赖关系、采用递归下降的方法构造语法树,并将互联网页面上的文本分为不同的区域,分别为META区域、正文区域、链接区域;S102、分区文本提取;对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。3.根据权利要求2所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:所述标题提取具体为,遍历分区后的文本,当遍历到TAG_TITLE节点后,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取标题内容;所述META信息提取具体为,遍历分区后的文本中的META节点,获取KEYWORDS-DESCRIPTION节点,将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理,获取META内容;所述链接文本提取具体为,从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接,并从A和OPTION的PURE_TEXT子节点中提取链接文本。4.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法,其特征在于:步骤S2包括如下内容,S201、在分区文本中收集一批已标明是否适合青少年的数据,作为FastText模型的第一训练集,记为T={<X1,y1>,<X2,y2>,...,<XN,yN>}其中,i为第一训练集中数据的编号,i=1,2,...,N,N为第一训练集中数据总数,Xi为第一训练集中第i个数据,yi为第一训练集中第i个数据的标签,如果该数据适合青少年,则yi=1;如果该数据不适合青少年,则yi=0;S202、对第一训练集中的数据进行切词,生成多维词向量,表示为Xi={xi1,xi2,......xik},其中,xik表示第i条数据切词后的第k个词;并将第一训练集灌入FastText框架进行训练,得到FastText模型;S203、对第一训练集中部分标注过的数据,将其切词后的多为词向量输入FastText模型,获取输出结果,判断输出结果与...

【专利技术属性】
技术研发人员:王礼鑫赵燕陈思明
申请(专利权)人:中国搜索信息科技股份有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1