一种面向青少年群体的文字和图像数据的过滤方法及系统技术方案

技术编号：21971525 阅读：22 留言：0更新日期：2019-08-28 01:29

本发明专利技术公开了一种面向青少年群体的文字和图像数据的过滤方法及系统，所述过滤方法及过滤系统通过对互联网页面数据进行数据预处理，并对数据预处理获取的结果进行是否属于青少年数据的判别、是否属于低质量数据的判别以及是否适合青少年观看图片的判别等操作，在常规的数据过滤基础上，排除了庸俗的网络文字以及图片。优点是：引入HTML视觉分块技术，充分挖掘互联网页面中的不良信息；通过大数据训练，挖掘含有恶意跳转的JS代码，具有极强的数据净化能力；使青少年不感兴趣的数据被滤掉，向青少年输送特定内容的信息，使青少年在有限的时间有效的汲取互联网上的有用信息；从青少年的角度出发，使得互联网页面上的数据更加积极健康向上。

A Filtration Method and System of Text and Image Data for Youth Groups

全部详细技术资料下载

【技术实现步骤摘要】
一种面向青少年群体的文字和图像数据的过滤方法及系统
本专利技术涉及文本过滤、图像分类领域，尤其涉及一种面向青少年群体的文字和图像数据的过滤方法及系统。
技术介绍
近些年来，随着光纤通信、无线通信等基础设施的完善，越来越多的用户可以通过电脑、平板、手机等终端连入互联网。这种方便性使得初次上网人群的呈现低龄化的趋势。但是，互联网具有开放性，它不会选择性的向特定人群传递特定信息。此外，互联网也具有多样性，除了有价值的信息之外，还充斥了暴力、黄色、赌博等不良有害信息。对于黄色、赌博、暴力等有害信息的过滤传统手段主要有：1.人工审查，即在发稿前由编辑部门进行审核，保证发布的每条稿件无差错；2.关键字匹配，即设定关键词黑名单，命中黑名单词汇的信息被过滤掉；3.从白名单站点中进行数据筛选，即从大站、政府站点等优质站点中进行数据筛选。第一种方法在面对每天的海量信息时效率低下，且实时性较差；第二种方法的缺陷在于内容的发布者会通过变换文字、加入特殊符号等各种各样的形式产生垃圾信息，黑名单词表无法做到完全覆盖；第三种方法则因为只限定特定的站点，从而造成大量优质的信息可能会被遗漏。此外，随着互联网技术的发展，越来越多的互联网用户不仅是内容的接收者，更可能是内容的发布者；很多内容输出人员甚至是商业公司会通过庸俗的文字或者低俗图片来达到吸引阅读量或者追求自身利益的目的，这些信息如果不加区分的全部推送给青少年，不仅会严重挤压青少年宝贵的时间，更可能会向青少年灌输错误的价值观、人生观。
技术实现思路
本专利技术的目的在于提供一种面向青少年群体的文字及图像数据过滤方法及系统，从而解决现有技术中...

【技术保护点】
1.一种面向青少年群体的文字和图像数据的过滤方法，其特征在于：所述过滤方法包括如下步骤，S1、对互联网页面上的文本进行数据预处理；所述数据预处理包括网页建树和分区文本提取；S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据，若是，则执行步骤S3，若否，则过滤该条数据；S3、分区文本中的数据中添加非文本特征，并判断其是否属于低质量数据，若是，则过滤该条数据；若否，则该条数据将被呈现；S4、寻找并下载分区文本中的有效图片链接，并对图片的二进制流进行处理，通过卷积神经网络判断该图片是否适合呈现给青少年，若是，则执行步骤S5，若否，则过滤该图片。

【技术特征摘要】
1.一种面向青少年群体的文字和图像数据的过滤方法，其特征在于：所述过滤方法包括如下步骤，S1、对互联网页面上的文本进行数据预处理；所述数据预处理包括网页建树和分区文本提取；S2、判断提取的分区文本中的数据是否为适合青少年阅读的数据，若是，则执行步骤S3，若否，则过滤该条数据；S3、分区文本中的数据中添加非文本特征，并判断其是否属于低质量数据，若是，则过滤该条数据；若否，则该条数据将被呈现；S4、寻找并下载分区文本中的有效图片链接，并对图片的二进制流进行处理，通过卷积神经网络判断该图片是否适合呈现给青少年，若是，则执行步骤S5，若否，则过滤该图片。2.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：步骤S1包括如下内容，S101、网页建树；按照HTMLDTD4.0规范分解互联网页面上所有的标签，一个标签作为一个树节点，按照标签之间的包含依赖关系、采用递归下降的方法构造语法树，并将互联网页面上的文本分为不同的区域，分别为META区域、正文区域、链接区域；S102、分区文本提取；对分区后的文本进行标题提取、META信息提取和链接文本提取的操作。3.根据权利要求2所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：所述标题提取具体为，遍历分区后的文本，当遍历到TAG_TITLE节点后，将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理，获取标题内容；所述META信息提取具体为，遍历分区后的文本中的META节点，获取KEYWORDS-DESCRIPTION节点，将该节点及其所有属性为TAG_PURETEXT的子节点的文字内容进行文字处理，获取META内容；所述链接文本提取具体为，从A、AREA、IMG、LINK、FRAME、IFRMAE或EMBED的标签中提取url链接，并从A和OPTION的PURE_TEXT子节点中提取链接文本。4.根据权利要求1所述的面向青少年群体的文字和图像数据的过滤方法，其特征在于：步骤S2包括如下内容，S201、在分区文本中收集一批已标明是否适合青少年的数据，作为FastText模型的第一训练集，记为T＝{＜X1,y1＞,＜X2,y2＞,...,＜XN,yN＞}其中，i为第一训练集中数据的编号，i＝1,2,...,N，N为第一训练集中数据总数，Xi为第一训练集中第i个数据，yi为第一训练集中第i个数据的标签，如果该数据适合青少年，则yi＝1；如果该数据不适合青少年，则yi＝0；S202、对第一训练集中的数据进行切词，生成多维词向量，表示为Xi＝{xi1,xi2,......xik}，其中，xik表示第i条数据切词后的第k个词；并将第一训练集灌入FastText框架进行训练，得到FastText模型；S203、对第一训练集中部分标注过的数据，将其切词后的多为词向量输入FastText模型，获取输出结果，判断输出结果与...

【专利技术属性】
技术研发人员：王礼鑫，赵燕，陈思明，
申请(专利权)人：中国搜索信息科技股份有限公司，
类型：发明
国别省市：北京,11

全部详细技术资料下载我是这个专利的主人