网站分类方法及装置制造方法及图纸

技术编号:19544477 阅读:23 留言:0更新日期:2018-11-24 20:43
本申请实施例提供一种网站分类方法及装置。该方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此,采用本申请能够自动生成训练样本,无需人工处理,工作量小,同时在网页文本数据较少时,也能够实现准确的网站分类。

Web Site Classification Method and Device

The embodiment of this application provides a website classification method and device. The method includes: obtaining the website to be classified; crawling the page text and keywords in the website to be classified; calculating the occurrence frequency of the preset website category labels in the keywords, and obtaining the first classification result set, in which each website category label includes the label name and its synonyms; The page text and keywords are input into the pre-configured Bayesian classification model to obtain the second classification result set, in which the second classification result set includes the predicted probability value of each website category label, and the training sample of the Bayesian classification model is crawled through the website; based on the first one, the second classification result set includes the predicted probability value of each website category label. The classification result set and the second classification result set output the classification result. As a result, the application can automatically generate training samples without manual processing, with less workload, and can also achieve accurate website classification when there is less text data on the web page.

【技术实现步骤摘要】
网站分类方法及装置
本申请涉及计算机
,具体而言,涉及一种网站分类方法及装置。
技术介绍
现有技术中的网站分类方法主要是通过人工标注生成训练样本,基于网页内容提取特征,使用机器学习算法学习训练样本得到贝叶斯分类模型,从而实现网站分类。但是上述方法需要人工标注训练样本,工作量巨大,并且如果网页内容很少时,机器学习算法分类结果误差较大。此外,还有通过爬取大量网站,通过聚类算法及人工标注生成训练样本,从而基于网页内容提取特征并使用机器学习算法学习训练样本得到分类模型的方法。但是聚类算法生成类别比较粗,可能无法满足实际需求,同样地,如果网页内容很少时,机器学习算法分类结果很差。
技术实现思路
为了克服现有技术中的上述不足,本申请的目的在于提供一种网站分类方法及装置,能够自动生成训练样本,无需人工处理,工作量小,同时在网页文本数据较少时,也能够实现准确的网站分类。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种网站分类方法,所述方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。可选地,在所述获得待分类的网站的步骤之前,所述方法包括:配置所述贝叶斯分类模型;所述配置所述贝叶斯分类的方式,包括:获取各个网站类别标签;针对每个网站类别标签,在搜索引擎中搜索该网站类别标签,得到搜索结果;爬取所述搜索结果中的各个网站的页面内容,得到爬取结果,所述爬取结果作为训练样本;对所述训练样本进行预处理,得到特征向量,并使用贝叶斯算法学习所述特征向量得到贝叶斯分类模型。可选地,所述对所述训练样本进行预处理,得到特征向量的步骤,包括:对所述训练样本进行分词,得到多个分词;计算所述多个分词的特征权重;根据所述特征权重将所述训练样本表示为特征向量。可选地,所述计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集的步骤,包括:计算预先设置的各个网站类别标签在所述关键词中的出现频率;按照频率由高到低的顺序对所述各个网站类别标签进行排序,得到第一分类结果集。可选地,所述基于所述第一分类结果集和所述第二分类结果集输出分类结果的步骤,包括:判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签;若是,则以相同的网站类别标签作为分类结果输出;若否,则判断所述第二分类结果集中是否存在预测概率值大于预设阈值的网站类别标签,若存在,则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出;若不存在,则将所述第一分类结果集中按照频率由高到低的顺序排序前N个网站类别标签作为分类结果输出。第二方面,本申请实施例还提供一种网站分类装置,所述装置包括:获得模块,用于获得待分类的网站;爬取模块,用于爬取所述待分类的网站中的页面文本以及关键词;计算模块,用于计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;输入模块,用于将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;输出模块,用于基于所述第一分类结果集和所述第二分类结果集输出分类结果。相对于现有技术而言,本申请具有以下有益效果:本申请实施例提供的网站分类方法及装置,首先获得待分类的网站,并爬取所述待分类的网站中的页面文本以及关键词。接着,计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词。然后将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到。最后,基于所述第一分类结果集和所述第二分类结果集输出分类结果。由此,采用本申请提供的技术方案,能够自动生成训练样本,无需人工处理,工作量小,同时结合基于网站关键词的第一分类结果集和贝叶斯分类模型的第二分类结果集得到最终分类结果,在网页文本数据较少时,也能够实现准确的网站分类。附图说明为了更清楚地说明本申请实施例的技术方案,下面将对实施例中所需要使用的附图作简单地介绍,应当理解,以下附图仅示出了本申请的某些实施例,因此不应被看作是对范围的限定,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其它相关的附图。图1为本申请实施例提供的网站分类方法的一种流程示意图;图2为本申请实施例提供的网站分类方法的另一种流程示意图;图3为本申请实施例提供的网站分类装置的一种功能模块图;图4为本申请实施例提供的网站分类装置的另一种功能模块图。图标:100-网站分类装置;109-配置模块;110-获得模块;120-爬取模块;130-计算模块;140-输入模块;150-输出模块。具体实施方式下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。通常在此处附图中描述和示出的本申请实施例的组件可以以各种不同的配置来布置和设计。因此,以下对在附图中提供的本申请的实施例的详细描述并非旨在限制要求保护的本申请的范围,而是仅仅表示本申请的选定实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其它实施例,都属于本申请保护的范围。应注意到:相似的标号和字母在下面的附图中表示类似项,因此,一旦某一项在一个附图中被定义,则在随后的附图中不需要对其进行进一步定义和解释。同时,在本申请的描述中,术语"第一"、"第二"等仅用于区分描述,而不能理解为指示或暗示相对重要性。请参阅图1,为本申请实施例提供的网站分类方法的一种流程示意图。所应说明的是,本申请实施例提供的网站分类方法不以图1及以下所述的具体顺序为限制,该网站分类方法可以通过如下步骤实现:步骤S110,获得待分类的网站。本实施例中,所述待分类的网站可以包括至少一个,可以进行随机选取,也可以根据用户需求进行选取。步骤S120,爬取所述待分类的网站中的页面文本以及关键词。本实施例中,通过利用网络爬虫技术爬取每个所述待分类的网站中的页面文本以及关键词。所述页面文本也即所述待分类的网站的网站全部文本内容,所述关键词也即所述页面文本中经过去重之后的各个分词。步骤S130,计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集。本实施例中,所述各个网站类别标签都为预先设置的,同时为保证后续的分类准确性,每个所述网站类别标签包括标签名及其同义词。例如,所述标签名为新闻,则及其同义词为热点、时事、讯息等等。在实施时,可以计算所述预本文档来自技高网...

【技术保护点】
1.一种网站分类方法,其特征在于,所述方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。

【技术特征摘要】
1.一种网站分类方法,其特征在于,所述方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。2.根据权利要求1所述的网站分类方法,其特征在于,在所述获得待分类的网站的步骤之前,所述方法包括:配置所述贝叶斯分类模型;所述配置所述贝叶斯分类的方式,包括:获取各个网站类别标签;针对每个网站类别标签,在搜索引擎中搜索该网站类别标签,得到搜索结果;爬取所述搜索结果中的各个网站的页面内容,得到爬取结果,所述爬取结果作为训练样本;对所述训练样本进行预处理,得到特征向量,并使用贝叶斯算法学习所述特征向量得到贝叶斯分类模型。3.根据权利要求2所述的网站分类方法,其特征在于,所述对所述训练样本进行预处理,得到特征向量的步骤,包括:对所述训练样本进行分词,得到多个分词;计算所述多个分词的特征权重;根据所述特征权重将所述训练样本表示为特征向量。4.根据权利要求1所述的网站分类方法,其特征在于,所述计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集的步骤,包括:计算预先设置的各个网站类别标签在所述关键词中的出现频率;按照频率由高到低的顺序对所述各个网站类别标签进行排序,得到第一分类结果集。5.根据权利要求1所述的网站分类方法,其特征在于,所述基于所述第一分类结果集和所述第二分类结果集输出分类结果的步骤,包括:判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签;若是,则以相同的网站类别标签作为分类结果输出;若否,则判断所述第二分类结果集中是否存在预测概率值大于预设阈值的网站类别标签,若存在,则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出;若不存在,则将所述第一分类结果集中按照频率...

【专利技术属性】
技术研发人员:蔡自彬刘哲理叶金辉梁爽
申请(专利权)人:北京知道创宇信息技术有限公司南开大学
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1