The embodiment of this application provides a website classification method and device. The method includes: obtaining the website to be classified; crawling the page text and keywords in the website to be classified; calculating the occurrence frequency of the preset website category labels in the keywords, and obtaining the first classification result set, in which each website category label includes the label name and its synonyms; The page text and keywords are input into the pre-configured Bayesian classification model to obtain the second classification result set, in which the second classification result set includes the predicted probability value of each website category label, and the training sample of the Bayesian classification model is crawled through the website; based on the first one, the second classification result set includes the predicted probability value of each website category label. The classification result set and the second classification result set output the classification result. As a result, the application can automatically generate training samples without manual processing, with less workload, and can also achieve accurate website classification when there is less text data on the web page.
【技术实现步骤摘要】
网站分类方法及装置
本申请涉及计算机
,具体而言,涉及一种网站分类方法及装置。
技术介绍
现有技术中的网站分类方法主要是通过人工标注生成训练样本,基于网页内容提取特征,使用机器学习算法学习训练样本得到贝叶斯分类模型,从而实现网站分类。但是上述方法需要人工标注训练样本,工作量巨大,并且如果网页内容很少时,机器学习算法分类结果误差较大。此外,还有通过爬取大量网站,通过聚类算法及人工标注生成训练样本,从而基于网页内容提取特征并使用机器学习算法学习训练样本得到分类模型的方法。但是聚类算法生成类别比较粗,可能无法满足实际需求,同样地,如果网页内容很少时,机器学习算法分类结果很差。
技术实现思路
为了克服现有技术中的上述不足,本申请的目的在于提供一种网站分类方法及装置,能够自动生成训练样本,无需人工处理,工作量小,同时在网页文本数据较少时,也能够实现准确的网站分类。为了实现上述目的,本申请实施例采用的技术方案如下:第一方面,本申请实施例提供一种网站分类方法,所述方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。可选地,在所述获得待分类的网站的步骤之前,所述方法包括:配置所述贝叶斯分类模 ...
【技术保护点】
1.一种网站分类方法,其特征在于,所述方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。
【技术特征摘要】
1.一种网站分类方法,其特征在于,所述方法包括:获得待分类的网站;爬取所述待分类的网站中的页面文本以及关键词;计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集,其中,每个所述网站类别标签包括标签名及其同义词;将所述页面文本以及关键词输入到预先配置的贝叶斯分类模型中,得到第二分类结果集,其中,所述第二分类结果集中包括有各个网站类别标签的预测概率值,所述贝叶斯分类模型的训练样本通过网站爬取得到;基于所述第一分类结果集和所述第二分类结果集输出分类结果。2.根据权利要求1所述的网站分类方法,其特征在于,在所述获得待分类的网站的步骤之前,所述方法包括:配置所述贝叶斯分类模型;所述配置所述贝叶斯分类的方式,包括:获取各个网站类别标签;针对每个网站类别标签,在搜索引擎中搜索该网站类别标签,得到搜索结果;爬取所述搜索结果中的各个网站的页面内容,得到爬取结果,所述爬取结果作为训练样本;对所述训练样本进行预处理,得到特征向量,并使用贝叶斯算法学习所述特征向量得到贝叶斯分类模型。3.根据权利要求2所述的网站分类方法,其特征在于,所述对所述训练样本进行预处理,得到特征向量的步骤,包括:对所述训练样本进行分词,得到多个分词;计算所述多个分词的特征权重;根据所述特征权重将所述训练样本表示为特征向量。4.根据权利要求1所述的网站分类方法,其特征在于,所述计算预先设置的各个网站类别标签在所述关键词中的出现频率,得到第一分类结果集的步骤,包括:计算预先设置的各个网站类别标签在所述关键词中的出现频率;按照频率由高到低的顺序对所述各个网站类别标签进行排序,得到第一分类结果集。5.根据权利要求1所述的网站分类方法,其特征在于,所述基于所述第一分类结果集和所述第二分类结果集输出分类结果的步骤,包括:判断所述第一分类结果集和所述第二分类结果集是否有相同的网站类别标签;若是,则以相同的网站类别标签作为分类结果输出;若否,则判断所述第二分类结果集中是否存在预测概率值大于预设阈值的网站类别标签,若存在,则将所述第二分类结果集中预测概率值大于预设阈值的网站类别标签作为分类结果输出;若不存在,则将所述第一分类结果集中按照频率...
【专利技术属性】
技术研发人员:蔡自彬,刘哲理,叶金辉,梁爽,
申请(专利权)人:北京知道创宇信息技术有限公司,南开大学,
类型:发明
国别省市:北京,11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。