基于代表词知识库的文本内容分类方法技术

技术编号:16331660 阅读:41 留言:0更新日期:2017-10-01 23:30
基于“代表词知识库”的文本内容分类方法,属于数据分析和内容分类领域。本发明专利技术采用人工智能专家系统的方法,通过对待分类页面WPage的构成特征向量,计算与已经分类完的“代表词知识库”Wbase(CK)中知识的最短距离D(Cmin)和相似度Sk;,根据预置的阈值来判断WPage归属哪一类,从而达到分类的目的。对代表词分类知识库的更新,使系统变得越来聪明,不仅提高了内容分类的效率,更重要是提高了内容分类的覆盖面和准确程度。

Text content classification method based on representative word knowledge base

A text content classification method based on representative word knowledge base belongs to the field of data analysis and content classification. The invention adopts the method of artificial intelligence expert system, through to form a feature vector WPage page classification, calculation and classification has been finished \on behalf of word knowledge base Wbase (CK) D in the shortest distance of knowledge (Cmin), and the similarity of Sk; according to a preset threshold value to determine which kind of belonging to WPage. To achieve the purpose of classification. The updating of the word classification knowledge base makes the system more intelligent. It not only improves the efficiency of content classification, but also improves the coverage and accuracy of content classification.

【技术实现步骤摘要】

本专利技术属于文本内容分类领域,特别是涉及到一个基于专家系统代表词分类知识库的文本内容分类方法、系统及装置。技术背景随着移动互联网的迅猛发展,特备是3G、4G互联网普及,原本只有专业和时尚人士上网变成草根屌丝们都能上网,带来了全民上网的信息化时代,造成信息爆炸。有效的组织管理好互联网信息,并从这些海量的大数据中快速、准确、全面的获取客户的兴趣特征,是对当今信息科学
的一大挑战。文本分类技术,作为处理海量互联网文本数据的关键技术,可以解决电信运营商智能营销的问题,达到提高效率、降低成本、减少投诉、增加收益精细化运营的目的。自动文本页面分类方法已经成为研究自然语言处理的热点,其分类方法各种各样,归结为有⑴基于IF-THEN决策树专家规则的分类方法;⑵基于自然语言利用神经网络的学习算法;⑶基于关键词的语言算法等的语义分析;⑷基于一组词或词组在文中出现频率、位置、以及词与词间的亲近程度的模式匹配;⑸通过识别内容中的共性元素进行聚类分类;⑹基于概率统计的贝叶斯分类;⑺遗传算法分类优化技术等等……。但是,这些分类方法只解决某些部分的具体应用、数据规模比较小、没有海量“垃圾”的内容分类但是,以上这些自动文本页面分类均无法解决海量大数据的文本内容分类问题,然而本专利技术填补了百亿级海量大数据的分类问题。
技术实现思路
鉴于以上存在的问题,本专利技术的目的在于:提供一种通过人工智能专家系统构建的基于代表词知识库的文本内容分类方法,旨在解决电信运营商百亿级海量“有效”访问内容(页面URL)进行准确而高效的分类的问题。本专利技术的目的是通过下述技术方案实现的:基于代表词知识库的文本内容分类方法,其特征在于,包括:(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…本文档来自技高网...

【技术保护点】
1.基于代表词知识库的文本内容分类方法,其特征在于,包括:(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关键词进行合并,同时计算出合并后代表词的频度,构成页面特征向量WPage={(W1,f1),(W2,f2),…,(Wi,fi),…},其中i=1、2、…、M,M为页面中代表词数;若WPage为空,该页面没有标题和元信息,则对页面正文Body进行切词,用与标题和元信息同样方法构成页面特征向量WPage:(2)从“代表词分类知识库”中读取所有的分类知识:WBase(Ck)={(w1k,f1k),(w2k,f2k),···,(wjk,fjk),···}]]>其中,k=1、2、…、L,L为知识库分类数;j=1、2、…、N,N为第Ck类代表词数,为第Ck类第j个代表词,为第Ck类第j个代表词对应的频度;(3)计算待文本页面特征向量WPage与所有类别Wbase(CK)的距离D(CK),同时计算出其中最短的距离D(Cmin)和相似度SkD(ck)=Σi=1MΣj=1N(fi-fjk)2]]>D(cmin)=Min{Σk=1LD(ck)}]]>Sk=Σj=1Mfjk-D(cmin)Σj=1Mfjk]]>(4)进行文本分类:当Mk<Sk≦1时,内容分类成功,将成功分类结果Wnew(Ck)={(w1k,f1k),(w2k,f2k),···,(wik,fik),···}]]>存储到“内容分类结果”文件中,同时更新维护代表词知识库;当Sk≦Mk时,内容分类失败,结束分类。其中Mk是预先设置在0-1之间的相似度阈值。...

【技术特征摘要】
1.基于代表词知识库的文本内容分类方法,其特征在于,包括:
(1)首先对待页面URL的标题Title进行切词,然后与元信息Meta中的关...

【专利技术属性】
技术研发人员:孙宏赵晓波季海东董童霖赵宇龙
申请(专利权)人:辽宁四维科技发展有限公司
类型:发明
国别省市:辽宁;21

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1