本发明专利技术公开了一种短信文本的分类方法和系统包括:计算分布式文件系统HDFS上所有短信样本的特征向量;判断出HDFS上的短信样本未分类,根据计算得到的特征向量对所述短信样本进行分类;保存短信样本的类别和计算得到的特征向量,形成HDFS上的第一类库;将第一类库转换为流式计算系统支持的第二类库;流式计算系统根据第二类库对待分类短信进行分类。本发明专利技术能够对短信文本进行实时分类。
【技术实现步骤摘要】
【专利摘要】本专利技术公开了一种短信文本的分类方法和系统包括:计算分布式文件系统HDFS上所有短信样本的特征向量;判断出HDFS上的短信样本未分类,根据计算得到的特征向量对所述短信样本进行分类;保存短信样本的类别和计算得到的特征向量,形成HDFS上的第一类库;将第一类库转换为流式计算系统支持的第二类库;流式计算系统根据第二类库对待分类短信进行分类。本专利技术能够对短信文本进行实时分类。【专利说明】一种短信文本的分类方法和系统
本专利技术涉及短信文本处理技术,尤指一种短信文本的分类方法和系统。
技术介绍
在互联网大数据时代,能够对用户行为的实时性处理和分析是重要应用方面。以 短信处理为例,由于现在垃圾短信的泛滥,包括欺诈短信、广告推销、反动信息等,给用户带 了很大的危害,因此,需要运营商通过对短信内容的识别来过滤垃圾短信。而短信及时性的 特点决定了其必须在较短的时间内完成处理和下发,对处理系统的实时性提出了较高的要 求。 现有的短信文本的分类方法是:预先形成短信样本的类库,可以采用k_近邻算 法、朴素贝叶斯算法等现有的方法,根据预先形成的类库对待分类短信进行分类。 现有的短信文本的分类方法中,通过人工累积的方式或者聚类的方式形成类库, 由于类库中短信样本的数量较大,在形成类库的过程中计算量和占用的存储空间较大,因 此很难满足短信文本分类的实时性。
技术实现思路
为了解决上述问题,本专利技术提出了一种短信文本的分类方法和系统,能够实时对 短信文本进行分类。 为了达到上述目的,本专利技术提出了一种短信文本的分类方法,包括: 计算分布式文件系统HDFS上所有短信样本的特征向量; 判断出HDFS上的短信样本未分类,根据计算得到的特征向量对所述短信样本进 行分类; 保存短信样本的类别和计算得到的特征向量,形成HDFS上的第一类库; 将第一类库转换为流式计算系统支持的第二类库; 流式计算系统根据第二类库对待分类短信进行分类。 优选地,所述流式计算系统对所述待分类短信进行分类后,该方法还包括: 将所述待分类短信作为新增短信样本存储在所述流式计算系统中; 当所述流式计算系统判断出所述新增短信样本数大于或等于预设值时,根据所述 新增短信样本对所述第一类库进行更新。 优选地,根据所述新增短信样本对所述第一类库进行更新包括: 计算所述新增短信样本的特征向量,将计算得到的特征向量及其所属类别保存到 所述第一类库中。 优选地,所述将第一类库转换为流式计算系统支持的第二类库包括: 调用Hadoop提供的Java接口,通过数据流的形式读出,获取所述类别和该类别的 所有特征向量; 将获得的类别和该类别的所有特征向量分发到流式计算系统中各个工作节点的 相应逻辑节点上,每一个逻辑节点以映射表的方式将类别和该类别的所有特征向量保存。 优选地,所述短信样本的特征向量的每个元素为:关键词的词频TF与关键词的关 键度IDF的乘积得到的积值; 其中, 【权利要求】1. 一种短信文本的分类方法,其特征在于,包括: 计算分布式文件系统HDFS上所有短信样本的特征向量; 判断出HDFS上的短信样本未分类,根据计算得到的特征向量对所述短信样本进行分 类; 保存短信样本的类别和计算得到的特征向量,形成HDFS上的第一类库; 将第一类库转换为流式计算系统支持的第二类库; 流式计算系统根据第二类库对待分类短信进行分类。2. 根据权利要求1所述的分类方法,其特征在于,所述流式计算系统对所述待分类短 信进行分类后,该方法还包括: 将所述待分类短信作为新增短信样本存储在所述流式计算系统中; 当所述流式计算系统判断出所述新增短信样本数大于或等于预设值时,根据所述新增 短信样本对所述第一类库进行更新。3. 根据权利要求2所述的分类方法,其特征在于,根据所述新增短信样本对所述第一 类库进行更新包括: 计算所述新增短信样本的特征向量,将计算得到的特征向量及其所属类别保存到所述 第一类库中。4. 根据权利要求1或2所述的分类方法,其特征在于,所述将第一类库转换为流式计算 系统支持的第二类库包括: 调用Hadoop提供的Java接口,通过数据流的形式读出,获取所述类别和该类别的所有 特征向量; 将获得的类别和该类别的所有特征向量分发到流式计算系统中各个工作节点的相应 逻辑节点上,每一个逻辑节点以映射表的方式将类别和该类别的所有特征向量保存。5. 根据权利要求1或2所述的分类方法,其特征在于,所述短信样本的特征向量的每个 元素为:关键词的词频TF与关键词的关键度IDF的乘积得到的积值; 其中,6. -种短信文本的分类系统,其特征在于,至少包括: 分布式文件系统HDFS,用于保存短信样本; 转换装置,用于计算分布式文件系统HDFS上所有短信样本的特征向量;判断出HDFS上 的短信样本未分类,根据计算得到的特征向量对所述短信样本进行分类;保存短信样本的 类别和计算得到的特征向量,形成HDFS上的第一类库;将第一类库转换为流式计算系统支 持的第二类库; 流式计算系统,用于根据第二类库对待分类短信进行分类。7. 根据权利要求6所述的分类系统,其特征在于,所述流式计算系统,还用于: 将所述待分类短信作为新增短信样本进行保存;判断出所述新增短信样本数大于或等 于预设值,将所述新增短信样本发送给所述转换装置; 所述转换装置,还用于: 根据所述新增短信样本对所述第一类库进行更新。【文档编号】G06F17/30GK104123393SQ201410394927【公开日】2014年10月29日 申请日期:2014年8月12日 优先权日:2014年8月12日 【专利技术者】李 浩, 罗云彬, 王志军, 王伟华 申请人:中国联合网络通信集团有限公司本文档来自技高网...
【技术保护点】
一种短信文本的分类方法,其特征在于,包括:计算分布式文件系统HDFS上所有短信样本的特征向量;判断出HDFS上的短信样本未分类,根据计算得到的特征向量对所述短信样本进行分类;保存短信样本的类别和计算得到的特征向量,形成HDFS上的第一类库;将第一类库转换为流式计算系统支持的第二类库;流式计算系统根据第二类库对待分类短信进行分类。
【技术特征摘要】
【专利技术属性】
技术研发人员:李浩,罗云彬,王志军,王伟华,
申请(专利权)人:中国联合网络通信集团有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。