社交应用数据的筛选方法和装置制造方法及图纸

技术编号：14874586 阅读：76 留言：0更新日期：2017-03-23 22:16

本申请公开了一种社交应用数据的筛选方法和装置。其中，该方法包括：获取筛选阈值；根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值；判断筛选分值是否小于筛选阈值；如果判断出筛选分值小于筛选阈值，则丢弃待筛选数据；以及如果判断出筛选分值大于等于筛选阈值，则保留待筛选数据。本申请解决了在进行社交应用的数据筛选时不准确的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】

本申请涉及数据筛选领域，具体而言，涉及一种社交应用数据的筛选方法和装置。
技术介绍
在对社交应用的数据(例如微博数据)进行语义分析时，会发现很多不具备语义分析价值的微博，这些微博可能只有几个表情，或者只有简短的几个字，或者只是转发一个链接等等，对于这类微博数据，进行语义分析时一般无法获取到有价值的信息，白白耗费服务器的运算和存储，所以需要在进行语义分析之前将此类信息过滤掉。现有方案一般是根据经验值设定文本最小长度来判断，当微博文本长度小于一定值时则认为该微博不具备语义分析的价值。上述方案的缺点在于，难以确定一个长度基准值，若基准值设置过大，会造成部分有意义短文本被错误的过滤掉，若基准值过小又难以过滤掉很多无意义微博。即现有技术存在进行社交应用数据的筛选时不准确的问题。针对上述的问题，目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种社交应用数据的筛选方法和装置，以至少解决在进行社交应用数据的筛选时不准确的技术问题。根据本申请实施例的一个方面，提供了一种社交应用数据的筛选方法，包括：获取筛选阈值；根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值；判断所述筛选分值是否小于所述筛选阈值；如果判断出所述筛选分值小于所述筛选阈值，则丢弃所述待筛选数据；以及如果判断出所述筛选分值大于等于所述筛选阈值，则保留所述待筛选数据。根据本申请实施例的另一方面，还提供了一种社交应用数据的筛选装置，包括：阈值获取单元，用于获取筛选阈值，所述筛选阈值用于筛选数据；分值获取单元，用于获取待筛选数据的筛选分值，其中，所述筛选分值根据所述待筛选数据的有效数据...
社交应用数据的筛选方法和装置

【技术保护点】
一种社交应用数据的筛选方法，其特征在于，包括：获取筛选阈值；根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值；判断所述筛选分值是否小于所述筛选阈值；如果判断出所述筛选分值小于所述筛选阈值，则丢弃所述待筛选数据；以及如果判断出所述筛选分值大于等于所述筛选阈值，则保留所述待筛选数据。

【技术特征摘要】
1.一种社交应用数据的筛选方法，其特征在于，包括：获取筛选阈值；根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值；判断所述筛选分值是否小于所述筛选阈值；如果判断出所述筛选分值小于所述筛选阈值，则丢弃所述待筛选数据；以及如果判断出所述筛选分值大于等于所述筛选阈值，则保留所述待筛选数据。2.根据权利要求1所述的方法，其特征在于，所述待筛选数据包括多种子数据元素，所述子数据元素为所述有效数据元素或所述无效数据元素，根据所述待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值包括：获取所述多种子数据元素中每种子数据元素的个数；获取所述每种子数据元素的基准值；分别将所述每种子数据元素的个数和相应的基准值相乘，得到多个乘积；累加所述多个乘积，得到所述筛选分值。3.根据权利要求1或2所述的方法，其特征在于，所述保留所述待筛选数据包括：获取基准长度；获取所述待筛选数据的有效数据长度，所述有效数据长度为所述有效数据元素的长度；判断所述有效数据长度是否大于等于所述基准长度；如果所述有效数据长度大于等于所述基准长度，则保留所述待筛选数据。4.根据权利要求3所述的方法，其特征在于，所述方法还包括：如果所述有效数据长度小于所述基准长度，则丢弃所述待筛选数据。5.根据权利要求1或2所述的方法，其特征在于，在获取待筛选数据的筛选分值之前，所述方法还包括：获取所述待筛选数据的长度和基准长度；判断所述待筛选数据的长度是否大于等于所述基准长度；在判断出所述待筛选数据的长度大于等于所述基准长度时，则确定继续获取待筛选数据的筛选分值；在判断出所述待筛选数据的长度小于所述基准长度时，则丢弃所述待筛选数据。6.一种社交应用数据的筛选装置，其特征在于，包括：阈值获取单元，用于获取筛选阈值；分值获取单元，用于根据待筛选数据的有...

【专利技术属性】
技术研发人员：李新国，
申请(专利权)人：北京国双科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人