社交应用数据的筛选方法和装置制造方法及图纸

技术编号:14874586 阅读:68 留言:0更新日期:2017-03-23 22:16
本申请公开了一种社交应用数据的筛选方法和装置。其中,该方法包括:获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断筛选分值是否小于筛选阈值;如果判断出筛选分值小于筛选阈值,则丢弃待筛选数据;以及如果判断出筛选分值大于等于筛选阈值,则保留待筛选数据。本申请解决了在进行社交应用的数据筛选时不准确的技术问题。

【技术实现步骤摘要】

本申请涉及数据筛选领域,具体而言,涉及一种社交应用数据的筛选方法和装置
技术介绍
在对社交应用的数据(例如微博数据)进行语义分析时,会发现很多不具备语义分析价值的微博,这些微博可能只有几个表情,或者只有简短的几个字,或者只是转发一个链接等等,对于这类微博数据,进行语义分析时一般无法获取到有价值的信息,白白耗费服务器的运算和存储,所以需要在进行语义分析之前将此类信息过滤掉。现有方案一般是根据经验值设定文本最小长度来判断,当微博文本长度小于一定值时则认为该微博不具备语义分析的价值。上述方案的缺点在于,难以确定一个长度基准值,若基准值设置过大,会造成部分有意义短文本被错误的过滤掉,若基准值过小又难以过滤掉很多无意义微博。即现有技术存在进行社交应用数据的筛选时不准确的问题。针对上述的问题,目前尚未提出有效的解决方案。
技术实现思路
本申请实施例提供了一种社交应用数据的筛选方法和装置,以至少解决在进行社交应用数据的筛选时不准确的技术问题。根据本申请实施例的一个方面,提供了一种社交应用数据的筛选方法,包括:获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断所述筛选分值是否小于所述筛选阈值;如果判断出所述筛选分值小于所述筛选阈值,则丢弃所述待筛选数据;以及如果判断出所述筛选分值大于等于所述筛选阈值,则保留所述待筛选数据。根据本申请实施例的另一方面,还提供了一种社交应用数据的筛选装置,包括:阈值获取单元,用于获取筛选阈值,所述筛选阈值用于筛选数据;分值获取单元,用于获取待筛选数据的筛选分值,其中,所述筛选分值根据所述待筛选数据的有效数据元素和无效数据元素得到;阈值判断单元,用于判断所述筛选分值是否小于所述筛选阈值;第一丢弃单元,用于在判断出所述筛选分值小于所述筛选阈值时,丢弃所述待筛选数据;以及保留单元,用于在判断出所述筛选分值大于所述筛选阈值时,保留所述待筛选数据。在本申请实施例中,获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断筛选分值是否小于筛选阈值;如果判断出筛选分值小于筛选阈值,则丢弃待筛选数据;以及如果判断出筛选分值大于等于筛选阈值,则保留待筛选数据。待筛选数据可以包括有效数据元素和无效数据元素,对有效数据元素和无效数据元素进行打分可以兼顾待筛选数据中的有效数据元素和无效数据元素对筛选结果的影响,避免了单一的考虑待筛选数据的长度所造成的误筛选,解决了现有技术中在筛选社交应用数据不准确的问题,达到了准确筛选数据的效果附图说明此处所说明的附图用来提供对本申请的进一步理解,构成本申请的一部分,本申请的示意性实施例及其说明用于解释本申请,并不构成对本申请的不当限定。在附图中:图1是根据本申请实施例的社交应用数据的筛选方法的流程图;图2是根据本申请实施例的一种可选的社交应用数据的筛选方法的流程图;以及图3是根据本申请实施例的社交应用数据的筛选装置的示意图。具体实施方式为了使本
的人员更好地理解本申请方案,下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都应当属于本申请保护的范围。需要说明的是,本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的本申请的实施例能够以除了在这里图示或描述的那些以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。根据本申请实施例,提供了一种社交应用数据的筛选方法的方法实施例,需要说明的是,在附图的流程图示出的步骤可以在诸如一组计算机可执行指令的计算机系统中执行,并且,虽然在流程图中示出了逻辑顺序,但是在某些情况下,可以以不同于此处的顺序执行所示出或描述的步骤。图1是根据本申请实施例的社交应用数据的筛选方法的流程图,如图1所示,该方法包括如下步骤:步骤S102,获取筛选阈值。步骤S104,根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值。社交应用的数据可以是微博、空间状态和评论等。在这些社交应用的数据中可能包括表情符号、转发的地址、简单的文字和@好友等内容,而这些表情符号和@好友等内容是不具有语义分析意义的,属于无效数据元素。待筛选数据还包括具有语义分析意义的有效数据元素。有效数据元素可以是一段文字数据。筛选分值可以是一条数据的得分,该得分包括有效数据元素的分值和无效数据元素的分值,通过有效数据元素的分值和无效数据元素的分值决定一条待筛选数据的筛选分值。步骤S106,判断筛选分值是否小于筛选阈值。步骤S108,如果判断出筛选分值小于筛选阈值,则丢弃待筛选数据。步骤S110,如果判断出筛选分值大于筛选阈值,则保留待筛选数据。通过上述实施例,待筛选数据可以包括有效数据元素和无效数据元素,对有效数据元素和无效数据元素进行打分可以兼顾待筛选数据中的有效数据元素和无效数据元素对筛选结果的影响,避免了单一的考虑待筛选数据的长度所造成的误筛选,解决了现有技术中在筛选社交应用的数据不准确的问题,达到了准确筛选数据的效果。可选地,待筛选数据包括多种子数据元素,子数据元素为有效数据元素或无效数据元素,根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值包括:获取多种子数据元素中每种子数据元素的个数;获取每种子数据元素的基准值;对每种子数据元素的个数和相应的基准值进行相乘,得到多个乘积;累加多个乘积,得到筛选分值。例如,每种子数据元素的加(减)分的基准值为:话题标签(##)+2分、提及人(@标签)-2分、URL-10分、表情-1分和有效文本+1等,其中,话题标签、提及人、URL和表情为无效数据元素,文本为有效数据元素。例如,某个待筛选数据具有一个话题标签,一个URL,并@了4个人,有效文本长度为68,则该待筛选数据的筛选分值为:(1*2)+(1*(-10))+(4*(-2))+68*1=52如果筛选阈值为50,则上述待筛选数据大于筛选阈值,保留该待筛选数据。如果在该例子中有效文本长度为8,按照上述计算方法得到的筛选分值-8,那么该待筛选数据应该被丢弃。但是,由于该待筛选数据的无效数据元素较多,数据的总长度会大于15,按照现有的筛选方法可能会保留该待筛选数据,就导致筛选不准确。可见,本实施例的筛选方法能够提高筛选的准确性。可选地,保留所述待筛选数据包括:获取基准长度;获取待筛选数据的有效数据长度,有效数据长度为有效数据元素的长度;判断有效数据长度是否大于等于基准长度;如果有效数据长度大于等于基准长度,则保留待筛选数据;如果有效数据长度小于基准长度,则丢弃待筛选数据。为了进一步提高筛选的准确性,在筛选分值大于等于筛选阈值的情况下,判断有效数本文档来自技高网
...
社交应用数据的筛选方法和装置

【技术保护点】
一种社交应用数据的筛选方法,其特征在于,包括:获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断所述筛选分值是否小于所述筛选阈值;如果判断出所述筛选分值小于所述筛选阈值,则丢弃所述待筛选数据;以及如果判断出所述筛选分值大于等于所述筛选阈值,则保留所述待筛选数据。

【技术特征摘要】
1.一种社交应用数据的筛选方法,其特征在于,包括:获取筛选阈值;根据待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值;判断所述筛选分值是否小于所述筛选阈值;如果判断出所述筛选分值小于所述筛选阈值,则丢弃所述待筛选数据;以及如果判断出所述筛选分值大于等于所述筛选阈值,则保留所述待筛选数据。2.根据权利要求1所述的方法,其特征在于,所述待筛选数据包括多种子数据元素,所述子数据元素为所述有效数据元素或所述无效数据元素,根据所述待筛选数据的有效数据元素和无效数据元素获取待筛选数据的筛选分值包括:获取所述多种子数据元素中每种子数据元素的个数;获取所述每种子数据元素的基准值;分别将所述每种子数据元素的个数和相应的基准值相乘,得到多个乘积;累加所述多个乘积,得到所述筛选分值。3.根据权利要求1或2所述的方法,其特征在于,所述保留所述待筛选数据包括:获取基准长度;获取所述待筛选数据的有效数据长度,所述有效数据长度为所述有效数据元素的长度;判断所述有效数据长度是否大于等于所述基准长度;如果所述有效数据长度大于等于所述基准长度,则保留所述待筛选数据。4.根据权利要求3所述的方法,其特征在于,所述方法还包括:如果所述有效数据长度小于所述基准长度,则丢弃所述待筛选数据。5.根据权利要求1或2所述的方法,其特征在于,在获取待筛选数据的筛选分值之前,所述方法还包括:获取所述待筛选数据的长度和基准长度;判断所述待筛选数据的长度是否大于等于所述基准长度;在判断出所述待筛选数据的长度大于等于所述基准长度时,则确定继续获取待筛选数据的筛选分值;在判断出所述待筛选数据的长度小于所述基准长度时,则丢弃所述待筛选数据。6.一种社交应用数据的筛选装置,其特征在于,包括:阈值获取单元,用于获取筛选阈值;分值获取单元,用于根据待筛选数据的有...

【专利技术属性】
技术研发人员:李新国
申请(专利权)人:北京国双科技有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1