数据统计方法和装置制造方法及图纸

技术编号:19822159 阅读:30 留言:0更新日期:2018-12-19 14:50
本发明专利技术提供了一种数据统计方法和装置,该方法包括:提取目标监控对象的关键词;以关键词为搜索词在多个预设媒体平台上进行搜索,得到对应多个预设媒体平台的多组搜索结果;对多组搜索结果进行语义筛选,得到语义与目标监控对象的语义相匹配的多组筛选结果;其中,每组筛选结果包括筛选后的多个目标搜索结果;对每个预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;按照热度数据的类型对多个预设媒体平台的热度数据进行分类汇总,得到目标监控对象的多种类型的热度数据的统计数据。本发明专利技术能够降低人工统计的人力和时间成本,提升数据统计的准确度,以及使得统计结果的数据源更加全面。

【技术实现步骤摘要】
数据统计方法和装置
本专利技术涉及大数据
,特别是涉及一种数据统计方法和装置。
技术介绍
随着大数据技术的不断发展,电影行业逐步进入到了数据驱动的时代,无论是电影发行方,还是演员的经纪人,都希望依靠大数据来指导电影宣发过程的推广效果。在传统的数据统计方法中,片方需要在宣传活动之后利用人力去跟踪各个媒体对发行的电影的用户反馈,如观察与该电影相关的微博的转发量、该电影的百度搜索指数等,来评估宣传活动的宣传效果。但依赖人工统计数据的方法费时费力,而且在统计时所涉及的媒体也很难做到全面覆盖。因此,相关技术中的数据统计方法普遍存在着耗时费力、统计结果的数据源不全面以及准确度低的问题。
技术实现思路
本专利技术提供了一种数据统计方法和装置,以解决相关技术中的数据统计方法所存在的耗时费力、统计结果的数据源不全面以及准确度低的问题。为了解决上述问题,根据本专利技术的一个方面,本专利技术公开了一种数据统计方法,包括:提取目标监控对象的关键词;以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;其中,每组筛选结果包括筛选后的多个目标搜索结果;对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。根据本专利技术的另一方面,本专利技术还公开了一种数据统计装置,包括:第一提取模块,用于提取目标监控对象的关键词;搜索模块,用于以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;筛选模块,用于对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;其中,每组筛选结果包括筛选后的多个目标搜索结果;第二提取模块,用于对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;分类汇总模块,用于按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。与现有技术相比,本专利技术包括以下优点:在本专利技术实施例中,通过提取目标监控对象的关键词,并在多个预设媒体平台上以所述关键词进行搜索,然后,对搜索结果进行语义筛选,将语义与目标监控对象的语义不匹配的搜索结果过滤掉,然后,提取筛选后得到的每个目标搜索结果的多种类型的预设热度指标,并对得到来自多个预设媒体平台的关于多种类型的预设热度指标的热度数据进行分类汇总,从而得到该目标监控对象的所述多种类型的热度数据的统计数据,该过程中实现了对目标监控对象的多种热度数据的自动统计,降低了人工统计的人力和时间成本,并且,通过直接对搜索结果进行过滤,以及提取过滤后的搜索结果的能够反映热度的用户行为数据,即各类预设热度指标,从而大大提升了数据统计的准确度;此外,该搜索结果来自于多个预设媒体平台,从而使得统计结果的数据源更加全面。附图说明图1是本专利技术的一种数据统计方法实施例的步骤流程图;图2是本专利技术的另一种数据统计方法实施例的步骤流程图;图3是本专利技术的一种数据统计装置实施例的结构框图。具体实施方式为使本专利技术的上述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本专利技术作进一步详细的说明。参照图1,示出了本专利技术的一种数据统计方法实施例的步骤流程图,具体可以包括如下步骤:步骤101,提取目标监控对象的关键词;可选地,所述目标监控对象的类型至少包括以下之一:电影、电视剧、综艺、影视剧演员。在一个示例中,可以从影视平台的热映列表、待映列表中确定需要监控宣传效果的电影、电视剧、综艺、影视剧演员,提取这些对象的关键词来作为本次热点数据统计时的搜索词。就电影类型、电视剧类型、综艺类型的目标监控对象而言,它们的关键词可以是名称、别名、简称等等;就影视剧演员而言,它的关键词可以是姓名、别名、粉丝昵称、外号等。因此,不论是哪种类型的目标监控对象,它的关键词的数量可以为一个或多个,优选多个。此外,该目标监控对象的数量也可以是一个或多个,不同的目标监控对象之间的类型可以相同或不同。可选地,本专利技术实施例的方法可以将提取的目标监控对象的关键词以字符串的形式存储。这样,本专利技术实施例可以对多种类型的监控对象的热度数据进行全面、准确的自动统计,便于监控对象的发行方根据本专利技术实施例的统计数据来判断宣传活动的效果如何。在一个示例中,该目标监控对象的类型为电影,那么该目标监控对象则可以是一部电影,例如目标监控对象为:电影《黑天鹅》。那么该目标监控对象的关键词可以包括黑天鹅。步骤102,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;可选地,所述预设媒体平台的类型至少包括:视频网站、搜索引擎网站、新闻网站、社交媒体网站、即时通讯应用程序、短视频应用程序。在一个示例中,该多个预设媒体平台包括视频网站1、视频网站2、搜索引擎网站1、新闻网站1、社交媒体网站1(例如微博网站)、即时通讯应用程序1、短视频应用程序1。那么可以在上述视频网站1、视频网站2、搜索引擎网站1、新闻网站1、社交媒体网站1(例如微博网站)、即时通讯应用程序1、短视频应用程序1中分别以“黑天鹅”为关键词进行搜索,则可以得到多组搜索结果:第一组搜索结果:来自视频网站1的与黑天鹅有关的多种视频——视频列表;第二组搜索结果:来自视频网站2的与黑天鹅有关的多种视频——视频列表;第三组搜索结果:来自搜索引擎网站1的与黑天鹅有关的多种网页——网页列表;第四组搜索结果:来自新闻网站1的与黑天鹅有关的多种新闻——新闻列表;第五组搜索结果:来自微博网站的与黑天鹅有关的多种微博——微博列表;第六组搜索结果:来自即时通讯程序1的与黑天鹅有关的多种文章——文章列表;第七组搜索结果:来自短视频应用程序1的与黑天鹅有关的多种短视频——短视频列表。可选地,在一个实施例中,在执行步骤102时,可以采用预设模拟搜索程序,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果。其中,由于人工在各个预设媒体平台上输入关键词,然后点击搜索按钮进行搜索的步骤繁琐,且工作量大,因此,在本专利技术实施例中,可以利用能够模拟人工搜索的预设模拟搜索程序来将步骤101中的关键词输入到所述多个预设媒体平台上来进行搜索,并截取对应所述多个预设媒体平台的多组搜索结果,这样,可以在搜索任务量大时,提升搜索效率,节省搜索时间。其中,该预设模拟搜索程序可以将步骤101提取的各个关键词逐个输入到各个预设媒体平台进行搜索,并从各个预设媒体平台获取多组搜索结果。可选地,在一个实施例中,在步骤102之前,根据本专利技术实施例的方法还可以包括:确定所述多个预设媒体平台中在使用搜索功能前需要进行身份认证的目标预设媒体平台;其中,对于上述实施例各种类型的预设媒体平台来说,其中,社交媒体网站、即时通讯应用程序以及短视频应用程序的搜索功能在使用时,必须是登录用户才可以使用搜索功能,因此,本专利技术实施例需要从多个预设媒体平台中确定出哪些目标预设媒体平台在使用搜索功能前本文档来自技高网...

【技术保护点】
1.一种数据统计方法,其特征在于,包括:提取目标监控对象的关键词;以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;其中,每组筛选结果包括筛选后的多个目标搜索结果;对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。

【技术特征摘要】
1.一种数据统计方法,其特征在于,包括:提取目标监控对象的关键词;以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果;对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果;其中,每组筛选结果包括筛选后的多个目标搜索结果;对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据;按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇总,得到所述目标监控对象的多种类型的热度数据的统计数据。2.根据权利要求1所述的方法,其特征在于,所述目标监控对象的类型至少包括以下之一:电影、电视剧、综艺、影视剧演员。3.根据权利要求1所述的方法,其特征在于,所述以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果,包括:采用预设模拟搜索程序,以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果。4.根据权利要求1所述的方法,其特征在于,所述以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果之前,所述方法还包括:确定所述多个预设媒体平台中在使用搜索功能前需要进行身份认证的目标预设媒体平台;采用预设模拟登录程序登录所述目标预设媒体平台。5.根据权利要求1所述的方法,其特征在于,当所述目标监控对象的数量为多个时,所述提取目标监控对象的关键词,包括:提取多个所述目标监控对象中每个目标监控对象的关键词,得到对应多个所述目标监控对象的多个关键词列表;所述以所述关键词为搜索词在多个预设媒体平台上进行搜索,得到对应所述多个预设媒体平台的多组搜索结果,包括:以所述多个关键词列表中每个关键词列表中的关键词为搜索词,在多个预设媒体平台上进行搜索,得到每个目标监控对象的对应所述多个预设媒体平台的多组搜索结果;所述对所述多组搜索结果进行语义筛选,得到语义与所述目标监控对象的语义相匹配的多组筛选结果,包括:对每个目标监控对象的所述多组搜索结果进行语义筛选,得到语义与所述每个目标监控对象的语义相匹配的多组筛选结果;所述对每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到多种类型的热度数据,包括:对每个目标监控对象的每个所述预设媒体平台的每个目标搜索结果提取多种类型的预设热度指标,得到每个目标监控对象的多种类型的热度数据;所述按照热度数据的类型对所述多个预设媒体平台的热度数据进行分类汇...

【专利技术属性】
技术研发人员:赵颖泽罗金浩崔树营周栋
申请(专利权)人:北京猫眼文化传媒有限公司
类型:发明
国别省市:北京,11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1