【技术实现步骤摘要】
本专利技术涉及一种数据的提取和处理方法,具体说是一种特定观影群体数据的提取及其处理方法。
技术介绍
近年来电影市场火爆异常,市场的火爆吸引大量资本进入影视行业,大家的注意也随之而来。为此人们也更多的关注电影市场未来的发展,希望能够迎合市场需要,在当下或者未来分得一杯羹。为此就需要有针对性地搜集、整理各种不同群体的观影数据,以更加细致的数据分析为电影的创作和市场运作提供导向意见。通过近两年购票人群教育文化程度统计可以明显的看出主力观影人群是专科本科及以上学历人群。尤其是在校大学生对未来中国电影市场的发展和中国观影群体习惯的养成具有重要的意义。
技术实现思路
本专利技术的目的是为电影工作者提供一种特定观影群体数据的提取及其处理方法,使其可以指导影片的制作、宣传、发行等工作。本专利技术所述特定观影群体数据的提取方法,包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库以及与之具有映射关系的用户属性信息数据库;B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库;然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据,采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户,并将非正常用户从特定群体的用户个人信息库中剔除;C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交 ...
【技术保护点】
特定观影群体数据的提取方法,其特征在于包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库(1)以及与之具有映射关系的用户属性信息数据库(2);B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3);然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除;C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;D)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动 ...
【技术特征摘要】
1.特定观影群体数据的提取方法,其特征在于包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库(1)以及与之具有映射关系的用户属性信息数据库(2);B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3);然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除;C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;D)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户(8);F)重复账号的合并,对于特定群体的活跃用户,比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;G)使用样本用户数据库的信息替换用户个人信息库中的信息,重复上述步骤C)——步骤F),直到步骤F)无法找到重复账号;H)获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,全体特定群体的活跃用户的量化信息表构成量化信息库(9)。2.根据权利要求1所述特定观影群体数据的提取方法,其特征在于:所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。3.根据权利要求1或2所述...
【专利技术属性】
技术研发人员:莫倩,贾承斌,张传文,王恺,
申请(专利权)人:北京网智天元科技股份有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。