特定观影群体数据的提取及其处理方法技术

技术编号:13969735 阅读:104 留言:0更新日期:2016-11-10 04:38
本发明专利技术涉及一种数据的提取和处理方法,具体说是一种特定观影群体数据的提取及其处理方法。通过网络用户的身份信息和属性信息,筛选出目标群体,在通过这些目标群体做出的电影评论,经加权计算获得某一电影的用户观影指数。可用于指导影片的制作、宣传、发行等工作。

【技术实现步骤摘要】


本专利技术涉及一种数据的提取和处理方法,具体说是一种特定观影群体数据的提取及其处理方法
技术介绍
近年来电影市场火爆异常,市场的火爆吸引大量资本进入影视行业,大家的注意也随之而来。为此人们也更多的关注电影市场未来的发展,希望能够迎合市场需要,在当下或者未来分得一杯羹。为此就需要有针对性地搜集、整理各种不同群体的观影数据,以更加细致的数据分析为电影的创作和市场运作提供导向意见。通过近两年购票人群教育文化程度统计可以明显的看出主力观影人群是专科本科及以上学历人群。尤其是在校大学生对未来中国电影市场的发展和中国观影群体习惯的养成具有重要的意义。
技术实现思路
本专利技术的目的是为电影工作者提供一种特定观影群体数据的提取及其处理方法,使其可以指导影片的制作、宣传、发行等工作。本专利技术所述特定观影群体数据的提取方法,包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库以及与之具有映射关系的用户属性信息数据库;B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库;然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据,采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户,并将非正常用户从特定群体的用户个人信息库中剔除;C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息,选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户,重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;D)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户;F)重复账号的合并,对于特定群体的活跃用户,比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;G)使用样本用户数据库的信息替换用户个人信息库中的信息,重复上述步骤C)——步骤F),直到步骤F)无法找到重复账号;H)获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,全体特定群体的活跃用户的量化信息表构成量化信息库。所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。在步骤B),所述用户对任何电影的历史评论数据包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数。在步骤D),所述用户的活动规律是指用户上网时间段的分布规律,以及用户做出评价的时间段的分布规律。在步骤F),所述将其对应的多个特定群体的活跃用户合并为一个是指将多个个人信息合并后形成新的个人信息,同时将多个属性信息合并后形成新的属性信息;所述一致性判断标准是指用户个人信息中用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种具有一致性或相关性。所述电影评论信息的各种指标包括但不限于类型、演员、导演、国家、制式、日期,所谓指标的量化是指将电影评论中有关上述指标的信息判断为匹配和不匹配两种结果,并将每种结果给与特定的加权值。上述特定观影群体数据的处理方法,从量化信息库中提取活跃用户的量化信息表制定该用户的观影特征模型,所述量化信息库是符合特定观影群体特征的一组人群以及与之相关的电影评论信息的集合;将该用户的电影评论信息与观影特征模型比对,利用加权算法得到该活跃用户对电影的关注度数值,将量化信息库中全部活跃用户对同一部电影的关注度数值相加,得到特定观影群体对该电影的关注度。所述电影评论信息至少包括类型、演员、导演、国家、制式、档期几个指标,所述加权算法是用如下公式获得该特定群体的活跃用户对电影的关注度,A=(2(g+s+r+c+t+d)-(Gg+Ss+Rr+Cc+Tt+Dd))*X,其中A是该特定群体的活跃用户对电影的关注度G表示类型是否匹配,1代表匹配,0代表不匹配 ,g代表权值S表示演员是否匹配,1代表匹配,0代表不匹配 ,s代表权值R表示导演是否匹配,1代表匹配,0代表不匹配, r代表权值C表示国家是否匹配,1代表匹配,0代表不匹配, c代表权值T表示格式是否匹配,1代表匹配,0代表不匹配 ,t代表权值D表示档期是否匹配,1代表匹配,0代表不匹配, d代表权值X代表电影评价的量化分值。由于采用上述技术方案,本专利技术通过网络资源获取大学生等特定观影人群的影评数据,并将该数据分析处理得到这一特定人群对影片的关注度的量化指标,用于指导影片的制作、宣传、发行等工作。附图说明图1为本专利技术一个实施例的数据提取的流程框图。具体实施方式如图1所示,本专利技术所述特定观影群体数据的提取方法,包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库1以及与之具有映射关系的用户属性信息数据库2;所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库3;然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据4,采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户5,并将非正常用户从特定群体的用户个人信息库中剔除;正常用户评论电影的信息会有以下特点,对于影片的评分会呈正态分布趋势,各种不同类型的评论相对分散,没有过度集中的情况。僵尸账号和水军账号为代表的非正常用户发帖的目的是将影片炒火或者贬低,评分大都集中在高分区段和低分区段,中性评论很少。使用这样的办法可以过滤掉大部分僵尸和水军账号。所述用户对任何电影的历史评论数据4包括评价对象的名称、评价对象的种类、评价内容、做出评价的时间、评价内容的字符数量、评价的次数。C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息6,选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用本文档来自技高网...

【技术保护点】
特定观影群体数据的提取方法,其特征在于包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库(1)以及与之具有映射关系的用户属性信息数据库(2);B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3);然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除;C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;D)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户(8);F)重复账号的合并,对于特定群体的活跃用户,比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;G)使用样本用户数据库的信息替换用户个人信息库中的信息,重复上述步骤C)——步骤F),直到步骤F)无法找到重复账号;H)获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,全体特定群体的活跃用户的量化信息表构成量化信息库(9)。...

【技术特征摘要】
1.特定观影群体数据的提取方法,其特征在于包括如下步骤:A)数据的准备,从系统数据库或者网站抓取用户的个人信息及用户的属性信息,分别建立用户信息数据库(1)以及与之具有映射关系的用户属性信息数据库(2);B)非正常用户的过滤,首先从用户属性信息数据库读取用户的属性,提取其中符合特定群体属性的数据,同时从用户信息数据库提取与之对应的用户个人信息,得到特定群体的用户个人信息库(3);然后在电影网站以及电影社交媒体上抓取该特定群体的用户个人信息库中每一用户对任何电影的历史评论数据(4),采用正态分布原则识别正常用户和非正常用户,将历史评论数据符合正态分布原则的用户识别为正常用户,否则为非正常用户(5),并将非正常用户从特定群体的用户个人信息库中剔除;C)用户的标记,从网络资源中抓取特定群体的用户个人信息库中每一用户的社交对象的属性信息(6),选取其中符合特定群体属性的社交对象并统计数量,当统计的数量超过设定阈值的时候,将该用户标记为入选特定群体用户(7),重复该步骤,直到特定群体的用户个人信息库中的全部用户筛选完毕;D)用户状态的标记,从网络资源中获取入选特定群体用户的活动状态信息,选择其中活动状态符合活动规律的用户,将其标注为特定群体的活跃用户(8);F)重复账号的合并,对于特定群体的活跃用户,比对其用户个人信息,对于符合一致性判断标准的用户,定义为重复账号,将重复账号对应的多个特定群体的活跃用户合并为一个,直到全部特定群体的活跃用户对应的用户属性信息均符合单一性判断标准,并将这些特定群体的活跃用户信息存入样本用户数据库;G)使用样本用户数据库的信息替换用户个人信息库中的信息,重复上述步骤C)——步骤F),直到步骤F)无法找到重复账号;H)获取样本用户数据库中每一特定群体的活跃用户发布的电影评论信息,并将该电影评论信息的各种指标量化,得到该用户的量化信息表,全体特定群体的活跃用户的量化信息表构成量化信息库(9)。2.根据权利要求1所述特定观影群体数据的提取方法,其特征在于:所述用户的个人信息是用于识别用户身份的信息或者代码,包括用户名、账号、登录地址、IP号、身份识别号码、电话号码、税号、社会保险号中的一种或多种;所述用户的属性信息是指用于区分用户人群的特征信息,包括年龄、性别、职业、爱好、受教育程度、国籍、宗教信仰、党派团体、语种、血型、肤色中的一种或多种。3.根据权利要求1或2所述...

【专利技术属性】
技术研发人员:莫倩贾承斌张传文王恺
申请(专利权)人:北京网智天元科技股份有限公司
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1