海量文本中企业行为或事件的抽取方法技术

技术编号:15260322 阅读:97 留言:0更新日期:2017-05-03 13:08
本发明专利技术涉及数据挖掘领域,提供一种海量文本中企业行为或事件的抽取方法,该方法包括:数据预处理;词表征;事件向量计算;事件提取分类。本发明专利技术提出的技术方案使用向量表示事件和微博,所以基于事件的相似度,本发明专利技术能够有效地计算相似度和分类一条新的微博数据。同时,本发明专利技术检测微博事件的精确度、召回率、和F值要远优于现有技术中的方法。

Method for extracting enterprise behavior or event in massive text

The invention relates to the field of data mining, and provides a method for extracting an enterprise behavior or event in a large amount of text. The technical proposal of the invention uses the vector to represent the event and the micro-blog, so based on the similarity of the event, the invention can effectively calculate the similarity and classify a new micro-blog data. At the same time, the invention detects the accuracy, recall rate and F value of the micro-blog event much better than the method in the prior art.

【技术实现步骤摘要】

本专利技术属于数据挖掘领域,特别涉及一种海量文本中企业行为或事件的抽取方法
技术介绍
随着信息技术和计算机科学的飞速发展,社交媒体(又称社会化媒体)展示出巨大的潜力,以微博为例,普通用户可以在平台上进行关注、点赞、分享、转发等行为,而许多企业更是充分利用官方微博进行信息发布、营销推广、粉丝互动等,从海量数据中挖掘商业信息,从而制定出更好的商业策略,同时企业的官方微博也包含了企业的相关行为信息,这些行为信息同样具有潜在的商业价值和应用研究价值,因此从海量数据中提取企业行为信息并将这些应用到商业领域是一件非常有意义的研究主题。最近几年,越来越多的企业利用社交媒体平台发布、获取信息,以及沟通、合作、建立关系,同时也有很多学者研究企业微博,然而,大多数学者关注于企业微博的商业价值、企业微博的营销推广对用户的影响、以及影响企业营销的因素;仅仅少数的学者通过数据挖掘提取企业行为,但是选择分类方法效果并不理想。由于微博提供了丰富的、及时的企业微博信息,这也可用于研究企业微博信息与企业当前情况的影响关系,同时,这些组织的企业行为信息可以用于商业战略制定、粉丝关系维系以及预测企业未来方向等,比如,趋势预测、内容推荐等。然而,在虚拟的社交媒体中确定企业事件,提取企业行为,仍然存在一些挑战,主要包括以下两个问题,第一,数据存在噪音、且形式种类多样;第二,许多信息掺杂多个主题,分类器难以确定标签。
技术实现思路
【要解决的技术问题】本专利技术的目的是提供一种海量文本中企业行为或事件的抽取方法,以有效的从海量数据中提取企业的行为标签。【技术方案】本专利技术是通过以下技术方案实现的。本专利技术涉及一种海量文本中企业行为或事件的抽取方法,其包括以下步骤:A、数据预处理从网络中获取目标数据,并将这些数据内容进行预处理形成数据集;B、词表征将预处理形成的数据集中的单词映射到k维的空间向量中,k为预设的维度范围;C、事件向量计算从预处理后的数据集中抽取动词序列,计算所有动词序列的平均词向量,人工标注若干条种子标签,计算同一标签相同事件的平均种子向量;D、事件提取分类通过计算剩余数据集和事件向量的相似度来确定每一条微博数据记录的分类。作为一种优选的实施方式,所述步骤B将预处理后形成的数据集放入word2vec模型中训练得到k维空间向量。作为另一种优选的实施方式,所述步骤C中采用cosine相似度计算法计算剩余数据集和事件向量的相似度。作为另一种优选的实施方式,所述步骤A中的预处理至少包括分词处理和数据清理。作为另一种优选的实施方式,所述分词处理包括通过文本中的句号、问号和感叹号进行文本切分。作为另一种优选的实施方式,所述数据清理包括删除一字词、停用词、以及删除重复的记录。作为另一种优选的实施方式,所述步骤A中的目标数据采用爬虫技术爬取得到。下面将对本专利技术进行详细说明。企业的官方微博通过社交媒体平台发布相关信息,这些企业的微博记录大部分都包含了企业的事件。由于微博的140字的长度限制(现已取消),本专利技术假设每一条微博记录最多包含一类事件,即假设企业行为事件有n类,表示为E={e1,e2,…,en本文档来自技高网...
海量文本中企业行为或事件的抽取方法

【技术保护点】
一种海量文本中企业行为或事件的抽取方法,其特征在于包括以下步骤:A、数据预处理从网络中获取目标数据,并将这些数据内容进行预处理形成数据集;B、词表征将预处理形成的数据集中的单词映射到k维的空间向量中,k为预设的维度范围;C、事件向量计算从预处理后的数据集中抽取动词序列,计算所有动词序列的平均词向量,人工标注若干条种子标签,计算同一标签相同事件的平均种子向量;D、事件提取分类通过计算剩余数据集和事件向量的相似度来确定每一条微博数据记录的分类。

【技术特征摘要】
1.一种海量文本中企业行为或事件的抽取方法,其特征在于包括以下步骤:A、数据预处理从网络中获取目标数据,并将这些数据内容进行预处理形成数据集;B、词表征将预处理形成的数据集中的单词映射到k维的空间向量中,k为预设的维度范围;C、事件向量计算从预处理后的数据集中抽取动词序列,计算所有动词序列的平均词向量,人工标注若干条种子标签,计算同一标签相同事件的平均种子向量;D、事件提取分类通过计算剩余数据集和事件向量的相似度来确定每一条微博数据记录的分类。2.根据权利要求1所述的海量文本中企业行为或事件的抽取方法,其特征在于所述步骤B将预处理后形成的数据集放入word2vec模型中训练得到k维空间向量。3.根据权利要求...

【专利技术属性】
技术研发人员:袁华钱宇邓雄文邓文君
申请(专利权)人:电子科技大学
类型:发明
国别省市:四川;51

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1