海量文本中企业行为或事件的抽取方法技术

技术编号：15260322 阅读：112 留言：0更新日期：2017-05-03 13:08

本发明专利技术涉及数据挖掘领域，提供一种海量文本中企业行为或事件的抽取方法，该方法包括：数据预处理；词表征；事件向量计算；事件提取分类。本发明专利技术提出的技术方案使用向量表示事件和微博，所以基于事件的相似度，本发明专利技术能够有效地计算相似度和分类一条新的微博数据。同时，本发明专利技术检测微博事件的精确度、召回率、和F值要远优于现有技术中的方法。

Method for extracting enterprise behavior or event in massive text

The invention relates to the field of data mining, and provides a method for extracting an enterprise behavior or event in a large amount of text. The technical proposal of the invention uses the vector to represent the event and the micro-blog, so based on the similarity of the event, the invention can effectively calculate the similarity and classify a new micro-blog data. At the same time, the invention detects the accuracy, recall rate and F value of the micro-blog event much better than the method in the prior art.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于数据挖掘领域，特别涉及一种海量文本中企业行为或事件的抽取方法。
技术介绍
随着信息技术和计算机科学的飞速发展，社交媒体(又称社会化媒体)展示出巨大的潜力，以微博为例，普通用户可以在平台上进行关注、点赞、分享、转发等行为，而许多企业更是充分利用官方微博进行信息发布、营销推广、粉丝互动等，从海量数据中挖掘商业信息，从而制定出更好的商业策略，同时企业的官方微博也包含了企业的相关行为信息，这些行为信息同样具有潜在的商业价值和应用研究价值，因此从海量数据中提取企业行为信息并将这些应用到商业领域是一件非常有意义的研究主题。最近几年，越来越多的企业利用社交媒体平台发布、获取信息，以及沟通、合作、建立关系，同时也有很多学者研究企业微博，然而，大多数学者关注于企业微博的商业价值、企业微博的营销推广对用户的影响、以及影响企业营销的因素；仅仅少数的学者通过数据挖掘提取企业行为，但是选择分类方法效果并不理想。由于微博提供了丰富的、及时的企业微博信息，这也可用于研究企业微博信息与企业当前情况的影响关系，同时，这些组织的企业行为信息可以用于商业战略制定、粉丝关系维系以及预测企业未来方向等，比如，趋势预测、内容推荐等。然而，在虚拟的社交媒体中确定企业事件，提取企业行为，仍然存在一些挑战，主要包括以下两个问题，第一，数据存在噪音、且形式种类多样；第二，许多信息掺杂多个主题，分类器难以确定标签。
技术实现思路
【要解决的技术问题】本专利技术的目的是提供一种海量文本中企业行为或事件的抽取方法，以有效的从海量数据中提取企业的行为标签。【技术方案】本专利技术是通过以下技术方案实现的。...

【技术保护点】
一种海量文本中企业行为或事件的抽取方法，其特征在于包括以下步骤：A、数据预处理从网络中获取目标数据，并将这些数据内容进行预处理形成数据集；B、词表征将预处理形成的数据集中的单词映射到k维的空间向量中，k为预设的维度范围；C、事件向量计算从预处理后的数据集中抽取动词序列，计算所有动词序列的平均词向量，人工标注若干条种子标签，计算同一标签相同事件的平均种子向量；D、事件提取分类通过计算剩余数据集和事件向量的相似度来确定每一条微博数据记录的分类。

【技术特征摘要】
1.一种海量文本中企业行为或事件的抽取方法，其特征在于包括以下步骤：A、数据预处理从网络中获取目标数据，并将这些数据内容进行预处理形成数据集；B、词表征将预处理形成的数据集中的单词映射到k维的空间向量中，k为预设的维度范围；C、事件向量计算从预处理后的数据集中抽取动词序列，计算所有动词序列的平均词向量，人工标注若干条种子标签，计算同一标签相同事件的平均种子向量；D、事件提取分类通过计算剩余数据集和事件向量的相似度来确定每一条微博数据记录的分类。2.根据权利要求1所述的海量文本中企业行为或事件的抽取方法，其特征在于所述步骤B将预处理后形成的数据集放入word2vec模型中训练得到k维空间向量。3.根据权利要求...

【专利技术属性】
技术研发人员：袁华，钱宇，邓雄文，邓文君，
申请(专利权)人：电子科技大学，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人