一种基于大数据的观点抽取方法技术

技术编号：12166505 阅读：97 留言：0更新日期：2015-10-08 01:31

本发明专利技术提出了一种大数据的观点抽取方法，所述方法包括：步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集；步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理，然后进行标点符号处理、表情字符处理和停用词处理，最后得到用于表示文本的特征项；步骤S300，话题抽取，基于预处理后的网络数据，从中抽取出话题；步骤S400，对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而确定对于话题的观点。本发明专利技术采用分布式的云计算方式，能够对大规模采集的各种网络数据进行挖掘、分析。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术设及数据处理领域，具体设及。
技术介绍
随着Web2. 0技术的发展，互联网发生翻天覆地的变化。互联网由静态网页和信息，转变成为人人参与的"群体智慧"的展示平台。通过博客、微博、BBS、SNS、新闻评论等，网民可W自由发布自己的观点想法和对任何事件进行评论。在一个网络互联的时代，任何的意见、想法都可能影响一大批人，形成网络舆论。现阶段越来越多的事件表明：网络舆论在影响社会舆论发展趋势，甚至已经作为一种主要社会舆论的方式。网民在网络上有意识或者无意识表达出来的民情民意，对社会热点问题的关注表达出的价值取向和观点越来越具有研究和参考价值。热点话题和热点事件的检测和提取成为近年话题检测与跟踪研究的分支之一，从互联网数据中，主要是新闻，博客，论坛，社交网站和捜索日志等数据中获取热点特征组或者与行为短语，进行抽象提取，从而得到热点话题。由于传统博客、微博和社交网站上存在与日俱增的话题和数据，热点话题可W提供给用户捜索关键词参考，例如，Bai化捜索引擎中的热点话题推荐，将获取的热点话题进行推荐，并能时时更新。该些无疑促使热点新闻成为舆论的焦点，广泛的影响大众的视线，引导大众舆论，一定程度上体现民众的社会政治态度。面对多元化的网络舆情表达诉求，倘若不加引导，负面的网络舆情将会对社会的公共安全造成一定的危害。综上所述，进行网络舆情分析，实时把控舆情态势，形成正面的网络舆情环境，对于构建社会主义和谐社会具有现实指导意义。但是目前针对互联网的基于文本观点挖掘与分类的方法还是不多，与即时的发现热点、分析处理并评估舆论的要...

【技术保护点】
一种基于大数据的观点抽取方法，包括：步骤S100，数据采集，基于分布式云计算方式对网络数据进行数据采集，所述数据采集是由网络爬虫来实现的；通过分布式存储设备存储采集的网络数据，所述分布式存储设备基于HDFS实现；步骤S200，数据预处理，对步骤S100采集的网络数据进行预处理，首先对采集的网络数据进行分词和词性标注处理，然后进行标点符号处理、表情字符处理和停用词处理，最后得到用于表示文本的特征项；步骤S300，话题抽取，基于预处理后的网络数据，从中抽取出话题；步骤S400，对话题的评论进行情感分析，得到话题的正向情感和负向情感，从而确定对于话题的观点。

【技术特征摘要】

【专利技术属性】
技术研发人员：肖会，
申请(专利权)人：成都鼎智汇科技有限公司，
类型：发明
国别省市：四川;51

全部详细技术资料下载我是这个专利的主人