本发明专利技术公开了一种网络舆情分析方法和装置。所述网络舆情分析方法包括:从互联网获取网络舆情分析的目标网页;对所述目标网页中的文本进行分词;利用统计的算法从分词的结果中获取目标网页的文本特征词;根据预先训练的正负面词词典将所述文本特征词归类为正面文本特征词和负面文本特征词;根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。本发明专利技术公开的网络舆情分析方法和装置提高对网络舆情进行倾向性分析的效率。
【技术实现步骤摘要】
网络舆情分析方法和装置
本专利技术涉及自然语言处理
,尤其涉及网络舆情分析方法和装置。
技术介绍
在互联网高度发展的今天,网络舆情分析因为其网络舆情信息获取的快捷和准确,内容分析的确定,舆情响应的及时,已经发展为网络舆情分析的最为重要的手段。在网络舆情分析技术中,倾向性分析并不关注舆情分析的应用领域,仅用于对网络舆情的倾向性进行判断。倾向性分析又可以被分为基于语气词标注的倾向性分析,以及基于机器学习的倾向性分析。基于语气词标注的方法严重依赖于标注专家且不利用训练样本,其分类精度往往不如基于机器学习的方法。而现有的基于机器学习的倾向性分析方法又取决于训练集的大小与质量。由于已有的标注语料库的规模都很小,因而这类有监督的倾向性分析方法的效果仍然难以保证。
技术实现思路
有鉴于此,本专利技术提出一种网络舆情分析方法和装置,以提高对网络舆情进行倾向性分析的效率。第一方面,本专利技术实施例提供了一种网络舆情分析方法,所述方法包括:从互联网获取网络舆情分析的目标网页;对所述目标网页中的文本进行分词;利用统计的算法从分词的结果中获取目标网页的文本特征词;根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词;根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。第二方面,本专利技术实施例提供了一种网络舆情分析装置,所述装置包括:目标网页获取模块,用于从互联网获取网络舆情分析的目标网页;文本分词模块,用于对所述目标网页中的文本进行分词;文本特征词获取模块,用于利用统计的算法从分词的结果中获取目标网页的文本特征词;文本特征词归类模块,用于根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词;网页类别判定模块,用于根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。本专利技术实施例提供的网络舆情分析方法和装置,通过获取目标网页的文本特征词,根据正负面词典将文本特征词分为正面文本特征词和负面文本特征词,根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页,实现了准确、高效的对网络舆情进行倾向性分析。【附图说明】通过阅读参照以下附图所作的对非限制性实施例所作的详细描述,本专利技术的其它特征、目的和优点将会变得更明显:图1是本专利技术第一实施例提供的网络舆情分析方法的流程图;图2是本专利技术第二实施例提供的网络舆情分析方法的流程图;图3是本专利技术第三实施例提供的网络舆情分析装置的结构图。【具体实施方式】下面结合附图和实施例对本专利技术作进一步的详细说明。可以理解的是,此处所描述的具体实施例仅用于解释本专利技术,而非对本专利技术的限定。另外还需要说明的是,为了便于描述,附图中仅示出了与本专利技术相关的部分而非全部内容。图1示出了本专利技术的第一实施例。图1是本专利技术第一实施例提供的网络舆情分析方法的流程图。参见图1,所述网络舆情分析方法包括:步骤S110,从互联网获取网络舆情分析的目标网页。民众通过网络所表达的群体性的情绪、态度、意见与要求等形成了网络舆情。网络舆情分析就是通过对网络上各种言论进行分析,得出民众对每个焦点事件或者公众人物的普遍观点和认识。互联网上的言论是以网页的形式表现出来的。因此,对网络舆情进行分析,首先需要获取网络舆情分析的目标网页。在本实施例中,网络舆情分析的目标网页应该是以文本为主要内容的网页。优选的,可以对网页中文本字符的数量设置下限,来获取网络舆情分析的目标网页。优选的,可以通过指定站点或者域名来限制网络舆情分析的目标网页的范围。例如,可以指定新浪网或者以“.com”为后缀的网络站点进行网络舆情分析。步骤S120,对所述目标网页中的文本进行分词。在本实施例中,词是进行网络舆情分析倾向性判断的基本单位。在获取目标网页后,对目标网页中的文本进行分词处理,以便参照预先训练的正负面词词典对所述目标网页进行倾向性判断。优选的,首先按照标点符号将目标网页中的文本分成短句。将目标网页的文本分成短句所依照的标点符号包括逗号、句号、问号、感叹号以及分号。将目标网页中的文本分成短句后,按照分词算法对已经分好的短句进行分词。分词过程也被称为切词过程。优选的,利用正向迭代最细粒度切分算法对短句进行分词。步骤S130,利用统计的算法从分词的结果中获取目标网页的文本特征词。在本实施例中,采用从目标网页的文本中提取文本特征词,对提取的文本特征词进行倾向性分析,并用对文本特征词进行倾向性分析的结果代表目标网页的倾向性的技术方案。在本实施例中,采用统计的算法从分词的结果中提取文本特征词。优选的,利用词频-倒排文档频率(TF-1DF)算法从分词的结果中提取文本特征词。根据TF-1DF算法,网络舆情分析主机首先计算分词得到的每个词在目标网页中的词频(TF),然后计算每个词在目标网页中的倒排文档频率(IDF),用一个词的词频乘以该词的倒排文档频率,得到该词的权重,最后以权重的取值排最大的若干个词为文档特征ο步骤S140,根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词。在本实施例中,所述正负面词分类器是预先训练得到的。所述训练的正负面词分类器能够按照输入的词的语气属性将输入的词分为正面词和负面词。在提取目标网页的文本特征词后,利用所述正负面词分类器,将提取的文本特征词归类为正面文本特征词和负面文本特征词。需要说明的是,对正负面词分类器的训练过程是利用海量的训练词数据对所述正负面词分类器进行训练,其中,所述训练词数据是根据训练词的语气属性被标注为正面训练词和负面训练词的训练词数据。步骤S150,根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。在将目标网页的若 干文本特征词归类为正面文本特征词和负面文本特征词后,网络舆情分析主机根据所述文本特征词的归类结果判断所述目标网页为正面舆情网页或负面舆情网页。优选的,网络舆情分析主机可以根据被归类为正面文本特征词与负面文本特征词的个数多少来判定所述目标网页为正面舆情网页或负面舆情网页。如果一个目标网页的文本特征词中较多的被归类为正面文本特征词,则所述目标网页被判定为正面舆情网页;如果一个目标网页的文本特征词中较多的被归类为负面文本特征词,则所述目标网页被判定为负面舆情网页。优选的,网络舆情分析主机还可以各个文本特征词在所述目标网页中的权重值来判定所述目标网页为正面舆情网页或负面舆情网页。如果一个目标网页的正面文本特征词的权重值的和大于该目标网页的负面文本特征词的权重值的和,则所述目标网页被判定为正面舆情网页;反之,则所述目标网页被判定为负面舆情网页。本实施例通过从网络舆情分析的目标网页中获取文本特征词,根据预先训练的正负面词词典将文本特征词归类为正面文本特征词和负面文本特征词,并根据所述文本特征词的归类结果将所述目标网页判定为正面舆情网页或者负面舆情网页,利用机器学习的方法对网络舆情的倾向性进行判断,提高了对网络舆情进行倾向性分析的效率。图2示出本专利技术的第二实施例。图2是本专利技术第二实施例提供的网络舆情分析方法的流程图。所述网络舆情分析方法以上述实施例为基础,进一步的,所述方法还包括:在从互联网获取网络舆情分析的目标网页之前,利用支持向量机SVM算法训练正负本文档来自技高网...
【技术保护点】
一种网络舆情分析方法,其特征在于,包括:从互联网获取网络舆情分析的目标网页;对所述目标网页中的文本进行分词;利用统计的算法从分词的结果中获取目标网页的文本特征词;根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词;根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。
【技术特征摘要】
1.一种网络舆情分析方法,其特征在于,包括: 从互联网获取网络舆情分析的目标网页; 对所述目标网页中的文本进行分词; 利用统计的算法从分词的结果中获取目标网页的文本特征词; 根据预先训练的正负面词分类器将所述文本特征词归类为正面文本特征词和负面文本特征词; 根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页。2.根据权利要求1所述的方法,其特征在于,在从互联网获取网络舆情分析的目标网页之前,还包括: 利用支持向量机SVM算法训练正负面词分类器。3.根据权利要求1或2所述的方法,其特征在于,对所述目标网页的文本进行分词包括: 利用正向迭代最细粒度切分算法对所述目标网页的文本进行分词。4.根据权利要求1或2所述的方法,其特征在于,利用统计的算法从分词的结果中获取目标网页的文本特征词包括: 利用词频-倒排文档频率TF-1DF算法从分词的结果中获取目标网页的文本特征词。5.根据权利要求1或2所述的方法,其特征在于,根据所述文本特征词的归类结果判定所述目标网页为正面舆情网页或负面舆情网页包括: 根据所述文本特征词被归为正面文本特征词及负面文本特征词的个数和/或各文本特征词在所述目标网页中的权重,将所述目标网页判定为正面舆情网页或负面舆情网页。6.一...
【专利技术属性】
技术研发人员:林忠义,
申请(专利权)人:北京锐安科技有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。