本发明专利技术涉及一种金融文本情感分析方法,操作步骤如下:第一,构建金融情感词典。第二,文本分句,分词,生成词语文本,词性和词语情感值的分词序列向量。第三,修正否定词、程度词、单独概念词、转折词以及规范词等对情感值的影响。第四,用情感产生函数计算的乘法情感模型和文章词语加法情感模型的加权组合计算融合的金融文本情感值。第五,兼容[0,2]和[-1,1]表达情感值。本发明专利技术针对不同的情感环境,运用一个输入层为词语,隐藏层为情感产生函数表达的句子情感层,输出层为一个神经元的神经网络计算金融情感。
【技术实现步骤摘要】
本专利技术涉及自然语言处理,人工智能领域,具体涉及。
技术介绍
随着互联网的普及,人们的生活也发生了很大的变化。网络逐渐成为社会中各种信息的载体,特别是随着中国经济的不断发展,股票、国债等金融产品逐渐成为人们讨论的热点话题,越来越多的人通过网络获取金融、财经、其它经济新闻及相关信息。Web文本也已成为我们获取信息、发表观点和交流情感的重要来源。越来越多的人喜欢在网上交流他们的意见,因而网络上存在大量包含倾向性的文本信息。—般的情感分析是采用监督的方式对文本中的情感进行识别,提取文本中的情感词进行极性判断,找出文本中对应的情感词特征向量。通过对这些已知样本的训练,建立分类模型,对新的文本信息进行情感倾向判断。监督模型多采用K最邻近结点算法(KNN)、朴素贝叶斯和支持向量机(SVM)、最大熵的情感分类模型,其中涉及到情感词的提取和极性判断,这种方法与情感词词典的构建有很大关系,需要完备的情感词词典。所建立的分类模型和具体领域有很大关系,对某一个领域构建的模型通常对另外一个领域不太适用,而且情感词词典的构建费时费力。新闻消息中存在一定的噪音,对训练样本的质量有影响,使得训练出来的模型容易受到噪音影响,并最终影响分类的准确度和召回率。非监督模型的研究不是很多,主要有:用HowNet对中文词语语义进行情感倾向计算,用句法结构和依存关系对中文句子语义进行情感分析等等。
技术实现思路
大多数网络信息往往只是将相关新闻报道或信息展现给用户,通过人工的方式识别海量新闻影响趋势是一件非常繁琐和困难的事情,因此本专利技术用情感挖掘技术,基于监督技术,结合非监督技术对文本进行一定的智能理解,分析人们对指定文本中描述事件的金融情感倾向。本文提供了一种金融情感分析方法,用于判断金融消息或新闻文本情感倾向,帮助用户更好的掌握相关个股或者公司的动向。计算金融新闻的情感值来判断对相关公司的影响好坏,为用户提供快速的情感导向分析工具。在一篇文本的情感分析中,若得到的情感值大于1+ ε,则表示该新闻产生的是积极正面的影响;若情感值小于1- ε,则表示该新闻产生的是消极负面的影响;若情感值大于等于1- ε并且小于等于1+ ε,则表示该新闻产生的是中性的情感。ε为事先确定的小于I的正数,如0.01,0.02,0.05等等。上述专利技术包括如下步骤:步骤1:构建金融情感词典。包括构建包含正面情感倾向词语的正面情感词典和包含负面词语的负面情感倾向情感词典,构建词义情感需根据语言环境判定的不确定情感词典,构建修饰程度词语的程度词典,构建用于确定否定词语的否定词典,构建表示唯一的单独概念词典,构建转折词词典,构建规范词词典等。程度词格式如下(部分词项):词项,程度值伟大,1.5最好,1.5非常,1.4上等,1.3好,1.2较好,1.1略微,0.95比较,0.9过头,0.8过分,0.7惨,0.6太过分,0.5词项从上到下依褒义向贬义排列,最大程度向最低程度排列。如果程度词修饰正面情感词,则修饰后的情感值为程度值X情感词情感值,程度值大于1.0的程度词修饰正面情感词可扩大正面情感,程度值小于1.0的程度词修饰正面情感词可缩小正面情感。如果程度词修饰负面情感词,则大部分修饰后的情感值为情感词情感值+大于1.0的程度值或者情感词情感值X小于1.0的程度值。程度值的值域,对应情感值的值域。步骤2:文本预处理。用文本分析工具对每一个待处理的文本进行分句,并对每个句子进行分词处理,得到分词后的包含词语文本、词性和情感值的分词序列向量。步骤3:用词语情感的乘法和句子情感的加法组成的乘法情感模型计算整篇文本的情感值,具体过程如下:步骤301:用构建好的金融情感词典确定词语的情感值。每类词语一个词典,读出词典文件后将各个词项放入各词典的bloom过滤器中,加快访问速度。步骤302:设定当前词的情感值。查询当前词属于哪一个情感词典,如果当前词只属于正面情感词典,则置当前词的情感值为Vp,大于1,一般置为1.5。只属于负面情感词典,则置当前词的情感值为Vn,小于1,一般置为0.5。只属于不确定情感词典,则置当前词的情感值为Vu,小于1,大于0.9,一般置为0.95。如果不确定情感词表示的负面情感较多可设为0.9,正面较多可设为I。步骤303:句子情感值的计算需要修正否定词、程度副词、单独概念词、转折词以及规范词的影响。为此对句子的分词序列进行扫描,将句子的开始词语到当前词语放入一个列表,则句子的具体修正过程为:第一步:修正有否定词修饰的情感词的情感值。a.计算扫描集中的否定词集。b.如果否定词个数大于N_ ( 一般为I)并且小于N_ ( 一般为10),并且前两个否定词位置差大于Ndlff (—般为I),并且第一个否定词位置小于Nfret (可调,一般为6)。则当前词语的情感值受否定词影响,应将当前词语的情感值反转,即修正情感值等于原情感值的倒数。c.如果否定词个数等于1,并且否定词位置小于Nfret(可调,一般为6),与当前词之间没有表唯一的词语。则当前词语的情感值受否定词影响,应将当前词语的情感值反转。d.如果否定词个数等于1,并且否定词位置小于Nfret(可调,一般为6),与当前词之间有表唯一的词语。那么,如果不包含“没有”开头的否定词,并且已计算的情感值大于1,则修正情感值=aX已计算的情感值,a>l.0,可调,可取1.2 ;如果已计算的情感值小于1,则修正情感值=bX已计算的情感值,b〈l.0,可调,可取0.8 ;如果包含“没有”开头的否定词,则情感值反转。如下句所示:公司不是只有一个盈利(亏损)项目。否定词为“不是”,表唯一概念的词语是“只有一个”,否定了 “只有一个”,通常理解为有多个,应该放大正面情感值或缩小负面情感值,而不是反转情感值。第二步:修正有程度词修饰的情感词的情感值。a.当前程度词之前是负面情感词。如果程度词程度值大于1,则修改当前程度词情感值为程度值的倒数,否则修改为程度值+0.05。b.当前程度词之前是正面情感词。如果不是a的情况(正面情感词当前程度词之间可能有负面情感词),则修改当前程度词情感值为程度值,否则为I。c.当前词之前至少有一个程度词。最近的程度词不是否定词,距离当前词小于等于2。最近程度词不是情感词或者是不确定情感词并且前一次扫描不是a或b的情况,则存在下列情况:如果最近程度词程度值大于I并且当前词情感值大于1,修正当前词情感值=程度值X已计算当前词情感值。如果最近程度词程度值大于I并且当前词情感值小于1,修正当前词情感值=已计算当前词情感值+程度值。<当前第1页1 2 3 4 本文档来自技高网...
【技术保护点】
一种金融文本情感分析方法,其特征在于包括如下步骤:1)构建金融情感词典,包括正面情感词典,负面情感词典,不确定情感词典,程度词典,否定词典,单独概念词典,转折词词典,规范词词典。2)文本预处理。对文本分句,对句子分词,生成包含词语文本,词性和情感值的分词序列向量。3)乘法情感模型。用词语情感的乘法和句子情感的加法组成的乘法情感模型计算整篇文本的情感值。4)加法情感模型。以情感词语数量表示为文章情感值的加法情感模型计算整篇金融文本的情感值。5)融合情感值。用乘法情感模型和文章词语加法情感模型的加权组合计算融合的金融文本情感值。6)情感值兼容表达。情感值可以表示为[0,2]的实数,也可以表示为[‑1,1]的实数。
【技术特征摘要】
【专利技术属性】
技术研发人员:雷涛,邵明东,吕慧,
申请(专利权)人:天云融创数据科技北京有限公司,
类型:发明
国别省市:北京;11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。