倾向性分析的蚁群文本组合的处理方法技术

技术编号:4021685 阅读:254 留言:0更新日期:2012-04-11 18:40
一种互联网技术领域的倾向性分析的蚁群文本组合的处理方法,通过将倾向性分析放在文本组合的处理过程之中,同时应用蚁群算法对文本进行类别组合,即引入倾向性分析的蚁群文本组合处理方法,在完成文本类别智能归并的同时也做到了倾向性分析,以达到提高文本舆情分析效率和组合精确率的目的。

【技术实现步骤摘要】

本专利技术涉及的是一种互联网
的信息处理方法,具体是一种倾向性分析的 蚁群文本组合的处理方法。
技术介绍
随着网络信息技术的飞速发展,互联网成为最重要的大众传播媒体之一,正在全 方位、深层次地改变人们的生活方式,同时也为社会舆论和大众文化的传播带来了潜在的 安全问题,如在新疆乌鲁木齐“7. 5”打砸抢烧严重暴力犯罪事件中,境内境外不法分子正是 利用互联网进行虚假信息传播,颠倒是非,使不明真相者误信其说,从而引起大规模群众聚 集游行,导致严重社会后果,因此互联网舆情信息处理技术逐渐成为专家学者研究的热点。 在众多的信息媒介之中,文本信息占据着最重要的地位,文本舆情信息分析研究取得了一 定的进展。倾向性分析是舆情分析的内容之一,文本倾向性分析可以把文本信息分为正面、 负面和中立面三个方面。在已有的舆情分析方法中,一般是将网络上获取的文本先进行内 容上的区别归并,而后再单独进行倾向性分析。现有技术通过支持向量机对文本向量构造超平面,利用最小二乘法对得到的分类 超平面进行拟合,找出最优分类超平面,实现文本分类,这种方法需要构建超平面和找到最 优分类超平面,对待分类文本特征要求较高。经过对现有技术的文献检索发现,进一步检索发现,中国专利文献号CN1936887A, 记载了一种“基于类别概念空间的自动文本分类方法”,该技术将文本分类分为训练和分类 两个阶段,分别建立训练集类别概念空间的词语向量表示和待分类文档向量数据,依据待 分类文档向量中各分量的大小直接获得待分类文档的所属类别,此方法中用了大部分精力 构造类别概念空间的词语向量表示,但是并没有充分挖掘类别概念空间的词语向量表示的 处理文本信息的能力,不涉及倾向性分析,不能直接适用于舆情信息的分析和处理。由上述可以看出,针对舆情信息分析,现有技术中有以下可以改进第一就是将文 本内容进行智能分类和倾向性分析作为整体处理,这对于处理具有突发性极强特点的海量 舆情信息而言是有必要的,整体处理的优势是效率高;第二是提高文本内容组合方法的精 确度和效率,已经被应用的文本分类方法有基于决策树、基于统计、基于粗糙集、基于距离、 基于神经网络、基于遗传算法等诸多分类方法,但这些方法或者仅针对固定特征的文本,或 者本身尚存在不足。
技术实现思路
本专利技术针对现有技术存在的上述不足,提供一种倾向性分析的蚁群文本组合的处 理方法,本专利技术将倾向性分析放在文本组合的处理过程之中,同时对文本进行组合处理,在 完成文本类别智能归并的同时也做到了倾向性分析,提高文本舆情分析效率和组合的精确度。本专利技术是通过以下技术方案实现的,本专利技术包括以下步骤4第一步,对标准库作倾向性分析对标准库的特征词集作倾向性分析,每一类别均 分为正面、负面和中立面三个特征子类,即将原A类别的特征词集分为A+、A-和Ao三个子 类,原B类别的特征词集分为B+、B-和Bo三个子类,以此论推。所述的标准库,是用来训练蚂蚁的特征词库,里面包含了用来判断话题种类的特 征词。所述的特征词集,是由能表征文本内容的特征词构成的集合。所述的特征子类是指正面、负面和中立面,是指特征词的肯定、否定和中立或者 褒扬、贬损和中立的特性。所述的倾向性分析,即对主观性特征词所表示的倾向性意见做出肯定/否定/中 立或者褒扬/贬损/中立的判断,利用已有的褒贬义词典判定词典中已有的特征词的倾向 性,利用同义词词库判定与褒贬义词典中同义词的倾向性,利用语义分析技术判定其他未 知词及呈现多倾向性特征词的倾向性。所述的特征子类,包括倾向性特征词和原类别主题词,即除了包括观点性的倾向 性特征词外,还包括每类的主题相关特征词。第二步,初始化参数并将信息装入蚂蚁初始化文本处理方法中用到的阈值参数, 并将A+、A-和Ao以及B+、B-和Bo等特征子类分别装入蚂蚁,每只蚂蚁只携带一个子类的 特征词,蚂蚁个数大于标准库中子类别个数。所述蚂蚁装入的信息,包括本蚂蚁所携带的子类别号和子类别特征词集。第三步,应用蚁群算法进行处理1)将待处理文本经过分词、特征选择与提取等预处理后散置在平面上,让蚂蚁在 这些节点上爬行;2)计算蚂蚁当前所在文本特征词向量与其携带特征词向量的相似度。每只蚂蚁对 当前节点的处理是,若相似度大于阈值a,则对该节点做出类别标记;若相似度不大于阈 值a,则进入选择下一个爬行节点。3)蚂蚁在选择下一个爬行节点时,先计算周围未爬行节点的相似度,遇到第一个 相似度大于阈值a的节点则转步骤4)。若与所有未爬行的节点的相似度均不大于阈值a, 则此只蚂蚁对所有结节已遍历完,结束迭代;4)标记类别,并更新信息素,即和上一个爬行节点通道路;5)转入3)进入选择下一个节点。所述的相似度,是指文本间相似程度的一个统计量,如果两个文本间相似度为1, 则说明两文本对象完全相同,如果相似度为0,则说明两文本没有相似之处。在内容判别方 法中,相似度是衡量两文本所属类别的相关度。相似度计算公式为 其中,Di=(知,知,知,......),Di= (dli,d2i,d3i,......)为需要计算的文本,dki、dkJ表示关键词k发生在文本中的频率权重;所述的类别标记,即每一只蚂蚁对当前所在节点标上它所携带的子类别信息,对 其他蚂蚁已经做过类别标记的节点的处理方法是对属于不同类(A、B、C类等)的节点要 做类别标记和更新信息素,属于不同子类(A+、A-*Ao,B+、B-和Bo等)而属于同一类的节点则直接跳过。第四步,处理结果此时可以得到内容属别结果,装有A+、A_和Ao类特征词集的所 有蚂蚁所连通的文本节点均为A类舆情信息,并且这些信息分别为正面的、负面的和中立 面的,对B、C、D等其他类别的结果同理可得。所述方法中的文本节点,以特征词向量表示, 同时节点在蚂蚁遍历的过程中储存蚂蚁对其已作的类别标志和连通信息,在所有蚂蚁迭代 结束后将具有同类别的节点链聚合即得到处理结果,由此得到的结果既具有类别区分度, 又具有倾向性区分度。与现有技术相比,本专利技术效果在于1)将文本组合和倾向性分析两步处理合二为一,提高处理效率。2)组合标准库的特征词相比于更新速度快、突发性强的舆情信息而言是相对稳 定的,因此对组合标准库的特征词进行倾向性分析比对舆情信息文本做倾向性分析更为高 效,只需在每次标准库更新后进行。3)由于同类特征库的特征词间具有一定的相关性,可以用语义分析判定可能呈现 多倾向性的特征词的倾向性,并且在组合过程中度量的尺度是文本特征向量的相似度,这 样就避免了运用词语判定文本倾向性的片面性。利用蚁群算法的优势,同时由于组合处理前将特征词集分为子类,允许相对高的 特征词维数,因此做到了兼顾精确度和效率。附图说明图1为本专利技术流程示意图。 具体实施例方式下面对本专利技术的实施例作详细说明,本实施例在以本专利技术技术方案为前提下进行 实施,给出了详细的实施方式和具体的操作过程,但本专利技术的保护范围不限于下述的实施 例。如图1所示,本实施例包括以下步骤第一步将用于组合处理的标准库中的特征词集作倾向性分析,利用褒贬义词典 判定词典中已有的特征词的倾向性,利用同义词词库判定与褒贬义词典中同义词的倾向 性,利用语义分析技术判定其他未知词及呈现多倾向性特征词的倾向性。这样就把每个类 别的特征词集分为正面、负面和中立本文档来自技高网
...

【技术保护点】
一种倾向性分析的蚁群文本组合的处理方法,其特征在于,包括以下步骤:第一步,对标准库作倾向性分析:对标准库的特征词集作倾向性分析,每一类别均分为正面、负面和中立面三个特征子类,即将原A类别的特征词集分为A+、A-和Ao三个子类,原B类别的特征词集分为B+、B-和Bo三个子类,以此论推,第二步,初始化参数并将信息装入蚂蚁:初始化文本处理方法中用到的阈值参数,并将A+、A-和Ao以及B+、B-和Bo等特征子类分别装入蚂蚁,每只蚂蚁只携带一个子类的特征词,蚂蚁个数大于标准库中子类别个数,第三步,应用蚁群算法进行处理:步骤1)将待处理文本经过分词、特征选择与提取等预处理后散置在平面上,让蚂蚁在这些节点上爬行;步骤2)计算蚂蚁当前所在文本特征词向量与其携带特征词向量的相似度;步骤3)每只蚂蚁对当前节点的处理是,若相似度大于阈值α,则对该节点做出类别标记;步骤4)若相似度不大于阈值α,则进入选择下一个爬行节点;步骤5)蚂蚁在选择下一个爬行节点时,先计算周围未爬行节点的相似度,遇到第一个相似度大于阈值α的节点则转步骤4);步骤6)若与所有未爬行的节点的相似度均不大于阈值α,则此只蚂蚁对所有结节已遍历完,结束迭代;步骤7)标记类别,并更新信息素,即和上一个爬行节点通道路;步骤8)转入步骤3)进入选择下一个节点;第四步,处理结果:此时可以得到内容属别结果,装有A+、A-和Ao类特征词集的所有蚂蚁所连通的文本节点均为A类舆情信息,并且这些信息分别为正面的、负面的和中立面的,对B、C、D等其他类别的结果同理可得,所述方法中的文本节点,以特征词向量表示,同时节点在蚂蚁遍历的过程中储存蚂蚁对其已作的类别标志和连通信息,在所有蚂蚁迭代结束后将具有同类别的节点链聚合即得到处理结果,由此得到的结果既具有类别区分度,又具有倾向性区分度。...

【技术特征摘要】

【专利技术属性】
技术研发人员:李建华张月国李生红李燕李海燕
申请(专利权)人:上海交通大学
类型:发明
国别省市:31[中国|上海]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1