一种面向交互文本的话题识别方法技术

技术编号:8980753 阅读:209 留言:0更新日期:2013-07-31 22:50
本发明专利技术公开了一种面向交互文本的话题识别方法,按照三个大步骤实施:I、词语语义相关度计算阶段,采用了一种基于知识词典和主题模型相结合的词语相关度计算方法;II、句子相关度计算阶段,分别计算句子在关键词特征、词语语义特征、依存句法特征三个层面的相关度,将三个特征融合后计算句子间相关度;III、交互文本话题识别阶段,采用一种基于句子相关度计算的话题识别方法,识别出交互文本中不同话轮是否属于同一话题。

【技术实现步骤摘要】

本专利技术属于信息
,涉及一种信息检索、抽取与管理以及自然语言处理技术,尤其是。
技术介绍
随着互联网技术应用的日趋广泛,基于交互式文本的网络应用不断发展,已经成为人们获取和发布信息的主要手段之一,例如网络聊天室、微博等典型的交互文本应用。这些文本中蕴含着大量丰富的信息资源,如何实现对这些交互文本应用中发生的事件按话题内容查找、组织和利用,成为当务之急。比如自动识别网络学习者的情感变化事件,从而调节其学习效率;识别各种社会敏感的突发事件或者新事件等。申请人经过查新,未检索本专利技术相关的专利。但是找相似的几篇文章,分别是:I)基于频繁模式的消息文本聚类研究。胡吉祥,中国科学院研究生院(计算技术研究所)。2)用于聊天词汇的权重计算方法CDTF_IDF。高鹏,曹先彬,计算机仿真,2007.12。 文章I)作者发现了频繁模式(称之为关键频繁模式)包含了词序和邻近上下文等更多的语义信息对交互文本特征抽取的关键性,提出了一种无指导的基于频繁模式的特征选择算法,应用于文本分类和聚类。文章2)主要针对聊天室的内容监控应用,通过分别离线计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计算聊天数据的词汇权重,从而达到识别聊天室主题的目的。根据上述查新可知:首先现有技术的研究对象为以整个新闻或者段落;现有技术识别的结果仅为整个新闻(事件)或段落是否属于哪一类主题,以及相关的新闻(事件)发生,即主题级的识别;在交互文本的特征表示方面,现有技术离线收集仅为当前新闻(事件)的词频特征进行计算。现有方法以无监督的概率潜在语义分析方法为主。
技术实现思路
本专利技术的目的在于克服上述现有技术的缺点,提供,该方法针对话轮级别,提出了基于多特征融合的句子相关度算法,并将其应用于话题识别过程中,采用发现词语语义特性和句子结构特性,引入词语语义特征和依存句法特征来实现话题识别。本专利技术的目的是通过以下技术方案来解决的:这种面向交互文本的话题识别方法,包括以下步骤:第一步:词语相关度计算:(I)基于知网,计算词语在知识词典层面的相关度基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF ;对于词语W1和w2,如果与W1对应的有m个概念,分别为C11, C12, Clm, W2有η个概念,分别为C21, C22,..., C2n, Sw^Pw2的相关度为各个概念的相关度之最大值,也就是说:本文档来自技高网...

【技术保护点】
一种面向交互文本的话题识别方法,其特征在于,包括以下步骤:第一步:词语相关度计算:(1)基于知网,计算词语在知识词典层面的相关度基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF;对于词语w1和w2,如果与w1对应的有m个概念,分别为C11,C12,...,C1m,w2有n个概念,分别为C21,C22,...,C2n,设w1和w2的相关度为各个概念的相关度之最大值,也就是说:Rel(W1,W2)=maxi=1..m,j=1...nWposRel(C1i,C2j))其中,wPOS为词性相关权重系数,当概念词性相同时,wpos=1,当概念词性不同时,wpos=0.5;(2)采用PLSA主题模型计算词语在大规模语料统计层面的相关度用词语在某个主题中的共现率来计算关联程度;对于词语wi,wj,由PLSA模型得到主题在wi和wj上的概率分布向量为Vi=(pi1,pi2,pi3,...),Vj=(pj1,pj2,pj3,...),计算两个向量V1,V2之间距离,计算公式如下:L2(V1,V2)=Σi=1k(v1i-v2i)2;(3)主题模型与知识词典相融合的词语相关度计算假设两个词语的相关度为WordRele(A,B),通过知识词典计算得出的相关度为DicRele(A,B),通过主题模型计算得出的相关度为StatisRele(A,B),则:WordRele(A,B)=a*DicRele(A,B)+b*StatisRele(A,B)其中:a,b为调整系数,0<a,b<1,a+b=1;第二步,句子相关度计算阶段:(1)基于关键词特征的句子相关度计算对于两个句子Sen1和Sen2,抽取出的关键词分别为,w11,w12,...w1m与w21,w22,...w2n,formRele(Sen1,Sen2)表示句子在关键词特征层面的相关度;formRele(Sen1,Sen2)=2*SameWord(Sen1,Sen2)/(Len(Sen1)+Len(Sen2))其中,SameWord(Sen1,Sen2)为句子Sen1和Sen2中共同出现的关键词个数;Len(Sen1)、Len(Sen2)分别为句子Sen1和Sen2的关键词个数;(2)基于词语语义特征的句子相关度计算假设semanticRele(Sen1,Sen2)为句子Sen1和Sen2在词语语义特征层面的相关度,那么,semanticRele(Sen1,Sen2)=(Σi=1maim+Σi=1nbin)/2;其中:ai=max(s(w1i,w21),s(w1i,w22),...,s(w1i,w2n)),bi=max(s(w2i,w11),s(w2i,w12),...,s(w2i,w1m));s(wi,wj)为句子Sen1中词语wi和句子Sen2中词语wj在语义特征层面的相关度;(3)基于依存句法的句子相关度计算;对于句子Sen1和Sen2,在依存句法层面的相关度为:syntaxRele(Sen1,Sen2)=Σi=1nWiMax{PairCount1,PairCount2};其中,Wi为有效搭配对匹配的权重之和;PairCount1,PairCount2分别为句子Sen1,Sen2的有效搭配对数;(4)多特征信息的融合通过引入遗传算法的方式确定最优权重,将这关键词特征、词语语义特征、依存句法特征三个层面的信息融合起来,最后得到一个可靠、准确的句子相关度计算方法;多特征融合的形式化表示为如下公式:Rele(Sen1,Sen2)=a*formRele(Sen1,Sen2)+b*semanticRele(Sen1,Sen2)+c*syntaxRele(Sen1,Sen2)其中,Rele(Sen1,Sen2)为句子Sen1和句子Sen2的相关度;formRele(Sen1,Sen2)为句子Sen1和句子Sen2的在关键词层面的相关度;semanticRele(Sen1,Sen2)为句子Sen1和句子Sen2的在词语语义层面的相关度;syntaxRele(Sen1,Sen2)为句子Sen1和句子Sen2的在依存句法层面的相关度;a,b,c分别为对应特征的权重系数;第三步:面向交互文本的话题识别过程为:针对交互文本中话题的动态性、交叉性、稀疏性和发散性,设计基于第二步中句子相关度的话题识别算法,即选取聊天数据中的第一个话轮为第一个话题,对于后面的所有话轮分别计算其与已存在话题的句子相关度,然后和阈值进行比较,确定它是属于某一个已存在的话题还是属于一个新发起的话题,用此方法来进行话题的识别。...

【技术特征摘要】
1.一种面向交互文本的话题识别方法,其特征在于,包括以下步骤: 第一步:词语相关度计算: (1)基于知网,计算词语在知识词典层面的相关度 基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF ; 对于词语W1和w2,如果与W1对应的有m个概念,分别为C11, C12,Clm,w2有η个概念,分别为C21, C22,..., C2n,设W1和w2的相关度为各个概念的相关度之最大值,也就是说:2.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,第一步中步骤(O的概念的相关度计算过程为: 概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度;具体地,采用以下方式: (1)将任何义原或具体词与空值的相似度定义为一个小的常数δ; (2)对于实词概念的语义表达式,将其分成三个部分,然后计算两个表达式中对应每个部分的相关度; a)普通义原,将这一部分的相关度记为Rel1(C1, C2),按照如下步骤对其进行分组; `1.先把两个表达式的所有普通义原任意配对,计算出所有配对的义原相关度; .取相关度最大的一对,并将它们归为一组; ii1.在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组为止; b)关系义原,将这一部分的相关度记为Re...

【专利技术属性】
技术研发人员:陈妍杨扬朱海萍郑庆华田锋刘文强
申请(专利权)人:西安交通大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1