【技术实现步骤摘要】
本专利技术属于信息
,涉及一种信息检索、抽取与管理以及自然语言处理技术,尤其是。
技术介绍
随着互联网技术应用的日趋广泛,基于交互式文本的网络应用不断发展,已经成为人们获取和发布信息的主要手段之一,例如网络聊天室、微博等典型的交互文本应用。这些文本中蕴含着大量丰富的信息资源,如何实现对这些交互文本应用中发生的事件按话题内容查找、组织和利用,成为当务之急。比如自动识别网络学习者的情感变化事件,从而调节其学习效率;识别各种社会敏感的突发事件或者新事件等。申请人经过查新,未检索本专利技术相关的专利。但是找相似的几篇文章,分别是:I)基于频繁模式的消息文本聚类研究。胡吉祥,中国科学院研究生院(计算技术研究所)。2)用于聊天词汇的权重计算方法CDTF_IDF。高鹏,曹先彬,计算机仿真,2007.12。 文章I)作者发现了频繁模式(称之为关键频繁模式)包含了词序和邻近上下文等更多的语义信息对交互文本特征抽取的关键性,提出了一种无指导的基于频繁模式的特征选择算法,应用于文本分类和聚类。文章2)主要针对聊天室的内容监控应用,通过分别离线计算词汇在不同数据源中的权值并汇总、并对重点词汇提高权重等方式来计算聊天数据的词汇权重,从而达到识别聊天室主题的目的。根据上述查新可知:首先现有技术的研究对象为以整个新闻或者段落;现有技术识别的结果仅为整个新闻(事件)或段落是否属于哪一类主题,以及相关的新闻(事件)发生,即主题级的识别;在交互文本的特征表示方面,现有技术离线收集仅为当前新闻(事件)的词频特征进行计算。现有方法以无监督的概率潜在语义分析方法为主。
技术实现思路
本专利技术 ...
【技术保护点】
一种面向交互文本的话题识别方法,其特征在于,包括以下步骤:第一步:词语相关度计算:(1)基于知网,计算词语在知识词典层面的相关度基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF;对于词语w1和w2,如果与w1对应的有m个概念,分别为C11,C12,...,C1m,w2有n个概念,分别为C21,C22,...,C2n,设w1和w2的相关度为各个概念的相关度之最大值,也就是说:Rel(W1,W2)=maxi=1..m,j=1...nWposRel(C1i,C2j))其中,wPOS为词性相关权重系数,当概念词性相同时,wpos=1,当概念词性不同时,wpos=0.5;(2)采用PLSA主题模型计算词语在大规模语料统计层面的相关度用词语在某个主题中的共现率来计算关联程度;对于词语wi,wj,由PLSA模型得到主题在wi和wj上的概率分布向量为Vi=(pi1,pi2,pi3,...),Vj=(pj1,pj2,pj3,...),计算两个向量V1,V2之间距离,计算公式如下:L2(V1,V2)=Σi ...
【技术特征摘要】
1.一种面向交互文本的话题识别方法,其特征在于,包括以下步骤: 第一步:词语相关度计算: (1)基于知网,计算词语在知识词典层面的相关度 基于知网的语义相关度计算依据知识词典中的记录信息,每一个记录包含的4项信息中,利用三项信息:词语概念W_X、词语词性G_X和概念定义DEF ; 对于词语W1和w2,如果与W1对应的有m个概念,分别为C11, C12,Clm,w2有η个概念,分别为C21, C22,..., C2n,设W1和w2的相关度为各个概念的相关度之最大值,也就是说:2.根据权利要求1所述的面向交互文本的话题识别方法,其特征在于,第一步中步骤(O的概念的相关度计算过程为: 概念是由一个语义表达式来描述的,要计算实词概念之间的相关度就是要计算两个语义表达式的相关度;具体地,采用以下方式: (1)将任何义原或具体词与空值的相似度定义为一个小的常数δ; (2)对于实词概念的语义表达式,将其分成三个部分,然后计算两个表达式中对应每个部分的相关度; a)普通义原,将这一部分的相关度记为Rel1(C1, C2),按照如下步骤对其进行分组; `1.先把两个表达式的所有普通义原任意配对,计算出所有配对的义原相关度; .取相关度最大的一对,并将它们归为一组; ii1.在剩下的普通义原的配对相关度中,取最大的一对,并归为一组,如此反复,直到所有普通义原都完成分组为止; b)关系义原,将这一部分的相关度记为Re...
【专利技术属性】
技术研发人员:陈妍,杨扬,朱海萍,郑庆华,田锋,刘文强,
申请(专利权)人:西安交通大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。