System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术属于自然语言处理,具体为一种数据中心告警短文本主题抽取方法。
技术介绍
1、随着移动互联网的快速发展,尤其是如社交媒体,即时通讯等平台的发展,人们在网络上传递观点,分享信息,发布新闻,从而快速产生了大量短文本数据。从各类平台上识别追踪短文本的话题能够帮助我们更好地理解短文本数据中的关键信息以及当前时间段人们关注的热点话题。主题演化技术能够对文本数据在连续时间窗口之间的主题内涵演变进行观察和探索。传统的主题演化技术主要基于以lda(latent dirichlet allocation)为代表的主题模型。但是短文本数据具有特征稀疏和语义上下文依赖性强的特点,难以直接应用于传统的主题模型中去。另外,传统的主题内容演化主要是人工观察主题词的内涵变化,对主题在时间窗口之间的演化过程缺少系统性的理解。亟需一种有效的短文本主题抽取方法,来解决短文本中的数据稀疏性问题。
2、目前已经有许多策略来解决短文本中的数据稀疏性问题,一种策略是利用神经网络语言模型在大规模外部语料集中训练得到的词向量,提高语义相关词在同一主题下的共现概率。词向量技术,目前在信息检索、文本挖掘和自然语言处理等领域有诸多应用,例如文本分类、事件抽取等。词向量的特点在于用低维的稠密向量表示词的语义和语法信息。因此,在词向量空间中,空间距离接近的词代表它们有相似的语义。高斯 lda 将主题视为词向量的高斯分布。针对于短文本数据集,将主题模型同词向量相结合的lf‐dmm 模型以 dmm(dirichlet multinomial mixture)为基础,用狄
3、数据中心告警消息由于文本较短,其主题抽取有以下两大挑战:(1)与长文本(如新闻文章或学术论文)相比,短文本中只有非常有限的词共现信息,数据中心告警消息通常非常短,只包含少量的词汇信息。相比之下,长文本(如新闻文章或学术论文)中包含大量的词汇,这些词汇之间会形成复杂的词汇共现关系。在处理长文本时,基于词共现的主题模型(如latent dirichlet allocation, lda)可以通过挖掘词汇共现关系来抽取主题。然而,由于数据中心告警消息的文本长度非常短,其中的词汇共现关系非常有限,这使得传统的主题模型难以在此类文本上表现出良好的效果。(2)由于短文本中的上下文有限,使得主题模型更难以识别多义词的语义。数据中心告警消息中存在大量的多义词,这些词汇在不同的上下文环境中可能具有不同的含义。然而,由于数据中心告警消息中的上下文信息通常非常有限,传统的主题模型在识别多义词的语义时会遇到困难。例如,一个在数据中心告警消息中出现的多义词“ip”,可能既表示“internet protocol”,也可能表示“intellectualproperty”,这两个意义在不同的上下文环境中具有截然不同的含义。在这种情况下,需要寻找更加精准的方法来处理多义词,以提高主题抽取的准确性。
技术实现思路
1、本专利技术的目的在于提供一种数据中心告警短文本主题抽取方法,以解决
技术介绍
中提出的以下技术问题:
2、1.数据中心告警消息文本较短,只包含少量的词汇信息,传统的主题模型难以在此类文本上表现出良好的效果。表现出良好的效果
3、2.短文本中的上下文有限,使得主题模型更难以识别多义词的语义。
4、为解决上述技术问题,本专利技术所采用的技术方案是:
5、一种数据中心告警短文本主题抽取方法,包括以下方法:
6、 s1,在crftm模型在潜在主题层增加条件随机场层,嵌入全局语义关联;对于伪长文本m中存在全局语义相关的词对的主题标签对,crftm模型在主题标签对之间建立无向边;
7、s2,在crftm模型中引入局部语义关联;
8、s3,crftm模型计算给定伪长文本m的主题标签联合概率,公式如下:
9、
10、其中,为主题比例向量;为上下文相关词;为平衡参数;是利用条件随机场融入全局语义关联和局部语义关联的势函数;为出现次数;
11、s4,利用坍缩吉布斯采样的方法进行参数估计,通过迭代采样逼近伪长文本m中每个词的主题分布;根据狄利克雷分布和多项式分布的共轭性质计算出主题—词汇矩阵和文档—主题矩阵。
12、进一步地,全局语义的判断方法如下:
13、如果一个伪长文本m中两个词之间的距离d小于给定阈值,即,则两个词存在全局语义关联。
14、进一步地,局部语义的判断方法如下:
15、在伪长文本m中,对每个词均抽取语义最接近的p个词,称为上下文相关词;分别计算每个词和对应的上下文相关词的平均距离;如果两个平均距离之差的绝对值小于给定阈值,则对应的两个词存在局部语义相关。
16、进一步地,势函数的定义式如下:
17、
18、其中,a表示归一化项,e表示连接语义相关词对主题标签的无向边集合;f为一元势函数,g为二元势函数;
19、词对存在全局语义相关,则f越大,f如下所示:
20、
21、词对不相关则在势函数的定义式中增加如下惩罚项:
22、。
23、进一步地,对于给定主题标签,词由对应的主题—词多项式分布生成。
24、进一步地,采用坍缩吉布斯采样的方法推断如下后验分布:
25、
26、其中,联合概率分解转化为:
27、
28、通过联合概率得出伪长文本m中词的主题生成概率为:
29、。
30、进一步地,根据狄利克雷分布和多项式分布的共轭性质计算主题—词汇矩阵和文档—主题矩阵的公式如下:
31、。
32、进一步地,crftm模型中,迭代时的时间复杂度为,其中k表示主题个数,m 表示伪长文本个数,表示所有伪长文本中词的平均个数,表示条件随机场层中主题标签之间连边的平均个数。
33、与现有技术相比,本专利技术具有以下有益效果:
34、本专利技术提出了一种新的主题模型crftm用于抽取短文本中的主题,该模型基于lda模型,在lda模型的基础上增加了条件随机场(crf)的方法提高了语义相关词归属于同一主题的概率,从而提高了生成主题的主题一致性。这种方法使得crftm在处理短文本时比传统的主题模型提高语本文档来自技高网...
【技术保护点】
1.一种数据中心告警短文本主题抽取方法,其特征在于:包括以下方法:
2.根据权利要求1所述的一种数据中心告警短文本主题抽取方法,其特征在于:全局语义的判断方法如下:
3.根据权利要求2所述的一种数据中心告警短文本主题抽取方法,其特征在于:局部语义的判断方法如下:
4.根据权利要求1-3任一项所述的一种数据中心告警短文本主题抽取方法,其特征在于:势函数的定义式如下:
5.根据权利要求1-4任一项所述的一种数据中心告警短文本主题抽取方法,其特征在于:对于给定主题标签,词由对应的主题—词多项式分布生成。
6.根据权利要求1所述的一种数据中心告警短文本主题抽取方法,其特征在于:采用坍缩吉布斯采样的方法推断如下后验分布:
7.根据权利要求1所述的一种数据中心告警短文本主题抽取方法,其特征在于:根据狄利克雷分布和多项式分布的共轭性质计算主题—词汇矩阵和文档—主题矩阵的公式如下:
8.根据权利要求1所述的一种数据中心告警短文本主题抽取方法,其特征在于:CRFTM模型中,迭代时的时间复杂度为。
【技术特征摘要】
1.一种数据中心告警短文本主题抽取方法,其特征在于:包括以下方法:
2.根据权利要求1所述的一种数据中心告警短文本主题抽取方法,其特征在于:全局语义的判断方法如下:
3.根据权利要求2所述的一种数据中心告警短文本主题抽取方法,其特征在于:局部语义的判断方法如下:
4.根据权利要求1-3任一项所述的一种数据中心告警短文本主题抽取方法,其特征在于:势函数的定义式如下:
5.根据权利要求1-4任一项所述的一种数据中心告警短文本主题抽取方法,其...
【专利技术属性】
技术研发人员:张欣,练安达,卓莹,
申请(专利权)人:四川众力佳华信息技术有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。