System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种搭建词语网络及抓取关键词的方法和系统技术方案_技高网

一种搭建词语网络及抓取关键词的方法和系统技术方案

技术编号:40056914 阅读:6 留言:0更新日期:2024-01-16 22:05
本发明专利技术提供了一种搭建词语网络及抓取关键词的方法和系统。搭建词语网络的方法包括:对文本进行预处理,得到词语集合;分别计算词语集合中任意两个词语之间的语义相似度;根据词语集合及语义相似度,搭建带权重的语义相似度网络。本发明专利技术能够在词语网络中体现词语之间的语义关联程度,提高了关键词抓取的准确性和效率。

【技术实现步骤摘要】

本专利技术涉及自然语言处理领域,特别涉及一种搭建词语网络及抓取关键词的方法和系统


技术介绍

1、关键词是文档中反映全文主题内容信息的单词或术语,通过阅读关键词,可以快速了解文档的主要内容。关键词自动抓取是依靠计算机从文档中选择出反映文档主题内容的词。关键词抓取在文本分类、文本聚类、自动摘要、信息检索等方面具有十分重要的作用。

2、现有技术中,关键词自动抓取有以下方法:

3、一、基于统计的关键词抓取方法:通过统计文档中每个词语出现的频率,将频率高于某一阈值的词语作为关键词。然而,在实践中往往一些高频词语的重要性较低,而一些相对低频词语的重要性却很高,因此,该方法不能准确地反映词语的重要程度,抓取的关键词准确性较低。

4、二、基于词语网络的关键词抓取方法:通过搭建无权重的词语网络,计算词语网络中每个词语的中间度密度,将中间度密度高于某一阈值的词语作为关键词。

5、其中,词语网络g中顶点vi的中间度定义为:

6、

7、其中,n为词语网络g中所有顶点数目;gmk表示顶点vm和vk之间的最短路径;

8、gmk(vi)表示顶点vm和vk之间的最短路径是否经过顶点vi,通过为1,否则为0。

9、顶点vi的中间度密度,是指将语义网络g中所有顶点的中间度集合平均划分成一定数目的区间后,顶点vi的中间度所在区间的顶点密度,其计算量很大。

10、由于上述方法搭建的是无权重词语网络,词语的中间度密度表示的只是与该词语有语义关联的词语的数量,而未包含词语之间的语义关联程度信息,因此,该方法抓取的关键词的准确性较低;另一方面,由于中间度密度计算方法较复杂,其计算效率也较低。


技术实现思路

1、为克服上述现有技术存在的不足,本专利技术的目的在于提供一种搭建词语网络及抽取关键词的方法和系统,能较大程度上提高关键词抓取的准确性和效率。

2、为达上述目的,本专利技术提供一种搭建词语网络的方法,该方法包括:

3、对文本进行预处理,得到词语集合;

4、分别计算所述词语集合中任意两个词语之间的语义相似度;

5、根据所述词语集合及所述语义相似度,搭建带权重的语义相似度网络。

6、本专利技术还提供一种搭建词语网络的系统,该该系统包括预处理单元、相似度计算单元,词语网络搭建单元,其中:

7、预处理单元,用于对文本进行预处理,得到词语集合;

8、相似度计算单元,用于计算所述词语集合中任意两个词语之间的语义相似度;

9、词语网络搭建单元,用于根据所述词语集合及所述语义相似度,搭建带权重的语义相似度网络。

10、本专利技术还提供了一种利用如上述方法搭建的词语网络进行抓取关键词的方法,该方法包括:

11、计算与所述顶点相连的各边权重的倒数之和,得到该顶点的加权中心度;

12、计算所述顶点的中间中心度;

13、根据所述顶点的加权中心度和中间中心度,计算所述顶点的重要度;

14、根据各顶点的重要度确定关键词。

15、本专利技术还提供了一种利用如上述抓取关键词的方法进行抓取关键词的系统,该装置包括:

16、加权中心度计算单元,用于计算与所述顶点相连的各边权重的倒数之和,得到该顶点的加权中心度;

17、中间中心度计算单元,用于计算所述顶点的中间中心度;

18、重要度计算单元,用于根据所述顶点的加权中心度和中间中心度,计算所述顶点的重要度;

19、关键词确定单元,用于根据各顶点的重要度确定关键词。

20、从上述技术方案可以看出,在本专利技术的实施方式中,通过搭建带权重的词语语义相似度网络,从而能够在语义相似度网络中体现词语之间的语义关联程度,解决了现有技术中搭建无权重的词语网络不能体现词语之间的语义关联程度的问题;通过综合顶点的加权中心度和中间中心度抓取关键词,从而能够抓取出重要程度高且与其它顶点语义关联程度强的顶点作为关键词,抓取出的关键词能够全面反映词语之间的语义关联程度以及词语重要度,并且本专利技术算法简洁,克服了现有技术中关键词抓取方法不能体现词语之间的语义关联程度,抓取的关键词准确性低、以及抓取算法复杂,抓取效率低的问题,提高了关键词抓取的准确性及效率。

本文档来自技高网...

【技术保护点】

1.一种搭建词语网络的方法,其特征在于,该方法包括:

2.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述计算所述词语集合中任意两个词语之间的语义相似度包括:

3.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述根据所述词语集合及所述语义相似度,搭建带权重的语义相似度网络包括:

4.一种搭建词语网络的系统,其特征在于,该系统包括:

5.根据权利要求4所述的搭建词语网络的系统,其特征在于,所述相似度计算单元还用于:

6.根据权利要求4所述的搭建词语网络的系统,其特征在于,所述词语网络搭建单元还包括:

7.一种利用如权利要求1-3任一个所述的方法搭建的词语网络进行抓取关键词的方法,其特征在于,该方法包括:

8.根据权利要求7所述的抓取关键词的方法,其特征在于,所述计算所述顶点的重要度的公式为:

9.一种利用如权利要求7所述的抓取关键词的方法进行抓取关键词的系统,其特征在于,所述系统包括:

10.根据权利要求9所述的抓取关键词的系统,其特征在于,所述重要度计算单元计算顶点的重要度公式为:

...

【技术特征摘要】

1.一种搭建词语网络的方法,其特征在于,该方法包括:

2.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述计算所述词语集合中任意两个词语之间的语义相似度包括:

3.根据权利要求1所述的搭建词语网络的方法,其特征在于,所述根据所述词语集合及所述语义相似度,搭建带权重的语义相似度网络包括:

4.一种搭建词语网络的系统,其特征在于,该系统包括:

5.根据权利要求4所述的搭建词语网络的系统,其特征在于,所述相似度计算单元还用于:

6.根据权利要求...

【专利技术属性】
技术研发人员:陈伟金柱何鹏左罗
申请(专利权)人:深圳市全景网络有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1