一种用于非结构化文本的关键词提取方法技术

技术编号：40950011 阅读：24 留言：0更新日期：2024-04-18 20:24

本发明专利技术公开了一种用于非结构化文本的关键词提取方法，涉及关键词提取领域；包括以下步骤：数据预处理：对输入的非结构化文本数据进行预处理；特征提取：从预处理后的文本数据中提取出与关键词相关的特征；建立模型：使用机器学习算法建立关键词提取模型；关键词提取：输入非结构化文本数据，利用关键词提取模型进行关键词提取，数据预处理包括数据分词处理、去除停用词处理和去除标点符号处理，关键词相关特征包括词频特征、TF‑IDF值和N‑gram特征中的任意一种或者多种组合。本发明专利技术采用多特征、多模型的关键词提取，从而对于非结构化文本，提取结果更加精确。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及关键词提取领域，尤其涉及一种用于非结构化文本的关键词提取方法。

技术介绍

1、文本关键词提取是一种自然语言处理技术，可以从给定的文本中自动抽取出具有代表性和重要性的关键词，从而实现对文本的概括和分类。它可以帮助用户更快速、准确地理解大量文本数据，并从中获取有用信息。目前，文本关键词提取已经被广泛应用于信息检索、情感分析、舆情监测等领域。

2、例如，经检索，中国专利公开号为cn108304424b的专利，公开了文本关键词提取方法及文本关键词提取装置，包括：获取待提取文本；在关联的关键词库中进行搜索，匹配出所述待提取文本中的关键词；根据所述待提取文本、匹配出的所述待提取文本中的关键词，确定出所有的文本句式及对应的关键词组合；根据关键词概率网络模型，分析确定各所述文本句式及对应的关键词组合成立的概率；将分析确定的概率中值最大的概率对应的关键词组合确定为从所述待提取文本中提取的关键词组合。

3、上述专利存在以下不足：其利用单特征的概率来实现关键词的提取，这样会导致特征单一，从而使得最终提取的精确度下降。

4、为此，本专利技术提出一种用于非结构化文本的关键词提取方法。

技术实现思路

1、本专利技术的目的是为了解决现有技术中存在的缺点，而提出的一种用于非结构化文本的关键词提取方法。

2、为了实现上述目的，本专利技术采用了如下技术方案：

3、一种用于非结构化文本的关键词提取方法，包括以下步骤：

4、s1：数据预

5、s2：特征提取：从预处理后的文本数据中提取出与关键词相关的特征；

6、s3：建立模型：使用机器学习算法建立关键词提取模型；

7、s4：关键词提取：输入非结构化文本数据，利用关键词提取模型进行关键词提取。

8、优选地：所述s1步骤中，数据预处理包括数据分词处理、去除停用词处理和去除标点符号处理。

9、优选地：所述s2步骤中，关键词相关特征包括词频特征、tf-idf值和n-gram特征中的任意一种或者多种组合。

10、优选地：所述s2步骤中，词频特征提取包括以下步骤：

11、sa21：首先，对文本数据进行分词处理，将文本分割成一个个独立的词汇；

12、sa22：统计每个词汇在文本中出现的次数，得到每个词汇的词频；

13、sa23：将词频作为特征，用于后续的关键词提取。

14、优选地：所述s2步骤中，tf-idf值计算包括以下步骤：

15、sb21：计算词频特征，词频特征即为tf值；

16、sb22：统计每个词汇在文本集中出现的频率，并计算其逆文档频率，即为idf值；

17、sb23：将tf值与idf值相乘，得到每个词汇的tf-idf值；

18、sb24：将tf-idf值作为特征，用于后续的关键词提取。

19、优选地：所述s2步骤中，n-gram特征提取包括以下步骤：

20、sc21：确定n值，n表示提取n元特征；

21、sc22：根据n值，从词汇列表中提取出连续的n个词汇，形成一个n-gram组合；

22、sc23：重复sc22步骤，知道所有的n-gram组合都被计算出；

23、sc24：对于每个n-gram组合，统计出现次数，即为n-gram特征；

24、所述sc21步骤中，n＞1。

25、优选地：所述s3步骤中，机器学习算法采用朴素贝叶斯、支持向量机、深度学习中的任意一种。

26、优选地：所述s3步骤中，采用朴素贝叶斯建立关键词提取模型包括以下步骤：

27、sa31：首先，需要确定文本数据的特征，其包括词频和tf-idf值；

28、sa32：然后，根据这些特征和文本数据的标签，训练一个朴素贝叶斯分类器；

29、sa33：在训练过程中，分类器会学习每个特征与关键词之间的关系，并计算每个特征的条件概率和类别的先验概率；

30、sa34：最后，利用训练好的分类器对测试集进行关键词提取，根据分类结果确定每个文本的关键词。

31、优选地：所述s3步骤中，采用支持向量机建立关键词提取模型包括以下步骤：

32、sb31：首先，将文本数据表示为向量形式，每个特征对应一个维度；

33、sb32：然后，选择核函数，将文本数据映射到高维空间；

34、sb33：在高维空间中，使用svm算法训练一个分类器，将文本数据分为关键词和非关键词两类；

35、sb34：最后，利用训练好的分类器对测试集进行关键词提取，根据分类结果确定每个文本的关键词。

36、优选地：所述s3步骤中，采用深度学习建立关键词提取模型包括以下步骤：

37、sc31：首先，使用词嵌入技术将文本数据中的词汇表示为向量形式，每个词汇对应一个向量；

38、sc32：然后，构建一个深度神经网络模型，包括输入层、隐藏层和输出层。输入层接收文本数据的特征向量，隐藏层通过神经元之间的连接关系进行特征提取和转换，输出层输出关键词的概率分布；

39、sc33：最后，利用训练好的深度神经网络模型对测试集进行关键词提取，根据输出结果确定每个文本的关键词。

40、本专利技术的有益效果为：

41、1.本专利技术采用多特征、多模型的关键词提取，从而对于非结构化文本，提取结果更加精确。

本文档来自技高网...

【技术保护点】

1.一种用于非结构化文本的关键词提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S1步骤中，数据预处理包括数据分词处理、去除停用词处理和去除标点符号处理。

3.根据权利要求1所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S2步骤中，关键词相关特征包括词频特征、TF-IDF值和N-gram特征中的任意一种或者多种组合。

4.根据权利要求3所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S2步骤中，词频特征提取包括以下步骤：

5.根据权利要求3所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S2步骤中，TF-IDF值计算包括以下步骤：

6.根据权利要求3所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S2步骤中，N-gram特征提取包括以下步骤：

7.根据权利要求1所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S3步骤中，机器学习算法采用朴素贝叶斯、支持向量机、深度学习中的任意一种。

8.根据权利要求7所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S3步骤中，采用朴素贝叶斯建立关键词提取模型包括以下步骤：

9.根据权利要求7所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S3步骤中，采用支持向量机建立关键词提取模型包括以下步骤：

10.根据权利要求7所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述S3步骤中，采用深度学习建立关键词提取模型包括以下步骤：

...

【技术特征摘要】

1.一种用于非结构化文本的关键词提取方法，其特征在于，包括以下步骤：

2.根据权利要求1所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述s1步骤中，数据预处理包括数据分词处理、去除停用词处理和去除标点符号处理。

3.根据权利要求1所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述s2步骤中，关键词相关特征包括词频特征、tf-idf值和n-gram特征中的任意一种或者多种组合。

4.根据权利要求3所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述s2步骤中，词频特征提取包括以下步骤：

5.根据权利要求3所述的一种用于非结构化文本的关键词提取方法，其特征在于，所述s2步骤中，tf-idf值计算包括以下步骤：

6.根据权利要求3...

【专利技术属性】
技术研发人员：王俊彬，宋学禄，邱文军，陈君，
申请(专利权)人：广州轨道交通建设监理有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人