System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 文档标签提取方法、装置、计算机设备和存储介质制造方法及图纸_技高网

文档标签提取方法、装置、计算机设备和存储介质制造方法及图纸

技术编号:43492448 阅读:3 留言:0更新日期:2024-11-29 17:01
本申请涉及数据挖掘技术领域,特别是涉及一种文档标签提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。所述方法包括:获取文档正文和文档框架,所述文档框架包含至少一个层级标题;对所述文档正文和所述至少一个层级标题进行分词处理,获得至少一个单独词汇;获取每个单独词汇的词频和权重向量;根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词和文档正文的关键词;根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签。采用本方法能够在保证标签体系时效性的同时,降低更新维护成本。

【技术实现步骤摘要】

本申请涉及数据挖掘,特别是涉及一种文档标签提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。


技术介绍

1、在信息爆炸的时代,文档管理与分类成为了提升工作效率、促进知识共享与检索的关键环节。文档标签作为文档正文的高度概括与索引标识,其自动生成技术对于实现文档的快速分类、检索及个性化推荐具有重要意义。传统上,文档标签的生成主要依赖于人工标注,这种方式不仅效率低下,且难以应对大规模数据处理的挑战。

2、当前,自动化文档标签生成的主流方法通常采用“关键词抽取-领域映射-焦点领域确定-标签生成”的框架。首先,通过自然语言处理技术(nlp)从文档中抽取关键词,随后,利用领域知识库或预训练的模型将关键词映射到特定的知识领域中,通过分析领域与文档正文的相关度,确定文档所属的焦点领域,最后,基于焦点领域的信息,结合预设的标签生成规则或机器学习模型,为文档生成相应的标签。尽管这种方法在一定程度上实现了文档标签的自动化生成,但随着知识体系的不断扩展和新领域的持续涌现,原有的领域知识库和标签体系往往会逐渐过时,难以准确反映当前的知识状态和时代特征,但是周期性维护会带来较大的成本投入。

3、因此,亟需一种文档标签提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品,能够在保证标签体系时效性的同时,降低更新维护成本。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种能够在保证标签体系时效性的同时,降低更新维护成本的文档标签提取方法、装置、计算机设备、计算机可读存储介质和计算机程序产品。

2、第一方面,本申请提供了一种文档标签提取方法,包括:

3、获取文档正文和文档框架,所述文档框架包含至少一个层级标题;

4、对所述文档正文和所述至少一个层级标题进行分词处理,获得至少一个单独词汇;

5、获取每个单独词汇的词频和权重向量;

6、根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词和文档正文的关键词;

7、根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签。

8、在其中一个实施例中,所述获取每个单独词汇的权重向量,包括:

9、分别获取所述文档正文和所述至少一个层级标题的重要度;

10、根据所述文档正文和所述至少一个层级标题的重要度,构建判断矩阵;

11、获取所述判断矩阵的最大特征值和相应的特征向量;

12、根据所述最大特征值和相应的特征向量,获取每个单独词汇的权重向量。

13、在其中一个实施例中,所述获取所述判断矩阵的最大特征值和相应的特征向量之前,还包括:

14、计算所述判断矩阵的一致性指标和随机一致性指数;

15、根据所述一致性指标和所述随机一致性指数,获取所述判断矩阵的一致性比率;

16、在所述一致性比率低于预设数值的情况下,确定所述判断矩阵满足一致性要求,并执行获取所述判断矩阵的最大特征值和相应的特征向量的步骤。

17、在其中一个实施例中,所述根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词,包括:

18、对所述至少一个层级标题进行去重处理和去除停用词处理,获得所述文档框架的至少一个第一关键词;

19、对至少一个第一关键词和至少一个单独词汇进行匹配,获得至少一个第一关键词对应的词频和权重向量;

20、根据至少一个第一关键词的词频和权重向量,确定至少一个第一关键词的权重。

21、在其中一个实施例中,所述根据所述至少一个单独词汇的词频和权重向量,确定文档正文的关键词,包括:

22、利用大语言模型,获取所述文档正文的摘要;

23、对所述摘要进行分词处理和去除停用词处理,获得所述文档正文的至少一个第二关键词;

24、对至少一个第二关键词和至少一个单独词汇进行匹配,获得至少一个第二关键词对应的词频和权重向量;

25、根据至少一个第二关键词的词频和权重向量,确定至少一个第二关键词的权重。

26、在其中一个实施例中,所述根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签,包括:

27、根据至少一个第一关键词的权重和第二关键词的权重,对至少一个第一关键词和第二关键词进行排序处理,获得排序处理结果;

28、根据所述排序处理结果,确定文档标签。

29、第二方面,本申请还提供了一种文档标签提取装置,包括:

30、获取模块,用于获取文档正文和文档框架,所述文档框架包含至少一个层级标题;

31、处理模块,用于对所述文档正文和所述至少一个层级标题进行分词处理,获得至少一个单独词汇;

32、处理模块,还用于获取每个单独词汇的词频和权重向量;

33、关键词提取模块,用于根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词和文档正文的关键词;

34、标签提取模块,用于根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签。

35、第三方面,本申请还提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现以下步骤:

36、获取文档正文和文档框架,所述文档框架包含至少一个层级标题;

37、对所述文档正文和所述至少一个层级标题进行分词处理,获得至少一个单独词汇;

38、获取每个单独词汇的词频和权重向量;

39、根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词和文档正文的关键词;

40、根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签。

41、第四方面,本申请还提供了一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现以下步骤:

42、获取文档正文和文档框架,所述文档框架包含至少一个层级标题;

43、对所述文档正文和所述至少一个层级标题进行分词处理,获得至少一个单独词汇;

44、获取每个单独词汇的词频和权重向量;

45、根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词和文档正文的关键词;

46、根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签。

47、第五方面,本申请还提供了一种计算机程序产品,包括计算机程序,该计算机程序被处理器执行时实现以下步骤:

48、获取文档正文和文档框架,所述文档框架包含至少一个层级标题;

49、对所述文档正文和所述至少一个层级标题进行分词处理,获得至少一个单独词汇;

50、获取每个单独词汇的词频和权重向量;

51、根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词和文档正文的关键词;

52、根据本文档来自技高网...

【技术保护点】

1.一种文档标签提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取每个单独词汇的权重向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述获取所述判断矩阵的最大特征值和相应的特征向量之前,还包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述至少一个单独词汇的词频和权重向量,确定文档正文的关键词,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据所述文档框架的关键词和所述文档正文的关键词,确定文档标签,包括:

7.一种文档标签提取装置,其特征在于,所述装置包括:

8.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至6中任一项所述的方法的步骤。

9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

10.一种计算机程序产品,包括计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至6中任一项所述的方法的步骤。

...

【技术特征摘要】

1.一种文档标签提取方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述获取每个单独词汇的权重向量,包括:

3.根据权利要求2所述的方法,其特征在于,所述获取所述判断矩阵的最大特征值和相应的特征向量之前,还包括:

4.根据权利要求1所述的方法,其特征在于,所述根据所述至少一个单独词汇的词频和权重向量,确定文档框架的关键词,包括:

5.根据权利要求4所述的方法,其特征在于,所述根据所述至少一个单独词汇的词频和权重向量,确定文档正文的关键词,包括:

6.根据权利要求5所述的方法,其特征在于,所述根据...

【专利技术属性】
技术研发人员:韩剑平邓建春刘玲玲韩怡梅戚乐乐刘芳芳
申请(专利权)人:一汽解放汽车有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1