System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种关键技术识别方法和相关装置制造方法及图纸_技高网

一种关键技术识别方法和相关装置制造方法及图纸

技术编号:42656635 阅读:17 留言:0更新日期:2024-09-10 12:16
本申请公开了一种关键技术识别方法和相关装置,应用于大数据领域。在本申请中,首先获取待识别专利数据,基于待识别专利数据筛选符合关键预估条件的关键技术专利,其中关键预估条件用于衡量并确定待识别专利数据的关键程度。然后基于BERT模型对关键技术专利进行目标主题词的确定,统计关键技术专利中目标主题词的数量,将数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档。最后通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。能够无需依赖人为经验,而是采用自动化的方式进行关键技术的识别,提高了关键技术识别的效率和准确性。

【技术实现步骤摘要】

本申请涉及大数据,特别涉及一种关键技术识别方法和相关装置


技术介绍

1、随着社会的发展,当前专利数据的数量增长速度较快,在大量的专利数据中涉及丰富的技术信息,通过对其中的关键技术进行识别,有利于根据该关键技术把握技术发展趋势,有针对性的进行技术创新。

2、在相关技术中,在对专利数据进行关键技术的识别时,往往通过人工进行,依赖人为的经验和判断,不能对关键技术进行准确且高效的识别。

3、基于上述相关技术的缺陷,目前亟需一种能够高效且准确的进行关键技术识别的方法。


技术实现思路

1、有鉴于此,本申请实施例提供了一种关键技术识别方法和相关装置,旨在提高关键技术识别的效率和准确性。

2、第一方面,本申请实施例提供了一种关键技术识别方法,所述方法包括:

3、获取待识别专利数据;

4、基于所述待识别专利数据筛选符合关键预估条件的关键技术专利,所述关键预估条件用于确定所述待识别专利数据的关键程度;

5、基于bert模型对所述关键技术专利进行目标主题词的确定;

6、统计所述关键技术专利中所述目标主题词的数量,将所述数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档;

7、通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。

8、可选的,所述关键预估条件包括所述待识别专利数据的评分,在基于所述待识别专利数据筛选符合关键预估条件的关键技术专利之后,所述方法还包括:</p>

9、确定所述关键技术专利的评分并进行排序;

10、将所述排序中的前k个所述关键技术专利作为目标专利,其中k>1;

11、对所述目标专利进行摘要提取;

12、基于提取到的所述摘要,利用大语言模型llm生成所述关键技术的描述。

13、可选的,所述基于bert模型对所述关键技术专利进行目标主题词的确定,包括:

14、获取所述关键技术专利的主题和主题词,所述主题用于指示所述关键技术专利的技术方向,所述主题词用于指示所述关键技术专利的技术应用;

15、基于所述bert模型对所述主题进行编码得到主题向量,以及对所述主题词进行编码得到主题词向量;

16、计算所述主题向量和所述主题词向量的余弦相似度,将所述余弦相似度符合预设条件的主题词确定为目标主题词。

17、可选的,所述方法还包括:

18、构建停用词表,所述停用词表中包括与所述关键技术不具有相关关系的词语;

19、所述关键技术专利中包括摘要文本,所述获取所述关键技术专利的主题和主题词,包括:

20、将所述关键技术专利的摘要文本作为待处理文本,所述待处理文本中包括中文文本和/或英文文本;

21、对所述中文文本和/或所述英文文本进行分词以及词性标注处理;

22、基于所述分词以及词性标注处理的结果,利用所述停用词表对所述中文文本和/或所述英文文本进行词语筛选,得到关键词数据;

23、基于所述关键词数据确定所述关键技术专利的主题和主题词。

24、可选的,所述基于所述关键词数据确定所述关键技术专利的主题和主题词,包括:

25、根据所述关键词数据,由lda模型初始化第一分布和第二分布,所述第一分布指示所述关键词数据与主题之间的分布情况,所述第二分布指示所述主题与词项之间的分布情况;

26、基于gibbs采样调整所述主题的分配,根据所述分配的主题更新所述第一分布和所述第二分布;

27、基于更新的第一分布确定所述关键技术专利的主题,基于更新的第二分布确定所述关键技术专利的主题词。

28、可选的,所述基于所述关键词数据确定所述关键技术专利的主题和主题词,包括:

29、获取所述关键词数据和所述摘要文本;

30、基于bert模型对所述摘要文本进行编码得到第一特征向量;

31、基于所述关键词数据利用lda模型得到的第一分布,确定文档对应的主题的概率分布,将所述概率分布作为第二特征向量,所述第一分布指示所述关键词数据与所述主题之间的分布情况;

32、基于所述第一特征向量和所述第二特征向量确定所述关键技术专利的主题和主题词。

33、可选的,所述方法还包括:

34、建立定语词库;

35、所述通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果,包括:

36、将所述目标文档输入所述文本生成模型,得到所述目标文档的标题;

37、基于所述定语词库对所述标题进行定语处理,将完成所述定语处理的标题确定为所述关键技术的识别结果。

38、第二方面,本申请实施例提供了一种关键技术识别装置,所述装置包括:获取模块、筛选模块、确定模块、统计模块及识别模块;

39、所述获取模块,用于获取待识别专利数据;

40、所述筛选模块,用于基于所述待识别专利数据筛选符合关键预估条件的关键技术专利,所述关键预估条件用于确定所述待识别专利数据的关键程度;

41、所述确定模块,用于基于bert模型对所述关键技术专利进行目标主题词的确定;

42、所述统计模块,用于统计所述关键技术专利中所述目标主题词的数量,将所述数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档;

43、所述识别模块,用于通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。

44、第三方面,本申请提供了一种电子设备,所述设备包括:处理器、存储器、系统总线;

45、所述处理器以及所述存储器通过所述系统总线相连;

46、所述存储器用于存储一个或多个程序,所述一个或多个程序包括指令,所述指令当被所述处理器执行时使所述处理器执行实现第一方面中提及的任一实现方式中的关键技术识别方法。

47、第四方面,本申请实施例提供了一种计算机存储介质,所述计算机存储介质中存储有代码,当所述代码被运行时,运行所述代码的设备实现前述第一方面中提及的任一实现方式中的关键技术识别方法。

48、本申请提供了一种关键技术识别方法和相关装置,在执行所述方法时,首先获取待识别专利数据,基于待识别专利数据筛选符合关键预估条件的关键技术专利,其中关键预估条件用于衡量并确定待识别专利数据的关键程度。然后基于bert模型对关键技术专利进行目标主题词的确定,统计关键技术专利中目标主题词的数量,将数量符合预设阈值的关键技术专利所对应的摘要和专利主题拼接得到目标文档。最后通过文本生成模型对所述目标文档进行识别,生成关键技术的识别结果。如此,通过关键预估条件筛选出关键技术专利,使用bert模型对于关键技术专利中的目标主题词进行确定,并对关键技术专利中目标主题词的数量进行统计,并从中确定出数量符合预设阈值的关键技术专利。此时得到的关键技术专本文档来自技高网...

【技术保护点】

1.一种关键技术识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述关键预估条件包括所述待识别专利数据的评分,在基于所述待识别专利数据筛选符合关键预估条件的关键技术专利之后,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于BERT模型对所述关键技术专利进行目标主题词的确定,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述关键词数据确定所述关键技术专利的主题和主题词,包括:

6.根据权利要求4所述的方法,其特征在于,所述基于所述关键词数据确定所述关键技术专利的主题和主题词,包括:

7.根据权利要求1所述的方法,其特征在于,所述方法还包括:

8.一种关键技术识别装置,其特征在于,所述装置包括:获取模块、筛选模块、确定模块、统计模块及识别模块;

9.一种电子设备,其特征在于,所述设备包括:处理器、存储器、系统总线;

10.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有实现关键技术识别方法的实现程序,所述实现关键技术识别方法的实现程序被处理器执行时实现如权利要求1-7任意一项所述方法的步骤。

...

【技术特征摘要】

1.一种关键技术识别方法,其特征在于,所述方法包括:

2.根据权利要求1所述的方法,其特征在于,所述关键预估条件包括所述待识别专利数据的评分,在基于所述待识别专利数据筛选符合关键预估条件的关键技术专利之后,所述方法还包括:

3.根据权利要求1所述的方法,其特征在于,所述基于bert模型对所述关键技术专利进行目标主题词的确定,包括:

4.根据权利要求3所述的方法,其特征在于,所述方法还包括:

5.根据权利要求4所述的方法,其特征在于,所述基于所述关键词数据确定所述关键技术专利的主题和主题词,包括:

6.根据权利要...

【专利技术属性】
技术研发人员:刘辉陈颖范云满王峻岭叶广海陈嘉明王军辉肖宇锋罗妍王序文
申请(专利权)人:中国医学科学院医学信息研究所
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1