System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及信息,尤其是涉及一种信息抽取方法、装置、存储介质及计算机设备。
技术介绍
1、专利作为技术创新的重要载体,蕴含着大量新兴技术和法律信息,是国家创新的重要情报来源。面对海量的专利数据,深入地挖掘专利信息,实现专利的多维度解答与利用,有效促进相关产业链上端与下端的协同运作,积极地回应国家创新驱动战略,具有重要意义。
2、目前,通常通过人工的方式来对专利中的关键信息进行抽取。然而,由于工作人员的技术水平参差不齐,会导致在专利中抽取出错误的信息,从而导致信息抽取的准确度较低,与此同时,这种人工抽取的方式,需要工作人员反复对专利进行阅读,导致信息抽取的效率较低。
技术实现思路
1、本专利技术提供了一种信息抽取方法、装置、存储介质及计算机设备,主要在于能够提高针对专利中关键信息的抽取效率和抽取准确度。
2、根据本专利技术的第一个方面,提供一种信息抽取方法,包括:
3、获取待抽取专利文本,并确定所述待抽取专利文本中包含的各个文本片段,以及确定所述待抽取专利文本对应的信息抽取类型;
4、在所述各个文本片段中确定与所述信息抽取类型相对应的目标文本片段;
5、基于所述待抽取专利文本对应的ipc分类信息和所述信息抽取类型,在多个信息示例库中确定目标信息示例库,其中,不同专利ipc分类信息和不同信息抽取类型对应不同信息示例库,所述多个信息示例库中存储着与相应专利ipc分类信息和相应信息抽取类型相对应的示例文本片段及其对应的示例关键信
6、在所述目标信息示例库中确定与所述目标文本片段相似的示例文本片段,以及所述示例文本片段对应的示例关键信息;
7、基于所述示例文本片段、所述示例关键信息、所述目标文本片段,构建信息抽取提示信息,并将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息。
8、可选地,所述基于所述示例文本片段、所述示例关键信息、所述目标文本片段,构建信息抽取提示信息,包括:
9、确定与所述信息抽取类型相对应的信息抽取提示模板,其中,所述信息抽取提示模板中包括:角色内容信息、针对所述信息抽取类型的描述信息、抽取进程描述信息、示例文本片段标题项、示例关键信息标题项、目标文本片段标题项;
10、将所述示例文本片段填充至所述示例文本片段标题项对应的预设位置,得到参考文本信息,并将所述示例关键信息填充至所述示例关键信息标题项对应的预设位置,得到参考抽取信息,以及将所述目标文本片段填充至所述目标文本片段标题项对应的预设位置,得到待抽取正文信息;
11、基于所述角色内容信息、针对所述信息抽取类型的描述信息、所述抽取进程描述信息、所述参考文本信息、所述参考抽取信息、所述待抽取正文信息,构建信息抽取提示信息。
12、可选地,在所述将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息之前,所述方法还包括:
13、构建初始大语言模型,并获取样本专利文本片段及其对应的实际专利关键信息,以及获取与所述样本专利文本片段相似的样本示例文本片段及其对应的样本示例关键信息;
14、确定实际专利关键信息对应的样本信息抽取类型,并获取与所述样本信息抽取类型相对应的样本信息抽取提示模板;
15、将所述样本专利文本片段、所述样本示例文本片段、所述样本示例关键信息填充至所述样本信息抽取提示模板中,得到样本信息抽取提示信息;
16、将所述样本信息抽取提示信息输入至初始大语言模型中进行信息抽取,得到在所述样本专利文本片段中抽取出的预测专利关键信息;
17、基于同一样本专利文本片段对应的实际专利关键信息和预测专利关键信息,构建所述初始大语言模型对应的损失函数;
18、基于所述损失函数,对所述初始大语言模型进行迭代训练,得到所述大语言模型。
19、可选地,在所述将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息之后,所述方法还包括:
20、确定所述专利关键信息对应的信息特征向量,以及确定所述目标文本片段对应的文本特征向量;
21、基于所述信息特征向量和所述文本特征向量,计算所述专利关键信息与所述目标文本片段之间的相似度;
22、若所述相似度大于预设阈值,则确定抽取出的所述专利关键信息满足准确性要求;
23、若所述相似度小于或等于预设阈值,则基于所述示例关键信息,对所述专利关键信息进行准确性校验,得到校验结果。
24、可选地,所述基于所述示例关键信息,对所述专利关键信息进行准确性校验,得到校验结果,包括:
25、对所述示例关键信息进行分词处理,得到所述示例关键信息对应的各个示例分词,以及对所述专利关键信息进行分词处理,得到所述专利关键信息对应的各个专利分词;
26、确定所述各个示例分词和所述各个专利分词中相同分词的分词数量,并确定所述各个示例分词对应的示例分词总数量;
27、将所述分词数量与所述示例分词总数量相除,得到所述专利关键信息对应的评价参数;
28、若所述评价参数大于第一预设参数阈值,则确定所述专利关键信息满足准确性要求;
29、若所述评价参数在第二预设参数阈值至所述第一预设参数阈值的区间内,则将所述专利关键信息和所述目标文本片段输入至预设自然语言模型中进行信息准确性校验,得到针对所述专利关键信息的准确性校验结果,其中,所述第二预设参数阈值小于所述第一预设参数阈值。
30、可选地,所述方法还包括:
31、若所述评价参数小于所述第二预设参数阈值,则重新在所述目标文本片段中抽取出专利关键信息作为备选专利关键信息,并确定所述备选专利关键信息对应的备选评价参数;
32、若所述备选评价参数小于所述第二预设参数阈值,则获取不同ipc分类信息下的校验专利文本片段,并利用所述大语言模型对不同校验专利文本片段进行信息抽取,得到不同校验专利文本片段对应的待审核抽取信息;
33、分别确定不同待审核抽取信息对应的待审核评价参数,并在不同待审核抽取信息中确定待审核评价参数小于所述第二预设参数阈值的异常抽取信息;
34、若所述异常抽取信息的信息数量大于预设数量阈值,则对所述大语言模型进行微调训练,得到训练后的大语言模型,并利用所述训练后的大语言模型重新对所述目标文本片段进行信息抽取。
35、可选地,确定所述待抽取专利文本中包含的各个文本片段,包括:
36、确定所述待抽取专利文本对应的大纲信息中的各个模块信息;
37、基于所述各个模块信息,对所述待抽取专利文本进行模块化碎片处理,得到所述各个模块信息下的初始专利文本片本文档来自技高网...
【技术保护点】
1.一种信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述示例文本片段、所述示例关键信息、所述目标文本片段,构建信息抽取提示信息,包括:
3.根据权利要求1所述的方法,其特征在于,在所述将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息之前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,在所述将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息之后,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述示例关键信息,对所述专利关键信息进行准确性校验,得到校验结果,包括:
6.根据权利要求5所述的方法,其特征在于,所述方法还包括:
7.根据权利要求1所述的方法,其特征在于,确定所述待抽取专利文本中包含的各个文本片段,包括:
8.一种信息抽取装置,其特征在于,包括:
9.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,
10.一种计算机设备,包括存储器、处理器及存储在存储器上并可在处理器上运行的计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的方法的步骤。
...【技术特征摘要】
1.一种信息抽取方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,所述基于所述示例文本片段、所述示例关键信息、所述目标文本片段,构建信息抽取提示信息,包括:
3.根据权利要求1所述的方法,其特征在于,在所述将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息之前,所述方法还包括:
4.根据权利要求1所述的方法,其特征在于,在所述将所述信息抽取提示信息输入至大语言模型中进行信息抽取,得到在所述目标文本片段中抽取出的专利关键信息之后,所述方法还包括:
5.根据权利要求4所述的方法,其特征在于,所述基于所述示例关键...
【专利技术属性】
技术研发人员:贾亚飞,张敏敏,段飞虎,印东敏,乐斌,吕强,支文峥,侯磊,王晓东,闵艳丽,柯春晓,
申请(专利权)人:同方知网数字出版技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。