System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于IPC的预分类模型训练方法、装置、存储介质制造方法及图纸_技高网

基于IPC的预分类模型训练方法、装置、存储介质制造方法及图纸

技术编号:41666899 阅读:2 留言:0更新日期:2024-06-14 15:25
本发明专利技术公开了基于IPC的预分类模型训练方法、装置、存储介质。本发明专利技术的有益效果:1.将IPC释义本身的语义信息结合专利文本语义进行了丰富,将提高IPC预分类的效果,将IPC丰富的语义信息用于分类器进行了学习,得到的IPC分类效果更好,进一步的,能提升用户语义检索专利的效果。2.实现了IPC的预分类任务,结合下游任务例如,语义搜索、新颖性检索,创造新检索等可以进一步调整预分类任务输出结果,便于下游任务的实现。3.采用了分类器和决策器,进一步考虑了的IPC分类概率之间的互相影响,能进一步的提高分类的准确率,以及分类效果。

【技术实现步骤摘要】

本专利技术属于人工智能,具体涉及基于ipc的预分类模型训练方法、装置、存储介质。


技术介绍

1、目前专利数据已经达到1.7亿以上的数据量级,需要在海量的数据中快速的进行检索并反馈给用户是亟需的。

2、在检索模型中,传统的文本匹配的做法是直接根据关键词检索或 bm25等算法计算相关性排序,但这种方法的缺点是需要维护大量的同义词典库和匹配规则。后续逐渐出现了lsa、lda等隐含语义分析技术,试图利用文档中隐藏的潜在语义来进行文本的匹配,并能够达到比直接的关键词匹配更好的效果。而随着深度学习的兴起,尤其是大规模预训练模型的提出,模型在文本匹配上的效果逐渐接近人类水平。目前比较常见的做法是将两个句子拼接起来然后输入到bert模型中,然后用cls token输出的句向量过一个线性分类器计算两个句子之间的相似度。但是要在1.7亿的数据量中在存在一定并发量的前提下,对机器的性能要求过高。

3、在现有技术中判断该查询请求中包含的关键词与索引库中包含的文档的主题是否相关的方式一般有使用基于词袋方法的主题模型法。具体方法为:首先,确定查询请求中包含的关键词对应的主题向量;其次,确定索引库中包含的每一个文档的主题向量;再次,依次利用每一个文档的主题向量与查询请求中包含的关键词对应的主题向量,计算得到文档与查询请求中包含的关键词之间的相似度;最后,按照计算得到的相似度将索引库中的文档进行排序,并按照排序结果依次将文档作为搜索结果推送给用户。

4、现有的bert预训练模型存在参数较多,由于专利更新的速率越来越快,无法很好的适应当前的检索需求。

5、现有的ipc分类号本身具有丰富的语义信息,现有的专利分类方法,均难以考虑到ipc分类号本身释意,而只是考虑到文本本身对应ipc分类的信息,分类的效果上限不高。

6、中国专利公开号:cn114579749a公开了专利数据的cpc分类方法及装置其中该方法包括:获取待分类的专利数据;将待分类的专利数据拆分为多个部分;根据预设特征提取策略,对每一部分的待分类的专利数据进行特征提取,得到每一部分的待分类的专利数据对应的特征向量;将每一部分的待分类的专利数据对应的特征向量输入预先建立的神经网络cpc分类模型的多个分类子模型中,得到专利数据的多个cpc分类子结果;根据多个cpc分类子结果预测得到最终的cpc分类结果;神经网络cpc分类模型根据多个历史专利样本数据预先训练生成,分类模型包括多个分类子模型。本专利技术可以实现高效准确地对专利数据进行cpc分类, 但是该神经网络cpc分类模型采用的是cpc词典、ipc词典、全文分词词典和关键词词典训练得到均是基于历史的专利样本进行分类,其对于cpc的分类都是要将分类到小组级别,这样的分类存在不合理之处,即在某些小组上的分类是由该小组释义本身存在缺陷导致分类不准的问题,而某些小组上较为准确是由于,该小组的释义较为准确的和其组内的专利形成了语义关联性,故其核心需要的是解决那些分类不准的小组问题。

7、中国专利公开号:cn110008342a公开了一种文献分类方法、装置、设备及存储介质。包括:获取待分类文献的文本信息以及类别标签信息;其中,类别标签信息为设定分类体系中描述文献类别的信息;对所述文本信息和所述类别标签信息进行设定神经网络处理,并根据所述设定神经网络的处理结果确定所述文献的分类。本专利技术实施例提供的文献分类方法,采用设定神经网对文本信息和类别标签信息同时进行处理,获得文献的分类,相对于现有技术,不只是基于文本信息对文献进行分类,实现对文献的自动分类,提高对文献分类的准确性。该方法直接采用了类别标签信息,该类别标签信息和待分类文献的文本信息并没有通过特征提取而是直接使用神经网络进行分类。这里会存在文本信息与被标签信息关联性不强的问题。其次特别是专利分类信息,在某些父目录不相同的情况下,某些子目录下的表述十分一致,这将为专利分类造成较大的困扰,即出现在两个目录级下的概率都很高的情况

8、中国专利公开号:cn109471945a公开了一种基于深度学习的医疗文本分类方法,包括:获取待分类医疗文本的词向量序列和疾病类别信息的词向量序列,将所述待分类医疗文本的词向量序列和疾病类别信息的词向量序列依次输入递归神经网络和双向注意力机制层进行处理,得到医疗疾病信息向量序列,将所述医疗疾病信息向量序列经过池化层和全连接层的处理得到所述待分类医疗文本的分类预测结果。该方法中提到了通过采用疾病类别信息进行词向量的信息判断。得到待分类医疗文本的分类预测结果,由于在疾病领域文本分类症状和疾病的的差异性必须是在症状上存在差异,才会有预测疾病结果上的差异,而专利作为技术文件,每一篇都存在差异,如何将这些差异放在目前已有的分类体系下,需要更在语义的相似性相关性作出进一步的语义理解,提高分类效果。


技术实现思路

1、本专利技术一方面公开了一种ipc的预分类模型训练模型,通过ipc的预分类模型可以做到,现有的bert预训练模型采用bert由12层transformer组成,参数量很大达到108m,对算力的要求较高,且训练模型花费的时间也很长,在本专利技术方案中采用sbert模型为框架将现有的ipc分类号中存在的示意结合专利自身文本数据进行自监督学习实现较高的分类效率和较高的分类准确率,本方案中采用分类器结合决策器达到了较好的分类效果。

2、本专利技术另一方面公开了一种文本的ipc预分类方法,通过用户给出的信息或其他信息,通过ipc的预分类模型快速给出ipc预分类结果,实现针对ipc分类号的结果预测。

3、本专利技术第三方面公开了一种ipc的预分类模型训练装置,其具有获取模块、预处理模块、词嵌入模块、深度学习模块、分类器和决策器,通过不断训练,提升ipc预分类效果。

4、本专利技术还开公开了相关方法的存储设备。

5、基于ipc的预分类模型训练方法,包括如下步骤:

6、s1、选取各领域专利文本提取其中语料组成原始专利语料库,选取ipc分类号释义组成原始专利分类语料库;

7、s2、对原始专利语料库和原始专利分类语料库采用ipc分类标准进行分级分类,并构建原始专利语料库与原始专利分类语料库映射关系;

8、s3、对原始专利语料库和原始专利分类语料库进行分词,丢弃屏蔽词,获得专利语料库和专利分类语料库并继承映射关系;

9、s4、将专利语料库和专利分类语料库进行向量化;

10、s5、利用深度学习模型对专利语料库和专利分类语料库进行特征提取,得到专利文本特征向量和专利分类文本特征向量并继承映射关系;

11、s6、将专利分类文本特征向量和其有映射关系的所有专利文本特征向量按照所属的分级分类进行输入,至分类器,训练分类器进行初步ipc分类概率输出;

12、s7、将初步ipc预分类结果输入决策器中,训练决策器输出ipc预分类结果。

13、优选的,s1步骤中选取各领域专利文本提取其中语料组成原始专利语料库,选取ipc分类号本文档来自技高网...

【技术保护点】

1.基于IPC的预分类模型训练方法,其特征在于:预分类模型包括分类器和决策器,训练方法包括:

2.根据权利要求1所述的基于IPC的预分类模型训练方法,其特征在于:其中S3步骤中分词采用的分词组件包括Hanlp、StanfordNLP、jieba、THULAC、SnowNLP、pynlpir、CoreNLP、pyLTP和百度lac中单一种或多种组合。

3.根据权利要求1所述的基于IPC的预分类模型训练方法,其特征在于:其中S3步骤中屏蔽词包括基于词性的屏蔽词和无专利语义屏蔽词。

4.根据权利要求3所述的基于IPC的预分类模型训练方法,其特征在于:将所述的基于词性的屏蔽词包括动词、代词、形容词、数词、量词、副词、连词、冠词、介词、助词。

5.根据权利要求1所述的基于IPC的预分类模型训练方法,其特征在于:步骤S5深度学习模型包括引入注意力机制的双向循环神经网路Attention-Bi-RNN和引入注意力机制的双向长短记忆网络Attention-Bi-LSTM中的一种或2种以上组合。

6.根据权利要求1所述的基于IPC的预分类模型训练方法,其特征在于:步骤S4中向量化采用的模型可以是word2vec、glove、elmo、bert、one-hot、词袋、fasttext之中的一种向量化模型。

7.根据权利要求1所述的基于IPC的预分类模型训练方法,其特征在于:步骤S6中的分类器采用SBERT模型进行分类,SBERT模型包括专利语料BERT子网和分类语料BERT子网,专利文本特征向量输入至专利语料BERT子网,专利分类文本特征向量输入至分类语料BERT子网,专利语料BERT子网和分类语料BERT子网后接入一层mean-polling池化层得到特征向量u、v,并采用u、v、|u-v|作为输入至softmax层进行分类,损失函数采用triplet loss;

8.根据权利要求7所述的基于IPC的预分类模型训练方法,其特征在于:SBERT模型的学习率包括:2e-5;warmup包括:0.1-0.5;batchsize包括:16-32;优化器包括Adam。

9.根据权利要求1所述的基于IPC的预分类模型训练方法,其特征在于:决策器采用卷积神经网络模型。

10.一种文本的IPC预分类方法,其特征在于:

11.根据权利要求10所述的一种文本的IPC预分类方法,其特征在于:所述的IPC分类结果包括主IPC分类号以及非主IPC分类号。

12.根据权利要求10所述的一种文本的IPC预分类方法,其特征在于:获取任务信息,并将任务信息输入到深度学习模型得到任务信息的文本向量,任务信息的文本向量输入到分类器中得到任务IPC分类号,以任务IPC分类号进行过滤预测IPC分类号,将过滤后的预测IPC分类号进行输出。

13.一种IPC的预分类模型训练装置,其特征在于,包括:

14.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储有程序代码,所述程序代码用于实现如权利要求1至9中任一所述的预分类模型训练方法或如权利要求10至12中任一所述的预分类方法。

15.一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求10至12中任一所述的预分类方法。

...

【技术特征摘要】

1.基于ipc的预分类模型训练方法,其特征在于:预分类模型包括分类器和决策器,训练方法包括:

2.根据权利要求1所述的基于ipc的预分类模型训练方法,其特征在于:其中s3步骤中分词采用的分词组件包括hanlp、stanfordnlp、jieba、thulac、snownlp、pynlpir、corenlp、pyltp和百度lac中单一种或多种组合。

3.根据权利要求1所述的基于ipc的预分类模型训练方法,其特征在于:其中s3步骤中屏蔽词包括基于词性的屏蔽词和无专利语义屏蔽词。

4.根据权利要求3所述的基于ipc的预分类模型训练方法,其特征在于:将所述的基于词性的屏蔽词包括动词、代词、形容词、数词、量词、副词、连词、冠词、介词、助词。

5.根据权利要求1所述的基于ipc的预分类模型训练方法,其特征在于:步骤s5深度学习模型包括引入注意力机制的双向循环神经网路attention-bi-rnn和引入注意力机制的双向长短记忆网络attention-bi-lstm中的一种或2种以上组合。

6.根据权利要求1所述的基于ipc的预分类模型训练方法,其特征在于:步骤s4中向量化采用的模型可以是word2vec、glove、elmo、bert、one-hot、词袋、fasttext之中的一种向量化模型。

7.根据权利要求1所述的基于ipc的预分类模型训练方法,其特征在于:步骤s6中的分类器采用sbert模型进行分类,sbert模型包括专利语料bert子网和分类语料bert子网,专利文本特征向量输入至专利语料bert子网,专利分类文本特征向量输入至分类语料bert子网,专利语...

【专利技术属性】
技术研发人员:王峻岭叶广海王亚莉熊呈润吴鹏莫淑欢李静雅张孟迪庄序填陈冰川赵淦森唐华麦家健卢敏杰钟金龙
申请(专利权)人:广州奥凯信息咨询有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1