一种专利文本可授权性预测方法及装置制造方法及图纸

技术编号:31571637 阅读:15 留言:0更新日期:2021-12-25 11:11
本申请提供了一种专利文本可授权性预测方法及装置,属于自然语言处理中的文本匹配技术,目的是为了对撰写的专利申请文件是否符合专利法第26条进行初步预测。所述方法包括:利用4头注意力的transformer编码器对待预测专利文本、授权专利文本、以及未授权专利文本进行向量化编码,分别得到q[1:m]、d1[1:n]、和d2[1:n];对q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF

【技术实现步骤摘要】
一种专利文本可授权性预测方法及装置


[0001]本申请涉及自然语言处理中的文本匹配技术。

技术介绍

[0002]专利不仅是一种重要的财产权和无形资产,而且是企业的一种重要的竞争资源,专利发展水平更是成为衡量一个地区综合实力、发展能力和核心竞争力的战略性标志。
[0003]专利申请文件的撰写质量直接影响专利的授权前景,对撰写好的申请文件,尤其是权利要求书和说明书进行可授权性的初步预测是十分必要的。

技术实现思路

[0004]本申请的目的是为了满足现有技术的发展需求,提供一种专利文本可授权性预测方法及装置。
[0005]本申请的一种专利文本可授权性预测方法包括:
[0006]利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度;
[0007]对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;
[0008]利用k个RBF

kernel来转换余弦得分矩阵M,得到矩阵K1至K
k
,每个kernel集中于一个以μ
k
为中心的相似度分布中,并且集中范围由σ决定:
[0009][0010]对于第p个kernel,p=1,2,

,k,计算矩阵K
p

[0011][0012]对于所述授权专利文本和所述未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。
[0013]可选地,在所述利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码之前,所述方法还包括:
[0014]对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为词向量,将所述词向量作为所述双层transformer编码器的输入。
[0015]可选地,所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本设定为相同长度。
[0016]可选地,所述授权专利文本和所述未授权专利文本的获取方法包括:
[0017]对所述待预测专利文本进行向量化编码;
[0018]以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为授权的专利文档、所有因不符合专利法第26条而未授权的专利文本进行评分;
[0019]选排序靠前的授权专利文本和未授权专利文本。
[0020]可选地,所述transformer编码器为4头注意力的双层transformer编码器。
[0021]本申请的一种专利文本可授权性预测装置包括:
[0022]向量化编码模块,其配置成利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度;
[0023]第一计算模块,其配置成对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;
[0024]转换模块,其配置成利用k个RBF

kernel来转换余弦得分矩阵M,得到矩阵K1至K
k
,每个kernel集中于一个以μ
k
为中心的相似度分布中,并且集中范围由σ决定:
[0025][0026]第二计算模块,其配置成对于第p个kernel,p=1,2,

,k,计算矩阵K
p

[0027][0028]预测模块,其配置成对于所述授权专利文本和所述未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。
[0029]可选地,所述装置还包括:
[0030]分词模块,其配置成对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为词向量,将所述词向量作为所述双层transformer编码器的输入。
[0031]可选地,所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本设定为相同长度。
[0032]可选地,所述授权专利文本和所述未授权专利文本的获取方法包括:
[0033]对所述待预测专利文本进行向量化编码;
[0034]以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为授权的专利文档、所有因不符合专利法第26条而未授权的专利文本进行评分;
[0035]选取排序靠前的授权专利文本和未授权专利文本。
[0036]可选地,所述transformer编码器为4头注意力的双层transformer编码器。
[0037]本申请的一种专利文本可授权性预测方法及装置,能够对待预测专利文本的说明书和权利要求是否符合专利法第26条在一定程度上做出判断,从专利法第26的角度预测待预测专利文本的可授权性。
附图说明
[0038]图1为本申请实施方式一的预测模型的结构示意图;
[0039]图2为本申请实施方式一的一种专利文本可授权性预测方法的示意性流程图;
[0040]图3为本申请实施方式二的一种专利文本可授权性预测装置的结构示意图。
具体实施方式
[0041]具体实施方式一:如图1所示,本实施方式的一种专利文本可授权性预测方法主要利用了Transformer

Kernel模型,所述方法一般性地可以包括图2所示的步骤S1至步骤S5。
[0042]步骤S1、对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为向量,即对各专利文本进行向量化编码。
[0043]上述步骤S1中,所述的授权专利文本是指曾经获得授权的专利文本,包括法律状态为授权、因未缴年费而导致的专利权终止、以及授权后被无效掉的专利文本,因这类文本的权利要求书和说明书均满足专利法第26条的规定,因此可以作为正例文本用来与待预测专利文本进行比对,以评价待预测专利文本的撰写质量。所述的未授权专利文本是指因不满足专利法第26条而未授权(包括驳回和视为撤回)的专利文本,因权利要求书或说明书在撰写上存在一些不清楚之处,因此可以作为负例文本用来与待预测专利文本进行比对,以评价待预测专利文本的撰写质量。
[0044]所本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种专利文本可授权性预测方法,其特征在于,包括:利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码,得到所述待预测专利文本的文本向量q[1:m]、所述授权专利文本的文本向量d1[1:n]、以及所述未授权专利文本的文本向量d2[1:n],其中,m表示向量q[1:m]的维度,n表示向量d1[1:n]和d2[1:n]的维度;对所述q[1:m]分别与d1[1:n]和d2[1:n]做余弦计算,得到余弦得分矩阵M;利用k个RBF

kernel来转换余弦得分矩阵M,得到矩阵K1至K
k
,每个kernel集中于一个以μ
k
为中心的相似度分布中,并且集中范围由σ决定:对于第p个kernel,p=1,2,

,k,计算矩阵K
p
:对于所述授权专利文本和所述未授权专利文本,分别将所有kernel得到的结果拼接并进行线性映射,得到预测授权率和预测不授权率。2.根据权利要求1所述的方法,其特征在于,在所述利用4头注意力的transformer编码器对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行向量化编码之前,所述方法还包括:对所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本进行分词,并将分词后得到的单词转换为词向量,将所述词向量作为所述双层transformer编码器的输入。3.根据权利要求1或2所述的方法,其特征在于,所述待预测专利文本、所述授权专利文本、以及所述未授权专利文本设定为相同长度。4.根据权利要求1所述的方法,其特征在于,所述授权专利文本和所述未授权专利文本的获取方法包括:对所述待预测专利文本进行向量化编码;以所述待预测专利文本为作查询,利用LambdaRank对数据库中的所有法律状态为授权的专利文档、所有因不符合专利法第26条而未授权的专利文本进行评分;选取排序靠前的授权专利文本和未授权专利文本。5.根据权利要求1所述的方法,其特征在于,所述transformer编码器为4头注意力的双层transformer编码器。6.一...

【专利技术属性】
技术研发人员:刘悦杨沐昀张明明朱聪慧赵增琴曹海龙赵铁军徐冰
申请(专利权)人:哈尔滨工业大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1