本发明专利技术提出了一种基于语义扩展的法律文献关键词抓取方法,包括如下步骤:S1,通过检索关键词获取相关关键词的法律文献数据集,在该数据集中法律文献关键词进行相关性权重计算,以捕捉词与词之间的语义关系;S2,利用语义神经网络模型对法律文献进行编码,通过语义卷积网络对节点进行特征提取,对法律文献关键词进行节点标注并根据计算结果建立语义关联;S3,利用语义扩展评分计算将法律文献关键词转换为语义扩展推荐权值,基于语义扩展推荐权值进行关键词抽取。
【技术实现步骤摘要】
本专利技术涉及法律关键词知识图谱构建方法,尤其涉及一种基于语义扩展的法律文献关键词抓取方法。
技术介绍
1、在法律文献的检索过程中,需要对大量的法律文献进行筛选和分析,如果仅仅凭借相应的检索关键词进行法律文献的选择,则会造成法律文献提取不充分的问题,现有技术中采用朴素贝叶斯网络对于法律文献的关键词训练和检索产生数据稀疏的问题,尤其法律领域,新的、非热门的关键词可能很少出现在文档中,导致朴素贝叶斯模型的性能下降,此外法律文献中存在大量的同义词和近义词,这可能会影响朴素贝叶斯模型的训练和检索效果。如何进行法律文献关键词相关性的匹配和对应,这就亟需本领域技术人员解决相应的技术问题。
技术实现思路
1、本专利技术旨在至少解决现有技术中存在的技术问题,特别创新地提出了一种基于语义扩展的法律文献关键词抓取方法。
2、为了实现本专利技术的上述目的,本专利技术提供了一种基于语义扩展的法律文献关键词抓取方法,包括如下步骤:
3、s1,通过检索关键词获取相关关键词的法律文献数据集,在该数据集中法律文献关键词进行相关性权重计算,以捕捉词与词之间的语义关系;
4、s2,利用语义神经网络模型对法律文献进行编码,通过语义卷积网络对节点进行特征提取,对法律文献关键词进行节点标注并根据计算结果建立语义关联;
5、s3,利用语义扩展评分计算将法律文献关键词转换为语义扩展推荐权值,基于语义扩展推荐权值进行关键词抽取。
6、上述技术方案优选的,所述s1包括:</p>7、s1-1,形成的法律文献数据集包含了检索关键词,并根据检索关键词进行语义扩展,由于法律文献中关键词的范围限制在相应的领域中,需要对语义扩展的词语进行权重计算,从而符合语义相关性的条件关系,
8、s1-2,设置关键词相关性提取是基于法律领域的语义相关性,不能扩展到其他领域;
9、对于关键词中的任意名词词性,分别提取数据集中x个法律文献的关键词数据,所述x为整数,该x中有包含程度副词或数量副词,例如:“情节显著轻微”,“一年以下,一年到三年,违法所得数额100万”,从而限定得到程度关键词x1和数量关键词x2,以及程度关键词x1和数量关键词x2的数量关联关系阈值ε。
10、上述技术方案优选的,所述s1还包括:
11、s1-3,计算作为关键词特征信息的关键词相关性权重,
12、
13、其中:是程度关键词x1和数量关键词x2共同在该法律文献中出现的累加数量,是程度关键词x1出现在该法律文献和数量关键词x2不出现在该法律文献的累加数量,是程度关键词x1不出现在该法律文献和数量关键词x2出现在该法律文献的累加数量,m是具有关键词的法律文献总数。
14、设置关联关系阈值ε目的是为了避免大量冗余数据干扰,根据相关系数进行计算,求得:
15、其中,值域在(-1,1)之间。
16、上述技术方案优选的,所述s2包括:
17、所述s2包括:
18、s2-1,根据程度关键词x1和数量关键词x2的语义相关性,通过语义神经网络模型对关键词进行编码操作,全部关键词特征向量为(y1,y2,…yi)其中相关性关键词特征向量为(y′1,y′2,…y′j),语义神经网络模型为:
19、
20、其中,n为进行语义分析过程中进行神经网络训练的批次,i为全部批次数量,j为进行相关性匹配的批次,bi,j为全部关键词批次i中第j个相关性法律文献关键词批次的匹配概率,yi为神经网络训练过程中全部批次i的关键词特征,y′j为神经网络训练过程中相关性批次j的关键词特征,β为是softmax函数的平滑度。
21、上述技术方案优选的,所述s2包括:
22、s2-2,针对全部关键词节点形成对应的相关性的边,并对下一节点进行节点特征标注,通过所形成的数值推理根据阈值threshold对节点和节点之间的距离l进行计算,其中,d为距离均值。
23、上述技术方案优选的,所述s2包括:
24、s2-3,所述数值推理在推理过程中构建的节点权重k{v,v′},节点v代表某类别法律文献关键词推理数值节点,节点v′代表相关性法律文献关键词推理数值节点;
25、其中,k(v)为某类别法律文献关键词推理数值权重,k(v′)为相关性法律文献关键词推理数值权重。
26、上述技术方案优选的,所述s3包括:
27、s3-1,根据节点的权重计算,获取节点之间的关联程度,通过语义扩展评分公司计算经过语义扩展之后的含有相应关键词法律文献的推荐权值,其中ws为获取的s个经过节点权值k{v,v′}计算的相关性指数,该指数反映了在语义扩展过程中,特定节点获取的含有关键词法律文献的相关性;σ为需检索的相关法律文献关键词与对应的法律文献匹配程度值。
28、综上所述,由于采用了上述技术方案,本专利技术的有益效果是:
29、本专利技术关键词抓取方法具有较强的通用性,该模型不仅适用于法律文献,还可应用于其他领域的文本数据语义扩展,并且自动化程度高,可自动计算数据节点权重并扩展法律文献的语义,减少了人工干预的需要。
30、本专利技术的附加方面和优点将在下面的描述中部分给出,部分将从下面的描述中变得明显,或通过本专利技术的实践了解到。
本文档来自技高网...
【技术保护点】
1.一种基于语义扩展的法律文献关键词抓取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述S1包括:
3.根据权利要求2所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述S1还包括:
4.根据权利要求1所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述S2包括:
5.根据权利要求4所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述S2包括:
6.根据权利要求5所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述S2包括:
7.根据权利要求1所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述S3包括:
【技术特征摘要】
1.一种基于语义扩展的法律文献关键词抓取方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述s1包括:
3.根据权利要求2所述的基于语义扩展的法律文献关键词抓取方法,其特征在于,所述s1还包括:
4.根据权利要求1所述的基于语义扩展的法律文献关键词...
【专利技术属性】
技术研发人员:李昌超,
申请(专利权)人:西南政法大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。