一种语义检索方法、系统及计算机存储介质技术方案

技术编号:35574403 阅读:31 留言:0更新日期:2022-11-12 15:59
本申请一种语义检索方法、系统及计算机存储介质,将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系,根据这三种词间关系自动构建一部汽车专利相关领域主题词表。相比于现有技术,无需手工构建主题语表,构建及更新速度更快,避免了不同工作人员的经历、知识不统一引起构建的标准不一的问题。准不一的问题。准不一的问题。

【技术实现步骤摘要】
一种语义检索方法、系统及计算机存储介质


[0001]本申请涉及检索
,具体而言,涉及一种语义检索方法、系统及计算机存储介质。

技术介绍

[0002]信息技术的快速发展改变了人们的工作、学习与生活,如何从大量的文本数据中快速并且准确地检索到用户需要的信息成为了大数据信息时代的一大难题。传统信息检索方法是基于关键词的检索,忽略了语义信息,用户检索体验较差。如何对信息检索技术进行优化,以改善用户查询过程中存在的“词不达意”和“文档不匹配”的问题,是目前急需解决的技术问题。

技术实现思路

[0003]为了解决上述检索领域现有技术中存在的技术问题,本申请提供了一种语义检索方法、系统及计算机存储介质。
[0004]本申请的第一方面提供了一种语义检索方法,其特征在于,所述方法包括:
[0005]S1、构建属于检索领域的主题词表;
[0006]S2、响应于内容检索请求,确定所述检索请求中的至少一个检索关键词;
[0007]S3、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词;
[0008]S4、分别基于所述至少一个目标检索词进行内容检索,得到多条检索结果;
[0009]S5、将所述多条检索结果合并为一条检索结果进行输出。
[0010]优选地,步骤S1中构建属于检索领域的主题词表,包括:
[0011]S11,对预定领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集
[0012]S12,对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;
[0013]S13,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。
[0014]优选地,所述步骤S12中的等同关系识别,包括:根据共现分析和字面相似度计算加权的方法来识别词间的等同关系,计算方法如下:
[0015]Sim(T
i
,T
j
)=α
·
W(T
u
,T
j
)+β
·
S(T
u
,T
j
)
[0016]其中,T
u
、T
j
为两个不相同的词,Sim(T
u
,T
j
)为两词间的相似度;
[0017]W(T
u
,T
j
)为两词间的共现权重;S(T
u
,T
j
)为两词间的字面相似度;α、β为权重因子且α+β=1。
[0018]优选地,所述共现权重的计算方法为:
[0019][0020]其中,W(T1,T2)为词T1和T2的距离,表征两词间的共现权重;T1、T2为两个不相同的
词,K表示特征向量的维数;W
1i
表示词T1的特征向量第i维的值;W
2i
表示词T2的特征向量第i维的值。
[0021]优选地,所述字面相似度计算方法下:
[0022][0023]其中,T
i
、T
j
为两个不相同的词,S(T
i
,T
j
)是词间的字面相似度;L
ij
为词T
i
和T
j
中相同字的个数;L
i
、L
j
分别为词T
i
和T
j
的长度。
[0024]优选地,所述步骤S12中的相关关系识别,包括:采用如下公式来识别术语之间的关联度:
[0025]Rel(T
i
,T
j
)=γ
·
W(T
i
,T
j
)+δ
·
Dice(T
i
,T
j
)
[0026]其中,T
i
、T
j
为两个不相同的词,Rel(T
i
,T
j
)为两词间的相关度;W(T
i
,T
j
)为两词间的共现权重;Dice(T
i
,T
j
)为两词间的Dice测试权重;γ、δ为权重因子且γ+δ=1。
[0027]优选地,所述两词间的Dice测试权重的计算方式如下:
[0028]Dice(T
i
,T
j
)=2F(T
i
,T
j
)/(F(T
i
)+F(T
j
))
[0029]其中,T
i
、T
j
为两个不相同的词,Dice(T
i
,T
j
)表示词T
i
与词T
j
的Dice测度值;F(T
i
,T
j
)表示词T
i
与词T
j
共同出现的文章总数;F(T
i
)表示出现词T
i
的文章总数;F(T
j
)表示出现词T
j
的文章总数。
[0030]优选地,所述步骤S12中的等级关系识别,采用如下公式:
[0031][0032]idf(Ti)=log(N/n
i
)
[0033]其中,H(Ti)为词汇的等级系数;Freq(T
i
)为词汇T
i
的总词频,len(Ti)表示词汇T
i
的长度;idf(Ti)为词汇的逆文档频率;N表示文档总数;n
i
指出现词汇Ti的文档数。
[0034]本申请的第二方面提供了一种语义检索系统,所述系统包括:
[0035]构建模块,用于构建属于检索领域的主题词表;
[0036]检索词提取模块一,用于响应于内容检索请求,确定所述检索请求中的至少一个检索关键词;
[0037]检索词提取模块二、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词;
[0038]检索模块,用于分别基于所述至少一个目标检索词进行内容检索,得到多条检索结果;
[0039]检索输出模块,用于将所述多条检索结果合并为一条检索结果进行输出。
[0040]本申请的第三方面提供了一种语义检索设备,其特征在于,所述设备包括:
[0041]存储有可执行程序代码的存储器;
[0042]与所述存储器耦合的处理器;
[0043]所述处理器调用所述存储器中存储的所述可执行程序代码,执行如前述所述的语义检索方法。
[0044]本申请的第四方面提供了一种存储介质,其特征在于,所述存本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种语义检索方法,其特征在于,所述方法包括:S1、构建属于检索领域的主题词表;S2、响应于内容检索请求,确定所述检索请求中的至少一个检索关键词;S3、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词;S4、分别基于所述至少一个目标检索词进行内容检索,得到多条检索结果;S5、将所述多条检索结果合并为一条检索结果进行输出。2.根据权利要求1所述的语义检索方法,其特征在于:步骤S1中构建属于检索领域的主题词表,包括:S11,对预定领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;S12,对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;S13,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。3.根据权利要求2所述的语义检索方法,其特征在于:所述步骤S12中的等同关系识别,包括:根据共现分析和字面相似度计算加权的方法来识别词间的等同关系,计算方法如下:Sim(T
i
,T
j
)=α
·
W(T
i
,T
j
)+β
·
S(T
i
,T
j
)其中,T
i
、T
j
为两个不相同的词,Sim(T
i
,T
j
)为两词间的相似度;W(T
i
,T
j
)为两词间的共现权重;S(T
i
,T
j
)为两词间的字面相似度;α、β为权重因子且α+β=1。4.根据权利要求2所述的语义检索方法,其特征在于:所述共现权重的计算方法为:其中,W(T1,T2)为词T1和T2的距离,表征两词间的共现权重;T1、T2为两个不相同的词,K表示特征向量的维数;W
1i
表示词T1的特征向量第i维的值;W
2i
表示词T2的特征向量第i维的值。5.根据权利要求2所述的语义检索方法,其特征在于:所述字面相似度计算方法下:其中,T
i
、T
j
为两个不相同的词,S(T
i
,T
j
)是词间的字面相似度;L
ij
为词T
i
和T
j
中相同字的个数;L
i
、L
j
分别为词T
i
和T
j
的长度。6.根据权利要求2所述的语义检索方法,其特征在于:所述步骤S12中的相关关系识别,包括:采用如下公式来识别术语之间的关联度:Rel(T
i
,T
j
)=γ
·
W(T
i
,T

【专利技术属性】
技术研发人员:齐军华张凯周建设王伟丽
申请(专利权)人:首都师范大学
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1