【技术实现步骤摘要】
一种语义检索方法、系统及计算机存储介质
[0001]本申请涉及检索
,具体而言,涉及一种语义检索方法、系统及计算机存储介质。
技术介绍
[0002]信息技术的快速发展改变了人们的工作、学习与生活,如何从大量的文本数据中快速并且准确地检索到用户需要的信息成为了大数据信息时代的一大难题。传统信息检索方法是基于关键词的检索,忽略了语义信息,用户检索体验较差。如何对信息检索技术进行优化,以改善用户查询过程中存在的“词不达意”和“文档不匹配”的问题,是目前急需解决的技术问题。
技术实现思路
[0003]为了解决上述检索领域现有技术中存在的技术问题,本申请提供了一种语义检索方法、系统及计算机存储介质。
[0004]本申请的第一方面提供了一种语义检索方法,其特征在于,所述方法包括:
[0005]S1、构建属于检索领域的主题词表;
[0006]S2、响应于内容检索请求,确定所述检索请求中的至少一个检索关键词;
[0007]S3、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词;
[0008]S4、分别基于所述至少一个目标检索词进行内容检索,得到多条检索结果;
[0009]S5、将所述多条检索结果合并为一条检索结果进行输出。
[0010]优选地,步骤S1中构建属于检索领域的主题词表,包括:
[0011]S11,对预定领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集 ...
【技术保护点】
【技术特征摘要】
1.一种语义检索方法,其特征在于,所述方法包括:S1、构建属于检索领域的主题词表;S2、响应于内容检索请求,确定所述检索请求中的至少一个检索关键词;S3、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词;S4、分别基于所述至少一个目标检索词进行内容检索,得到多条检索结果;S5、将所述多条检索结果合并为一条检索结果进行输出。2.根据权利要求1所述的语义检索方法,其特征在于:步骤S1中构建属于检索领域的主题词表,包括:S11,对预定领域专利文本进行预处理:首先提取各专利文本中的子句;其次,对每个子句,结合属性词本体词库,进行分词,从而构建初步主题词集;S12,对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别;S13,基于所述识别得出的等同关系、相关关系、等级关系,构建主题词表。3.根据权利要求2所述的语义检索方法,其特征在于:所述步骤S12中的等同关系识别,包括:根据共现分析和字面相似度计算加权的方法来识别词间的等同关系,计算方法如下:Sim(T
i
,T
j
)=α
·
W(T
i
,T
j
)+β
·
S(T
i
,T
j
)其中,T
i
、T
j
为两个不相同的词,Sim(T
i
,T
j
)为两词间的相似度;W(T
i
,T
j
)为两词间的共现权重;S(T
i
,T
j
)为两词间的字面相似度;α、β为权重因子且α+β=1。4.根据权利要求2所述的语义检索方法,其特征在于:所述共现权重的计算方法为:其中,W(T1,T2)为词T1和T2的距离,表征两词间的共现权重;T1、T2为两个不相同的词,K表示特征向量的维数;W
1i
表示词T1的特征向量第i维的值;W
2i
表示词T2的特征向量第i维的值。5.根据权利要求2所述的语义检索方法,其特征在于:所述字面相似度计算方法下:其中,T
i
、T
j
为两个不相同的词,S(T
i
,T
j
)是词间的字面相似度;L
ij
为词T
i
和T
j
中相同字的个数;L
i
、L
j
分别为词T
i
和T
j
的长度。6.根据权利要求2所述的语义检索方法,其特征在于:所述步骤S12中的相关关系识别,包括:采用如下公式来识别术语之间的关联度:Rel(T
i
,T
j
)=γ
·
W(T
i
,T
【专利技术属性】
技术研发人员:齐军华,张凯,周建设,王伟丽,
申请(专利权)人:首都师范大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。