一种语义检索方法、系统及计算机存储介质技术方案

技术编号：35574403 阅读：32 留言：0更新日期：2022-11-12 15:59

本申请一种语义检索方法、系统及计算机存储介质，将在计算机相关技术基础之上应用统计学的相关知识和本申请提出的等同关系特征加权、相关关系特征加权和等级系数计算自动识别汽车专利领域内词与词之间的等同、相关和等级关系，根据这三种词间关系自动构建一部汽车专利相关领域主题词表。相比于现有技术，无需手工构建主题语表，构建及更新速度更快，避免了不同工作人员的经历、知识不统一引起构建的标准不一的问题。准不一的问题。准不一的问题。

全部详细技术资料下载

【技术实现步骤摘要】
一种语义检索方法、系统及计算机存储介质

[0001]本申请涉及检索
，具体而言，涉及一种语义检索方法、系统及计算机存储介质。

技术介绍

[0002]信息技术的快速发展改变了人们的工作、学习与生活,如何从大量的文本数据中快速并且准确地检索到用户需要的信息成为了大数据信息时代的一大难题。传统信息检索方法是基于关键词的检索,忽略了语义信息,用户检索体验较差。如何对信息检索技术进行优化,以改善用户查询过程中存在的“词不达意”和“文档不匹配”的问题，是目前急需解决的技术问题。

技术实现思路

[0003]为了解决上述检索领域现有技术中存在的技术问题，本申请提供了一种语义检索方法、系统及计算机存储介质。
[0004]本申请的第一方面提供了一种语义检索方法，其特征在于，所述方法包括：
[0005]S1、构建属于检索领域的主题词表；
[0006]S2、响应于内容检索请求，确定所述检索请求中的至少一个检索关键词；
[0007]S3、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词；
[0008]S4、分别基于所述至少一个目标检索词进行内容检索，得到多条检索结果；
[0009]S5、将所述多条检索结果合并为一条检索结果进行输出。
[0010]优选地，步骤S1中构建属于检索领域的主题词表，包括：
[0011]S11，对预定领域专利文本进行预处理：首先提取各专利文本中的子句；其次，对每个子句，结合属性词本体词库，进行分词，从而构建初步主题词集...

【技术保护点】

【技术特征摘要】
1.一种语义检索方法，其特征在于，所述方法包括：S1、构建属于检索领域的主题词表；S2、响应于内容检索请求，确定所述检索请求中的至少一个检索关键词；S3、基于主题词表获取与所述检索关键词的语义相匹配的至少一个目标检索词；S4、分别基于所述至少一个目标检索词进行内容检索，得到多条检索结果；S5、将所述多条检索结果合并为一条检索结果进行输出。2.根据权利要求1所述的语义检索方法，其特征在于：步骤S1中构建属于检索领域的主题词表，包括：S11，对预定领域专利文本进行预处理：首先提取各专利文本中的子句；其次，对每个子句，结合属性词本体词库，进行分词，从而构建初步主题词集；S12，对所述初步主题词集进行等同关系识别、相关关系识别、等级关系识别；S13，基于所述识别得出的等同关系、相关关系、等级关系，构建主题词表。3.根据权利要求2所述的语义检索方法，其特征在于：所述步骤S12中的等同关系识别，包括：根据共现分析和字面相似度计算加权的方法来识别词间的等同关系，计算方法如下：Sim(T
i
，T
j
)＝α
·
W(T
i
，T
j
)+β
·
S(T
i
，T
j
)其中，T
i
、T
j
为两个不相同的词，Sim(T
i
，T
j
)为两词间的相似度；W(T
i
，T
j
)为两词间的共现权重；S(T
i
，T
j
)为两词间的字面相似度；α、β为权重因子且α+β＝1。4.根据权利要求2所述的语义检索方法，其特征在于：所述共现权重的计算方法为：其中，W(T1，T2)为词T1和T2的距离，表征两词间的共现权重；T1、T2为两个不相同的词，K表示特征向量的维数；W
1i
表示词T1的特征向量第i维的值；W
2i
表示词T2的特征向量第i维的值。5.根据权利要求2所述的语义检索方法，其特征在于：所述字面相似度计算方法下：其中，T
i
、T
j
为两个不相同的词，S(T
i
，T
j
)是词间的字面相似度；L
ij
为词T
i
和T
j
中相同字的个数；L
i
、L
j
分别为词T
i
和T
j
的长度。6.根据权利要求2所述的语义检索方法，其特征在于：所述步骤S12中的相关关系识别，包括：采用如下公式来识别术语之间的关联度：Rel(T
i
，T
j
)＝γ
·
W(T
i
，T

【专利技术属性】
技术研发人员：齐军华，张凯，周建设，王伟丽，
申请(专利权)人：首都师范大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人