信息检索方法、装置、设备及计算机可读介质制造方法及图纸

技术编号:34038871 阅读:26 留言:0更新日期:2022-07-06 12:59
本申请涉及一种信息检索方法、装置、设备及计算机可读介质。该方法包括:获取目标对象针对目标领域输入的检索文本;采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;将目标排序位置之前的召回文档作为检索结果展示给目标对象。本申请通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索,从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率,提升了用户体验,解决了信息检索效率低、准确度低的技术问题。确度低的技术问题。确度低的技术问题。

【技术实现步骤摘要】
信息检索方法、装置、设备及计算机可读介质


[0001]本申请涉及自然语言处理
,尤其涉及一种信息检索方法、装置、设备及计算机可读介质。

技术介绍

[0002]信息检索是根据用户的输入,即关键词,从大量的文章中进行相关度匹配和查找,然后将匹配到的文章根据相关度进行排序,提供给用户。
[0003]目前,相关技术中,往往直接将用户的输入信息作为关键词进行信息检索,若用户的输入信息中包含无关的冗余信息,则会影响信息检索的准确度和检索效率,即使用户在输入时已经尽量避免了冗余信息的存在,但若输入信息中存在较为复杂的领域交叉关系,信息检索系统就会将输入的输入信息全都作为关键词进行信息检索,从而检索出多个领域的内容,这样就极大降低了用户只想在某一特定领域内进行检索的效率的准确度,影响用户体验。
[0004]针对信息检索效率低、准确度低的问题,目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请提供了一种信息检索方法、装置、设备及计算机可读介质,以解决信息检索效率低、准确度低的技术问题。
[0006]根据本申请实施例的一个方面,本申请提供了一种信息检索方法,包括:
[0007]获取目标对象针对目标领域输入的检索文本;
[0008]采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
[0009]将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;
[0010]将目标排序位置之前的召回文档作为检索结果展示给目标对象。
[0011]可选地,采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息包括:
[0012]将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体,其中,第一实体识别模型为预先使用目标领域的领域实体知识对预训练语言模型进行二次训练得到的,领域实体知识包括目标领域的关联文档,目标领域的领域信息包括目标实体;
[0013]在第一实体识别模型未抽取到目标实体的情况下,将检索文本输入第一名词抽取模型,以利用第一名词抽取模型抽取出检索文本中属于目标领域的目标名词,其中,第一名词抽取模型为预先使用目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的,领域名词知识包括目标领域的关联文档,目标领域的领域信息包括目标名词;
[0014]在第一名词抽取模型未抽取到目标名词的情况下,将检索文本输入第一摘要抽取模型,以用第一摘要抽取模型抽取出检索文本的目标摘要,其中,第一摘要抽取模型为预先
使用目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的,领域事件知识包括目标领域的关联文档,目标领域的领域信息包括目标摘要。
[0015]可选地,将检索文本输入第一实体识别模型,以利用第一实体识别模型识别并抽取出检索文本中属于目标领域的目标实体包括:
[0016]遍历检索文本,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符以及当前字符之后的字符逐一作为结束字符,得到多个候选实体;
[0017]将遍历检索文本的所有字符后得到的所有候选实体输入第一实体识别模型,以利用第一实体识别模型从候选实体中抽取出属于目标领域的目标实体。
[0018]可选地,将检索文本输入第一实体识别模型之前,所述方法还包括按照如下方式训练得到第一实体识别模型:
[0019]采集目标领域的领域实体知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域实体知识中属于目标领域的实体进行标注,得到第一训练数据;
[0020]对第一训练数据进行数据增强,得到第二训练数据;
[0021]使用第二训练数据微调第二实体识别模型的参数,直至第二实体识别模型对目标领域的测试数据的实体识别准确度达到目标阈值时,将训练后的第二实体识别模型保存得到第一实体识别模型,其中,第二实体识别模型为基于预训练语言模型构建得到的。
[0022]可选地,对第一训练数据进行数据增强,得到第二训练数据包括:
[0023]确定第一训练数据中标注实体的最长实体长度;
[0024]遍历第一训练数据,并在遍历到当前字符时,将当前字符作为起始字符,将当前字符至当前字符之后最长实体长度位置的字符逐一作为结束字符,得到多个候选实体;
[0025]将遍历第一训练数据的所有字符得到的所有候选实体与第一训练数据中的标注实体进行匹配;
[0026]将匹配到对应的标注实体的候选实体作为正样本,其中,正样本的样本标签为对应的标注实体的实体标签和类型标签;
[0027]将未匹配到对应的标注实体的候选实体作为负样本,其中,负样本的样本标签为非实体标签和空类型标签;
[0028]将正样本和负样本作为第二训练数据。
[0029]可选地,将检索文本输入第一名词抽取模型之前,所述方法还包括按照如下方式训练得到第一名词抽取模型:采集目标领域的领域名词知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域名词知识中属于目标领域的名词进行标注,得到第三训练数据;使用第三训练数据微调第二名词抽取模型的参数,直至第二名词抽取模型对目标领域的测试数据的名词抽取准确度达到目标阈值时,将训练后的第二名词抽取模型保存得到第一名词抽取模型,其中,第二名词抽取模型为预训练名词抽取模型。
[0030]可选地,将检索文本输入第一摘要抽取模型之前,所述方法还包括按照如下方式训练得到第一摘要抽取模型:采集目标领域的领域事件知识,并基于预设知识库搭建远程监督任务,以通过远程监督任务对领域事件知识中属于目标领域的事件进行标注,得到第四训练数据;使用第四训练数据微调第二摘要抽取模型的参数,直至第二摘要抽取模型对目标领域的测试数据的摘要抽取准确度达到目标阈值时,将训练后的第二摘要抽取模型保存得到第一摘要抽取模型,其中,第二摘要抽取模型为预训练摘要抽取模型。
[0031]可选地,所述方法还包括:
[0032]获取目标对象输入的未指定领域的目标检索文本;
[0033]将目标检索文本输入业务领域识别模型,以利用业务领域识别模型确定目标检索文本所属的目标领域,其中,业务领域识别模型为预先使用带有标注数据的训练数据对预训练语义识别模型进行二次训练得到的,标注数据用于标注训练数据的所属业务领域;
[0034]按照多级信息抽取策略调取出与目标领域匹配的实体识别模型、名词抽取模型以及摘要抽取模型三者至少之一进行信息抽取。
[0035]根据本申请实施例的另一方面,本申请提供了一种信息检索装置,包括:
[0036]获取模块,用于获取目标对象针对目标领域输入的检索文本;
[0037]抽取模块,用于采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息;
[0038]检索模块,用于将领域信息作为关键词进行信息检索,并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序;本文档来自技高网
...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法,其特征在于,包括:获取目标对象针对目标领域输入的检索文本;采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息;将所述领域信息作为关键词进行信息检索,并按照所述关键词在召回文档中的提及频率从大到小的顺序对所述召回文档进行排序;将目标排序位置之前的所述召回文档作为检索结果展示给所述目标对象。2.根据权利要求1所述的方法,其特征在于,采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息包括:将所述检索文本输入第一实体识别模型,以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体,其中,所述第一实体识别模型为预先使用所述目标领域的领域实体知识对预训练语言模型进行二次训练得到的,所述领域实体知识包括所述目标领域的关联文档,所述目标领域的所述领域信息包括所述目标实体;在所述第一实体识别模型未抽取到所述目标实体的情况下,将所述检索文本输入第一名词抽取模型,以利用所述第一名词抽取模型抽取出所述检索文本中属于所述目标领域的目标名词,其中,所述第一名词抽取模型为预先使用所述目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的,所述领域名词知识包括所述目标领域的关联文档,所述目标领域的所述领域信息包括所述目标名词;在所述第一名词抽取模型未抽取到所述目标名词的情况下,将所述检索文本输入第一摘要抽取模型,以用所述第一摘要抽取模型抽取出所述检索文本的目标摘要,其中,所述第一摘要抽取模型为预先使用所述目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的,所述领域事件知识包括所述目标领域的关联文档,所述目标领域的所述领域信息包括所述目标摘要。3.根据权利要求2所述的方法,其特征在于,将所述检索文本输入第一实体识别模型,以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体包括:遍历所述检索文本,并在遍历到当前字符时,将所述当前字符作为起始字符,将所述当前字符以及所述当前字符之后的字符逐一作为结束字符,得到多个候选实体;将遍历所述检索文本的所有字符后得到的所有候选实体输入所述第一实体识别模型,以利用所述第一实体识别模型从所述候选实体中抽取出属于所述目标领域的所述目标实体。4.根据权利要求3所述的方法,其特征在于,将所述检索文本输入第一实体识别模型之前,所述方法还包括按照如下方式训练得到所述第一实体识别模型:采集所述目标领域的所述领域实体知识,并基于预设知识库搭建远程监督任务,以通过所述远程监督任务对所述领域实体知识中属于所述目标领域的实体进行标注,得到第一训练数据;对所述第一训练数据进行数据增强,得到第二训练数据;使用所述第二训练数据微调第二实体识别模型的参数,直至所述第二实体识别模型对所述目标领域的测试数据的实体识别准确度达到目标阈值时,将训练后的所述第二实体识别模型保存得到所述第一实体识别模型,其中,所述第二实体识别模型为基于所述预训练
语言模型构建得到的。5.根据权利要求4所述的方法,其特征在于,对所述第一训练数据进行数据增强,得到第二训练数据包括:确定所述第一训练数据中标注实体的最长实体长度;遍历所述第一训练数据,并在遍历到当前字符时,将所述当前字符作为起始字符,将所述当前字符至所述当前字符之后所述最长...

【专利技术属性】
技术研发人员:唐广法董世鹏
申请(专利权)人:北京明略昭辉科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1