信息检索方法、装置、设备及计算机可读介质制造方法及图纸

技术编号：34038871 阅读：26 留言：0更新日期：2022-07-06 12:59

本申请涉及一种信息检索方法、装置、设备及计算机可读介质。该方法包括：获取目标对象针对目标领域输入的检索文本；采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息；将领域信息作为关键词进行信息检索，并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序；将目标排序位置之前的召回文档作为检索结果展示给目标对象。本申请通过多级信息抽取策略从用户输入的检索文本中抽取出特定领域的领域信息作为关键词进行信息检索，从而提高了用户对该特定领域的信息检索需求的信息检索准确度和检索效率，提升了用户体验，解决了信息检索效率低、准确度低的技术问题。确度低的技术问题。确度低的技术问题。

全部详细技术资料下载

【技术实现步骤摘要】
信息检索方法、装置、设备及计算机可读介质

[0001]本申请涉及自然语言处理
，尤其涉及一种信息检索方法、装置、设备及计算机可读介质。

技术介绍

[0002]信息检索是根据用户的输入，即关键词，从大量的文章中进行相关度匹配和查找，然后将匹配到的文章根据相关度进行排序，提供给用户。
[0003]目前，相关技术中，往往直接将用户的输入信息作为关键词进行信息检索，若用户的输入信息中包含无关的冗余信息，则会影响信息检索的准确度和检索效率，即使用户在输入时已经尽量避免了冗余信息的存在，但若输入信息中存在较为复杂的领域交叉关系，信息检索系统就会将输入的输入信息全都作为关键词进行信息检索，从而检索出多个领域的内容，这样就极大降低了用户只想在某一特定领域内进行检索的效率的准确度，影响用户体验。
[0004]针对信息检索效率低、准确度低的问题，目前尚未提出有效的解决方案。

技术实现思路

[0005]本申请提供了一种信息检索方法、装置、设备及计算机可读介质，以解决信息检索效率低、准确度低的技术问题。
[0006]根据本申请实施例的一个方面，本申请提供了一种信息检索方法，包括：
[0007]获取目标对象针对目标领域输入的检索文本；
[0008]采用多级信息抽取策略在检索文本中抽取出与目标领域关联的领域信息；
[0009]将领域信息作为关键词进行信息检索，并按照关键词在召回文档中的提及频率从大到小的顺序对召回文档进行排序；
[0010]将目标排序位置之前的召回文档...

【技术保护点】

【技术特征摘要】
1.一种信息检索方法，其特征在于，包括：获取目标对象针对目标领域输入的检索文本；采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息；将所述领域信息作为关键词进行信息检索，并按照所述关键词在召回文档中的提及频率从大到小的顺序对所述召回文档进行排序；将目标排序位置之前的所述召回文档作为检索结果展示给所述目标对象。2.根据权利要求1所述的方法，其特征在于，采用多级信息抽取策略在所述检索文本中抽取出与所述目标领域关联的领域信息包括：将所述检索文本输入第一实体识别模型，以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体，其中，所述第一实体识别模型为预先使用所述目标领域的领域实体知识对预训练语言模型进行二次训练得到的，所述领域实体知识包括所述目标领域的关联文档，所述目标领域的所述领域信息包括所述目标实体；在所述第一实体识别模型未抽取到所述目标实体的情况下，将所述检索文本输入第一名词抽取模型，以利用所述第一名词抽取模型抽取出所述检索文本中属于所述目标领域的目标名词，其中，所述第一名词抽取模型为预先使用所述目标领域的领域名词知识对预训练名词抽取模型进行二次训练得到的，所述领域名词知识包括所述目标领域的关联文档，所述目标领域的所述领域信息包括所述目标名词；在所述第一名词抽取模型未抽取到所述目标名词的情况下，将所述检索文本输入第一摘要抽取模型，以用所述第一摘要抽取模型抽取出所述检索文本的目标摘要，其中，所述第一摘要抽取模型为预先使用所述目标领域的领域事件知识对预训练摘要抽取模型进行二次训练得到的，所述领域事件知识包括所述目标领域的关联文档，所述目标领域的所述领域信息包括所述目标摘要。3.根据权利要求2所述的方法，其特征在于，将所述检索文本输入第一实体识别模型，以利用所述第一实体识别模型识别并抽取出所述检索文本中属于所述目标领域的目标实体包括：遍历所述检索文本，并在遍历到当前字符时，将所述当前字符作为起始字符，将所述当前字符以及所述当前字符之后的字符逐一作为结束字符，得到多个候选实体；将遍历所述检索文本的所有字符后得到的所有候选实体输入所述第一实体识别模型，以利用所述第一实体识别模型从所述候选实体中抽取出属于所述目标领域的所述目标实体。4.根据权利要求3所述的方法，其特征在于，将所述检索文本输入第一实体识别模型之前，所述方法还包括按照如下方式训练得到所述第一实体识别模型：采集所述目标领域的所述领域实体知识，并基于预设知识库搭建远程监督任务，以通过所述远程监督任务对所述领域实体知识中属于所述目标领域的实体进行标注，得到第一训练数据；对所述第一训练数据进行数据增强，得到第二训练数据；使用所述第二训练数据微调第二实体识别模型的参数，直至所述第二实体识别模型对所述目标领域的测试数据的实体识别准确度达到目标阈值时，将训练后的所述第二实体识别模型保存得到所述第一实体识别模型，其中，所述第二实体识别模型为基于所述预训练
语言模型构建得到的。5.根据权利要求4所述的方法，其特征在于，对所述第一训练数据进行数据增强，得到第二训练数据包括：确定所述第一训练数据中标注实体的最长实体长度；遍历所述第一训练数据，并在遍历到当前字符时，将所述当前字符作为起始字符，将所述当前字符至所述当前字符之后所述最长...

【专利技术属性】
技术研发人员：唐广法，董世鹏，
申请(专利权)人：北京明略昭辉科技有限公司，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人