System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 一种提高召回率的数据搜索方法及装置制造方法及图纸_技高网

一种提高召回率的数据搜索方法及装置制造方法及图纸

技术编号:44823746 阅读:1 留言:0更新日期:2025-03-28 20:14
本申请公开了一种提高召回率的数据搜索方法。在通用信息提取模型的基础上增加一个中间层,中间层用来为通用信息提取模型的输出结果加入逻辑关系,得到信息提取模型的结构。准备并改进训练数据,使训练数据符合人类语言习惯。使用改进后的训练数据来训练所述信息提取模型。使用训练好的所述信息提取模型将用户输入的以自然语言表述的搜索文本转换为带有实体之间逻辑关系的结构化数据的形式,再将带有实体之间逻辑关系的结构化数据拆分为带有逻辑关系的筛选项和搜索词,在搜索引擎中进行搜索。本申请在从自然语言到结构化数据的转换结果中增加了实体之间逻辑关系,从而使这种转换严格遵守用户的原本搜索意图。

【技术实现步骤摘要】

本申请涉及一种数据搜索方法。


技术介绍

1、召回率(recall)是指搜索引擎检索到的相关文档数占实际上所有相关文档总数的比例,是评价检索系统全面性的指标。

2、在企业信息的垂直搜索引擎中,用户输入的搜索文本例如是“上海注册资本大于500w的互联网公司”,可能没有搜索结果、或者有搜索结果但召回率较差。这是因为搜索引擎难以理解长文本的以自然语言表达的搜索文本。

3、为了提高召回率,一种做法是采用技术手段将用户输入的以自然语言表达的搜索文本转换为以结构化数据表达的搜索文本,搜索引擎更容易理解以结构化数据表达的搜索文本。这种方法仍存在如下缺点。

4、第一,目前可采用大语言模型(large landuage model,llm)实现从自然语言到结构化数据的转换。大语言模型是指具有大规模参数和复杂计算结构的机器学习模型,通常由深度神经网络构建而成,拥有数十亿甚至数千亿个参数。大语言模型的设计目的是为了提高表达能力和预测性能,能够处理更加复杂的任务和数据。大语言模型在各种领域都有广泛的应用,包括自然语言处理(natural language processing,nlp)、计算机视觉、语音识别和推荐系统等。大语言模型通过训练海量数据来学习复杂的模式和特征,具有更强大的泛化能力,可以对未见过的数据做出准确的预测。

5、然而,大语言模型存在幻觉(hallucination)问题。这是指大语言模型在生成文本时,可能会产生不准确或虚构的信息。幻觉类型包括:(1)逻辑谬误,这是指在大语言模型进行推理时出现了错误,提供错误的答案。(2)捏造事实,这是指大语言模型自信地断言不存在的事实,而不是回答“我不知道”。(3)数据驱动的偏见,这是指由于某些数据的普遍存在,大语言模型的输出可能会偏向某些方向,导致错误的结果。造成大语言模型的幻觉问题的原因是数据压缩(data compression)和不一致性(inconsistency),许多训练数据集可能已经过时或不可靠。由于大语言模型的幻觉问题,其可能会扭曲用户的原本搜索意图,这显然是本申请所不希望看到的。

6、第二,目前可采用通用信息抽取模型(general information extraction model)实现从自然语言到结构化数据的转换。通用信息抽取模型是一种自然语言处理技术,旨在从非结构化文本中自动提取有用的信息。通用信息抽取模型通常用于识别和提取特定类型的信息,如实体(人名、地名、组织名等)、关系(实体之间的联系)、事件(发生的事情)以及其他相关数据。

7、然而,通用信息抽取模型通常只能识别文本中的显性信息,而无法理解隐含的逻辑关系。文本中的逻辑关系往往涉及多个概念之间的相互作用和条件关系。例如,用户输入的搜索文本是“上海注册资本大于500w,不是互联网,是电商和5g行业的企业”中。通用信息抽取模型只能提取到“上海”、“注册资本”、“500w”、“互联网”、“电商”、“5g”,但无法识别出这些实体(关键词)之间的逻辑关系,这也会扭曲用户的原本搜索意图。


技术实现思路

1、本申请所要解决的技术问题是:如何改进从自然语言到结构化数据的转换方式,以提高这种转换结果进行搜索的召回率和准确率。

2、为解决上述技术问题,本申请提出了一种提高召回率的数据搜索方法,包括如下步骤。步骤s1:在通用信息提取模型的基础上增加一个中间层,中间层用来为通用信息提取模型的输出结果加入逻辑关系,得到信息提取模型的结构。步骤s2:为所述信息提取模型准备训练数据。步骤s3:改进训练数据,使训练数据符合人类语言习惯。步骤s4:使用改进后的训练数据来训练所述信息提取模型,将所述信息提取模型的输出结果用于搜索引擎,并根据搜索结果不断改进训练数据,多次迭代得到训练好的所述信息提取模型。步骤s5:使用训练好的所述信息提取模型将用户输入的以自然语言表述的搜索文本转换为带有实体之间逻辑关系的结构化数据的形式,再将带有实体之间逻辑关系的结构化数据拆分为带有逻辑关系的筛选项和搜索词,在搜索引擎中进行搜索。

3、进一步地,所述步骤s1中,所述通用信息提取模型用于从自然语言文本中提取出实体的结构化数据,但没有实体之间的逻辑关系;所述信息提取模型中新增的中间层用来为实体之间加入逻辑关系——逻辑与、逻辑或、逻辑非的任意一种或多种。

4、进一步地,所述步骤s2中,采用自定义规则和人工标注的方式生成训练数据。

5、进一步地,所述步骤s2中,先生成各领域的打好标签的数据,每个领域的标签各不相同;再将各领域的训练数据统一格式,统一格式的训练数据包含了各领域数据的全部标签以及逻辑关系。

6、进一步地,所述步骤s3中,采用大语言模型改进训练数据。

7、进一步地,所述步骤s4中,根据搜索结果的准确率、召回率、f1分数返回步骤s3不断改进训练数据。

8、进一步地,所述步骤s4中,所述信息提取模型不仅提取输入文本中的实体,还寻找各实体在输入文本中的位置最近的逻辑关系词,将各实体与位置最近的逻辑关系词组织为带有实体之间逻辑关系的结构化数据。

9、进一步地,所述步骤s5中,带有实体之间逻辑关系的结构化数据拆分后,带有逻辑关系的筛选项和搜索词都有内容,或者带有逻辑关系的筛选项和搜索词仅有一项有内容。

10、本申请还提出了一种提高召回率的数据搜索装置,包括模型建构单元、训练数据生成单元、训练数据改进单元、模型训练单元。所述模型建构单元用于在通用信息提取模型的基础上增加一个中间层,中间层用来为通用信息提取模型的输出结果加入逻辑关系,得到信息提取模型的结构。所述训练数据生成单元用于为所述信息提取模型生成训练数据。所述训练数据改进单元用于改进训练数据,使训练数据符合人类语言习惯。所述模型训练单元用于使用改进后的训练数据来训练所述信息提取模型,将所述信息提取模型的输出结果用于搜索引擎,并根据搜索结果不断改进训练数据,多次迭代得到训练好的所述信息提取模型。所述转换拆分单元用于使用训练好的所述信息提取模型将用户输入的以自然语言表述的搜索文本转换为带有实体之间逻辑关系的结构化数据的形式,还用于将带有实体之间逻辑关系的结构化数据拆分为带有逻辑关系的筛选项和搜索词,在搜索引擎中进行搜索。

11、本申请取得的技术效果是:在从自然语言到结构化数据的转换结果中增加了实体之间逻辑关系,从而使这种转换严格遵守用户的原本搜索意图;又将带有实体之间逻辑关系的结构化数据拆分为带有逻辑关系的筛选项和搜索词用于搜索,充分适应垂直搜索引擎的特性,能够提高搜索结果的召回率和准确率。

本文档来自技高网...

【技术保护点】

1.一种提高召回率的数据搜索方法,其特征是,包括如下步骤;

2.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S1中,所述通用信息提取模型用于从自然语言文本中提取出实体的结构化数据,但没有实体之间的逻辑关系;所述信息提取模型中新增的中间层用来为实体之间加入逻辑关系——逻辑与、逻辑或、逻辑非的任意一种或多种。

3.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S2中,采用自定义规则和人工标注的方式生成训练数据。

4.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S2中,先生成各领域的打好标签的数据,每个领域的标签各不相同;再将各领域的训练数据统一格式,统一格式的训练数据包含了各领域数据的全部标签以及逻辑关系。

5.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S3中,采用大语言模型改进训练数据。

6.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S4中,根据搜索结果的准确率、召回率、F1分数返回步骤S3不断改进训练数据。

7.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S4中,所述信息提取模型不仅提取输入文本中的实体,还寻找各实体在输入文本中的位置最近的逻辑关系词,将各实体与位置最近的逻辑关系词组织为带有实体之间逻辑关系的结构化数据。

8.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤S5中,带有实体之间逻辑关系的结构化数据拆分后,带有逻辑关系的筛选项和搜索词都有内容,或者带有逻辑关系的筛选项和搜索词仅有一项有内容。

9.一种提高召回率的数据搜索装置,其特征是,包括模型建构单元、训练数据生成单元、训练数据改进单元、模型训练单元;

...

【技术特征摘要】

1.一种提高召回率的数据搜索方法,其特征是,包括如下步骤;

2.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤s1中,所述通用信息提取模型用于从自然语言文本中提取出实体的结构化数据,但没有实体之间的逻辑关系;所述信息提取模型中新增的中间层用来为实体之间加入逻辑关系——逻辑与、逻辑或、逻辑非的任意一种或多种。

3.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤s2中,采用自定义规则和人工标注的方式生成训练数据。

4.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤s2中,先生成各领域的打好标签的数据,每个领域的标签各不相同;再将各领域的训练数据统一格式,统一格式的训练数据包含了各领域数据的全部标签以及逻辑关系。

5.根据权利要求1所述的提高召回率的数据搜索方法,其特征是,所述步骤...

【专利技术属性】
技术研发人员:卿越刘本庆赵晨鹏陈青山镇立新
申请(专利权)人:上海生腾数据科技有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1