System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 基于大模型的数据推荐方法技术_技高网

基于大模型的数据推荐方法技术

技术编号:44797604 阅读:6 留言:0更新日期:2025-03-28 19:48
本发明专利技术涉及文本数据分析领域,尤其涉及一种基于大模型的数据推荐方法,包括获取目标问题文本的检索关键词,基于检索关键词以及相关关键词获取目标问题文本的检索文本集合;针对检索文本集合进行检索关联评价,以确定检索文本集合的检索状态,并根据检索状态确定文本处理策略;采用段落分析方式时,根据各文本段落的参考提取系数确定各文本段落对应的语段提取方法;采用组合分析方式时,获取关键分析文本以及重点关键词,根据匹配关键词占比以及匹配有效度确定匹配文本语段;本发明专利技术提高了所获取的推荐文本内容的有效性。

【技术实现步骤摘要】

本专利技术涉及文本数据分析领域,尤其涉及一种基于大模型的数据推荐方法


技术介绍

1、目前大型语言模型所获取的文本生成结果的质量依赖于文本检索质量以及提取的推荐文本内容的质量,生成文本过程中需要针对检索获取的文本进行推荐语段的提取,提取过程中推荐语段在文本中的关联情况对于所获取的推荐文本内容的有效性以及可读性造成影响,因此,如何在提取推荐语段的过程中避免语段过度分割导致的推荐文本内容的有效性低下,为本领域技术人员亟待解决的问题。

2、中国专利公开号cn117195890a公开了一种基于机器学习的文本推荐方法,属于语义提取
,该专利技术中对用户信息字符串中各个关键词进行了排列组合,从而得到不同的信息序列,该专利技术根据每个信息序列包含的关键词数量以及包含的关键词的权重,从而衡量出一个信息序列的契合度评分。专利技术中还通过机器学习模型识别各信息序列的语义特征,实现对各信息序列进一步的语义提取,计算出每个信息序列的语义特征与待推荐文本的匹配度,再综合信息序列与用户信息字符串的契合度评分,计算出待推荐文本的推荐分值,并将所有有关的文本均进行推荐。但是上述方案存在以下问题:未能根据各待推荐文本在其所属的长文本中的关联情况确定针对性的待推荐文本的提取方法,导致获取的推荐文本内容中易存在语义断裂,进而导致的推荐文本内容的有效性低下。


技术实现思路

1、为此,本专利技术提供一种基于大模型的数据推荐方法,用以克服现有技术中未能根据各推荐语段在其所属的检索文本中的关联情况确定针对性的推荐语段的提取方法,导致获取的推荐文本内容易存在语义断裂,进而导致的推荐文本内容的有效性低下的问题。

2、为实现上述目的,本专利技术提供一种基于大模型的数据推荐方法,包括:

3、获取目标问题文本的检索关键词,基于检索关键词以及相关关键词获取目标问题文本的检索文本集合,并针对其包含的目标检索文本进行格式转化;

4、针对检索文本集合进行检索关联评价,以确定检索文本集合的检索状态,并根据检索状态确定文本处理策略,文本处理策略为采用段落分析方式或组合分析方式进行推荐文本内容提取;

5、采用段落分析方式时,根据各文本段落的参考提取系数确定各文本段落对应的语段提取方法,语段提取方法为根据语段关联关系针对文本段落进行分割补偿,或,根据语段提取系数确定文本段落的推荐文本语段;

6、采用组合分析方式时,获取检索文本集合的关键分析文本以及重点关键词,根据匹配关键词占比以及匹配有效度确定匹配文本语段;

7、将推荐文本内容发送至用户。

8、进一步地,优质检索条件下,根据参考质量指数以及文本相关系数确定检索文本集合的检索状态,

9、若检索文本集合的参考质量指数大于预设参考质量指数,则判定检索文本集合处于第一预设检索状态;

10、若检索文本集合的参考质量指数小于或等于预设参考质量指数且文本相关系数大于预设文本相关系数,则判定检索文本集合处于第二预设检索状态;

11、所述优质检索条件为检索文本集合的优质文本占比大于预设优质文本占比。

12、进一步地,针对检索文本集合进行检索关联评价的过程包括:

13、根据关键词覆盖度以及相关文本占比确定检索文本集合内各目标检索文本的检索质量指数,将检索质量指数大于预设检索质量指数的目标检索文本记为优质检索文本;

14、根据各目标检索文本的有效关键词确定检索文本集合的文本相关系数,并将各目标检索文本的检索质量指数的平均值记为检索文本集合的参考质量指数。

15、进一步地,根据检索文本集合的检索状态确定文本处理策略;

16、若检索文本集合处于第一预设检索状态,采用段落分析方式针对检索文本集合包含的各目标检索文本进行推荐文本内容提取;

17、若检索文本集合处于第二预设检索状态,采用组合分析方式针对检索文本集合包含的各目标检索文本进行推荐文本内容提取。

18、进一步地,采用段落分析方式针对一目标检索文本进行推荐文本内容提取时,根据各有效关键词的参考关联频率以及检索层级差异系数确定目标检索文本内各目标文本语段的语段提取系数;

19、所述语段提取系数与目标文本语段内有效关键词的参考关联频率为正相关关系,语段提取系数与目标文本语段内有效关键词的检索层级差异系数为负相关关系。

20、进一步地,根据各文本段落的参考提取系数确定各文本段落对应的语段提取方法;

21、若一文本段落的参考提取系数大于预设参考提取系数,则根据语段关联关系针对文本段落进行分割补偿;

22、若一文本段落的参考提取系数小于或等于预设参考提取系数,则根据语段提取系数确定该文本段落的推荐文本。

23、进一步地,根据语段关联关系针对一文本段落进行分割补偿时,根据关键词重合度以及关键词匹配度确定各待分析文本语段的内容关联系数,并根据内容关联系数以及文本连接系数确定各文本段落的保留语段,将保留语段以及推荐文本语段记为该文本段落的推荐文本;

24、所述推荐文本语段为语段提取系数大于预设语段提取系数的目标文本语段,所述待分析文本语段为语段提取系数小于或等于预设语段提取系数的目标文本语段。

25、进一步地,采用组合分析方式针对一检索文本集合进行推荐文本内容提取时,将该检索文本集合中检索质量指数最大的目标检索文本记为关键分析文本,根据关键分析文本包含的有效关键词的应用参考值以及参考关联频率确定重点关键词;

26、将存在重点关键词的目标检索文本记为相关分析文本。

27、进一步地,针对关键分析文本中各文本段落进行匹配语段分析,针对单个文本段落,其匹配语段分析的过程包括:

28、根据重点关键词确定该文本段落的推荐文本语段以及各相关分析文本的相关文本语段;

29、根据各相关文本语段的匹配丰富度以及匹配有效度确定该文本段落的匹配文本语段。

30、进一步地,若关键分析文本内各文本段落均完成匹配文本语段确定,根据语段重合系数确定匹配语段组合,并根据分布参考值以及检索相关度确定各匹配语段组合的匹配重点关键词;

31、任意一匹配语段组合内匹配文本语段之间的语段重合系数均大于预设语段重合系数。

32、与现有技术相比,本专利技术的有益效果在于,本专利技术技术方案中根据参考质量指数以及文本相关系数确定检索文本集合的检索状态,并根据检索文本集合的检索状态确定文本处理策略,使得针对目标检索文本进行推荐文本内容提取所采用的方法更符合推荐语段在目标检索文本的关联情况,避免在提取过程中对于推荐语段造成过度分割,本专利技术提高了所获取的推荐文本内容的有效性。

33、进一步地,本专利技术中根据参考质量指数以及文本相关系数确定检索文本集合的检索状态,用以表征检索文本集合中推荐语段在各目标检索文本中的分布情况以及目标检索文本之间的相关程度,以此确定检索文本集合的检索状态,使得后续文本处理策略的确定结果本文档来自技高网...

【技术保护点】

1.一种基于大模型的数据推荐方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型的数据推荐方法,其特征在于,优质检索条件下,根据参考质量指数以及文本相关系数确定检索文本集合的检索状态,

3.根据权利要求2所述的基于大模型的数据推荐方法,其特征在于,针对检索文本集合进行检索关联评价的过程包括:

4.根据权利要求3所述的基于大模型的数据推荐方法,其特征在于,根据检索文本集合的检索状态确定文本处理策略;

5.根据权利要求4所述的基于大模型的数据推荐方法,其特征在于,采用段落分析方式针对一目标检索文本进行推荐文本内容提取时,根据各有效关键词的参考关联频率以及检索层级差异系数确定目标检索文本内各目标文本语段的语段提取系数;

6.根据权利要求5所述的基于大模型的数据推荐方法,其特征在于,根据各文本段落的参考提取系数确定各文本段落对应的语段提取方法;

7.根据权利要求6所述的基于大模型的数据推荐方法,其特征在于,根据语段关联关系针对一文本段落进行分割补偿时,根据关键词重合度以及关键词匹配度确定各待分析文本语段的内容关联系数,并根据内容关联系数以及文本连接系数确定各文本段落的保留语段,将保留语段以及推荐文本语段记为该文本段落的推荐文本;

8.根据权利要求4所述的基于大模型的数据推荐方法,其特征在于,采用组合分析方式针对一检索文本集合进行推荐文本内容提取时,将该检索文本集合中检索质量指数最大的目标检索文本记为关键分析文本,根据关键分析文本包含的有效关键词的应用参考值以及参考关联频率确定重点关键词;

9.根据权利要求8所述的基于大模型的数据推荐方法,其特征在于,针对关键分析文本中各文本段落进行匹配语段分析,针对单个文本段落,其匹配语段分析的过程包括:

10.根据权利要求9所述的基于大模型的数据推荐方法,其特征在于,若关键分析文本内各文本段落均完成匹配文本语段确定,根据语段重合系数确定匹配语段组合,并根据分布参考值以及检索相关度确定各匹配语段组合的匹配重点关键词;

...

【技术特征摘要】

1.一种基于大模型的数据推荐方法,其特征在于,包括:

2.根据权利要求1所述的基于大模型的数据推荐方法,其特征在于,优质检索条件下,根据参考质量指数以及文本相关系数确定检索文本集合的检索状态,

3.根据权利要求2所述的基于大模型的数据推荐方法,其特征在于,针对检索文本集合进行检索关联评价的过程包括:

4.根据权利要求3所述的基于大模型的数据推荐方法,其特征在于,根据检索文本集合的检索状态确定文本处理策略;

5.根据权利要求4所述的基于大模型的数据推荐方法,其特征在于,采用段落分析方式针对一目标检索文本进行推荐文本内容提取时,根据各有效关键词的参考关联频率以及检索层级差异系数确定目标检索文本内各目标文本语段的语段提取系数;

6.根据权利要求5所述的基于大模型的数据推荐方法,其特征在于,根据各文本段落的参考提取系数确定各文本段落对应的语段提取方法;

7.根据权利要求6所述的基于大模型的数据推荐方法,其特征在于,根据...

【专利技术属性】
技术研发人员:任佩钊郭亚鹏赵正伟周红艳刘莹莹
申请(专利权)人:众合云科信息技术集团有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1