System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind() 关键词提取及其模型训练方法、装置、设备及介质制造方法及图纸_技高网

关键词提取及其模型训练方法、装置、设备及介质制造方法及图纸

技术编号:40228262 阅读:30 留言:0更新日期:2024-02-02 22:31
本发明专利技术涉及人工智能技术领域,涉及一种关键词提取模型训练方法。该方法包括:对获取的文本数据进行处理,得到样本数据;通过预设训练模型中匹配层对预设主体词数据库和样本数据进行匹配,得到样本主体词;通过边界层中边界距离对样本主体词在样本数据中进行内容提取,得到边界内容;通过挖掘层中预设关联规则,基于样本主体词对边界内容中的维度词进行挖掘,得到样本维度词;计算样本主体词和各样本维度词之间的语义相似度,确定预测损失值;将收敛的预设训练模型确定为关键词提取模型。本发明专利技术通过边界距离,避免了对上下文中维度词的提取,提高了提取关键词的效率。通过预设关联规则对主体词和维度词之间的挖掘,实现了高效的提取关键词。

【技术实现步骤摘要】

本专利技术涉及人工智能,尤其涉及一种关键词提取模型训练方法、装置、设备及介质。


技术介绍

1、在
的发展中,主体词识别和维度词识别模型属于自然语言处理中实体识别的研究领域。nlp是人工智能领域的一个重要分支,旨在使计算机能够理解、处理和生成自然语言。随着对大规模文本数据的需求不断增长,主体词、维度词识别技术也得到了广泛关注和研究。

2、现有技术中,序列标注模型通常使用序列标注模型,如隐马尔可夫模型、条件随机场等维度词识别。这些模型可以捕捉文本中主体词与维度词之间的依赖关系,并根据上下文进行预测。然而,某些维度词只在主体词的前后几个词之间才具有意义,因此,通过全文的上下文预测不但耗时且预测的维度词没有参考意义,且导致提取效率较低。


技术实现思路

1、基于此,有必要针对上述技术问题,提供一种关键词提取模型训练方法、装置、设备及介质,以解决现有技术中对全文中维度词预测导致提取效率较低的问题。

2、一种关键词提取模型训练方法,包括:

3、获取文本数据,对所有所述文本数据进行分词清洗处理,得到与各所述文本数据对应的样本数据;

4、将所有所述样本数据输入至预设训练模型中,通过所述预设训练模型中的匹配层对预设主体词数据库和所有所述样本数据进行主体词匹配,得到样本主体词;

5、通过所述预设训练模型中边界层中的边界距离对所有所述样本主体词在各所述样本数据中进行内容提取,得到边界内容;

6、通过所述预设训练模型中挖掘层中的预设关联规则,基于所述样本主体词对所述边界内容中的维度词进行挖掘,得到与各所述样本主体词对应的样本维度词;

7、计算所述样本主体词和对应的各所述样本维度词之间的语义相似度,确定预设训练模型的预测损失值;

8、在所述预测损失值达到预设收敛条件时,将收敛之后的预设训练模型确定为关键词提取模型。

9、一种关键词提取方法,包括:

10、获取至少一个待处理文本;

11、调用关键词提取模型,所述关键词提取模型为根据上述关键词提取模型训练方法得到的;

12、基于所述关键词提取模型对所有所述待处理文本进行关键词提取,得到关键词提取结果。

13、一种关键词提取模型训练方法装置,包括:

14、样本数据获取模块,用于获取文本数据,对所有所述文本数据进行分词清洗处理,得到与各所述文本数据对应的样本数据;

15、主体词提取模块,用于将所有所述样本数据输入至预设训练模型中,通过所述预设训练模型中的匹配层对预设主体词数据库和所有所述样本数据进行主体词匹配,得到样本主体词;

16、边界内容提取模块,用于通过所述预设训练模型中边界层中的边界距离对所有所述样本主体词在各所述样本数据中进行内容提取,得到边界内容;

17、维度词挖掘模块,用于通过所述预设训练模型中挖掘层中的预设关联规则,基于所述样本主体词对所述边界内容中的维度词进行挖掘,得到与各所述样本主体词对应的样本维度词;

18、损失值预测模块,用于计算所述样本主体词和对应的各所述样本维度词之间的语义相似度,确定预设训练模型的预测损失值;

19、模型收敛模块,用于在所述预测损失值达到预设收敛条件时,将收敛之后的预设训练模型确定为关键词提取模型。

20、一种关键词提取装置,包括:

21、获取模块,用于获取至少一个待处理文本;

22、调用模块,用于调用关键词提取模型,所述关键词提取模型为根据上述关键词提取模型训练方法得到的;

23、提取模块,用于基于所述关键词提取模型对所有所述待处理文本进行关键词提取,得到关键词提取结果。

24、一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机程序时实现上述关键词提取模型训练方法,或实现上述关键词提取方法。

25、一个或多个存储有计算机可读指令的可读存储介质,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行上述关键词提取模型训练方法,或执行上述关键词提取方法。

26、上述关键词提取模型训练方法、装置、设备及介质,该方法通过对获取的所有文本数据进行分词清洗处理,实现了对样本数据的获取,进而提高了提取效率。通过预设训练模型中的匹配层对预设主体词数据库和所有样本数据进行主体词匹配,实现了对所有样本数据中的主体词的提取。通过边界层中的边界距离对所有样本主体词在各样本数据中进行内容提取,实现了对边界内容的提取,进而实现了对边界内容中所有维度词的挖掘。计算样本主体词和对应的各样本维度词之间的语义相似度,实现了对模型损失值的计算。进一步地,通过边界层中的边界距离,避免了对上下文中所有维度词的提取,提高了提取关键词的效率。通过预设关联规则对主体词和维度词之间的挖掘,实现了高效的提取关键词。

本文档来自技高网...

【技术保护点】

1.一种关键词提取模型训练方法,其特征在于,包括:

2.如权利要求1所述的关键词提取模型训练方法,其特征在于,所述基于所述样本主体词对所述边界内容中的维度词进行挖掘,得到与各所述样本主体词对应的样本维度词,包括:

3.如权利要求2所述的关键词提取模型训练方法,其特征在于,所述通过预设关联规则对所述样本主体词和所述样本数据中的候选词进行共现度计算,得到与各候选词对应到的共现度值,包括:

4.如权利要求1所述的关键词提取模型训练方法,其特征在于,所述通过所述预设训练模型中边界层中的边界距离对所有所述样本主体词在各所述样本数据中进行内容提取,得到边界内容,包括:

5.如权利要求1所述的关键词提取模型训练方法,其特征在于,所述计算所述样本主体词和对应的各所述样本维度词之间的语义相似度,确定预设训练模型的预测损失值,包括:

6.一种关键词提取方法,其特征在于,包括:

7.一种关键词提取模型训练装置,其特征在于,包括:

8.一种关键词提取装置,其特征在于,包括:

9.一种计算机设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机程序时实现如权利要求1至5任一项所述关键词提取模型训练方法,或实现如权利要求6所述关键词提取方法。

10.一个或多个存储有计算机可读指令的可读存储介质,其特征在于,所述计算机可读指令被一个或多个处理器执行时,使得所述一个或多个处理器执行如权利要求1至5中任一项所述关键词提取模型训练方法,或执行如权利要求6所述关键词提取方法。

...

【技术特征摘要】

1.一种关键词提取模型训练方法,其特征在于,包括:

2.如权利要求1所述的关键词提取模型训练方法,其特征在于,所述基于所述样本主体词对所述边界内容中的维度词进行挖掘,得到与各所述样本主体词对应的样本维度词,包括:

3.如权利要求2所述的关键词提取模型训练方法,其特征在于,所述通过预设关联规则对所述样本主体词和所述样本数据中的候选词进行共现度计算,得到与各候选词对应到的共现度值,包括:

4.如权利要求1所述的关键词提取模型训练方法,其特征在于,所述通过所述预设训练模型中边界层中的边界距离对所有所述样本主体词在各所述样本数据中进行内容提取,得到边界内容,包括:

5.如权利要求1所述的关键词提取模型训练方法,其特征在于,所述计算所述样本主体词和对应的各所述样本维度词之...

【专利技术属性】
技术研发人员:刘杨张文斌林跃卢品吟李运洋
申请(专利权)人:深圳市东信时代信息技术有限公司
类型:发明
国别省市:

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1