System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本处理,并且更具体地,涉及一种自动生成富文本标签的方法、装置及介质。
技术介绍
1、在实际工作中,通常会遇到针对大量文本内容摘取关键词的情况,人工处理往往会耗费大量的时间,并且会有部分关键词遗漏的情况,因此如何快速准确提取大量文本的关键词成为亟待解决的技术问题。
技术实现思路
1、针对现有技术的不足,本专利技术提供一种自动生成富文本标签的方法、装置及介质。
2、根据本专利技术的一个方面,提供了一种自动生成富文本标签的方法,包括:
3、从多种预设途径获取多源的富文本数据集;
4、将富文本数据集输入至预先训练的语言模型中,输出富文本数据集的文本标签集,其中语言模型为预训练模型和机器学习模型以及统计模型集成得到的;
5、对文本标签集进行优化和过滤,得到富文本数据集的最终文本标签。
6、可选地,还包括:对富文本数据集进行清洗操作,得到清洗后的富文本数据集;
7、可选地,语言模型的训练过程为:
8、利用自然语言处理技术构建预训练模型架构;
9、利用预设特定的关键词提取任务对预训练模型架构进行预训练,得到预训练模型;
10、将预训练模型和机器学习模型以及统计模型集成,得到语言模型。
11、可选地,利用预设特定的关键词提取任务对预训练模型架构进行预训练,得到预训练模型,包括:
12、将关键词提取任务与命名实体识别任务结合对预训练模型架构进行预训练,得
13、可选地,对文本标签集进行优化和过滤,得到富文本数据集的最终文本标签,包括:
14、基于标签的权重、出现频率对文本标签集进行筛选和排序,确定富文本数据集的最终文本标签。
15、根据本专利技术的另一个方面,提供了一种自动生成富文本标签的装置,包括:
16、获取模块,用于从多种预设途径获取多源的富文本数据集;
17、输出模块,用于将富文本数据集输入至预先训练的语言模型中,输出富文本数据集的文本标签集,其中语言模型为预训练模型和机器学习模型以及统计模型集成得到的;
18、优化模块,用于对文本标签集进行优化和过滤,得到富文本数据集的最终文本标签。
19、根据本专利技术的又一个方面,提供了一种计算机可读存储介质,所述存储介质存储有计算机程序,所述计算机程序用于执行本专利技术上述任一方面所述的方法。
20、根据本专利技术的又一个方面,提供了一种电子设备,所述电子设备包括:处理器;用于存储所述处理器可执行指令的存储器;所述处理器,用于从所述存储器中读取所述可执行指令,并执行所述指令以实现本专利技术上述任一方面所述的方法。
21、从而,本专利技术利用预训练模型与机器学习模型和统计模型进行集成得到语言模型对富文本进行关键词提取和分析得到富文本数据的文本标签,可快速生成准备的标签,节省了大量的提取时间。
本文档来自技高网...【技术保护点】
1.一种自动生成富文本标签的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:对所述富文本数据集进行清洗操作,得到清洗后的富文本数据集。
3.根据权利要求1所述的方法,其特征在于,所述语言模型的训练过程为:
4.根据权利要求3所述的方法,其特征在于,利用预设特定的关键词提取任务对所述预训练模型架构进行预训练,得到预训练模型,包括:
5.根据权利要求1所述的方法,其特征在于,对所述文本标签集进行优化和过滤,得到所述富文本数据集的最终文本标签,包括:
6.一种自动生成富文本标签的装置,其特征在于,包括:
7.根据权利要求6所述的装置,其特征在于,还包括:清洗模块,用于对所述富文本数据集进行清洗操作,得到清洗后的富文本数据集。
8.根据权利要求6所述的装置,其特征在于,所述语言模型的训练过程为:
9.一种计算机可读存储介质,其特征在于,所述存储介质存储有计算机程序,所述计算机程序用于执行上述权利要求1-5任一所述的方法。
10.一种电子设备,其特征在于,
...【技术特征摘要】
1.一种自动生成富文本标签的方法,其特征在于,包括:
2.根据权利要求1所述的方法,其特征在于,还包括:对所述富文本数据集进行清洗操作,得到清洗后的富文本数据集。
3.根据权利要求1所述的方法,其特征在于,所述语言模型的训练过程为:
4.根据权利要求3所述的方法,其特征在于,利用预设特定的关键词提取任务对所述预训练模型架构进行预训练,得到预训练模型,包括:
5.根据权利要求1所述的方法,其特征在于,对所述文本标签集进行优化和过滤,得到所述富文本数据集的最...
【专利技术属性】
技术研发人员:代轩,王浩,薛富恩,
申请(专利权)人:北京安锐卓越信息技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。