System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本申请涉及一种机器学习和自然语言处理,尤其涉及一种文本新词发现分析方法、系统、装置和介质。
技术介绍
1、在当今信息时代,随着大数据的快速增长和信息爆炸式的扩展,各行业都面临着处理海量文本信息的挑战。为了更好地理解和利用这些信息,文本新词发现成为了一项关键的任务。然而,现有的文本新词发现技术在应对不同行业、领域的差异时存在一些挑战。
2、传统的文本新词发现方法往往无法充分考虑不同行业之间的专业术语和文化差异,导致在特定行业中发现的新词可能不够准确或有一定局限性。因此,有必要提出一种文本新词发现分析方法、系统、装置和介质,以更好地适应各个行业的需求。
技术实现思路
1、本申请的目的在于提供一种文本新词发现分析方法、系统、装置和介质,以至少解决相关技术中传统的文本新词发现方法往往无法充分考虑不同行业之间的专业术语和文化差异,导致在特定行业中发现的新词不够准确的问题。
2、本申请第一方面提供一种文本新词发现分析方法,所述方法包括:
3、获取各行业的文本数据,对所述文本数据进行结构化处理,得到原始新词数据集,其中,所述原始新词数据集中每条原始新词数据的文本内容包括行业类别字段、标题字段和描述字段;
4、基于所述文本内容的行业类别字段进行筛选,并提取相对应的描述字段的文本内容,得到行业文档集;
5、基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集;
6、基于所述行业文档集和所述第一候选新词集,通过预先
7、基于所述原始新词数据集和所述第二候选新词集进行聚类处理,确定目标候选新词集。
8、在一个实施例中,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:
9、基于所述原始新词数据的描述字段的文本内容,采用切词工具进行分词处理,得到原始分词列表;
10、对所述原始分词列表进行替换处理得到初始候选新词,所述替换处理包括:利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,并基于所述拼接新词和预设先决条件,确定所述初始候选新词;
11、确定所述原始分词列表的关键词集,基于所述初始候选新词和所述关键词集,确定所述第一候选新词集。
12、在一个实施例中,所述确定所述初始候选新词之后,还包括:
13、根据所述初始候选新词更新至所述切词工具中,对所述原始新词数据的描述字段的文本内容进行分词处理,得到更新原始分词列表;
14、利用所述更新原始分词列表通过所述替换处理获取更新初始候选新词;
15、确定所述更新原始分词列表的更新关键词集,基于所述更新初始候选新词和所述更新关键词集,确定更新第一候选新词集。
16、在一个实施例中,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:
17、利用替换符替换所述原始分词列表中的预设停用词,得到替换分词列表;
18、响应于所述原始分词列表中的目标元素及所述目标元素的下位置元素在所述替换分词列表中未被所述替换符替换,则将所述目标元素和所述下位置元素进行拼接得到所述拼接新词;
19、响应于所述原始分词列表中的目标元素、所述目标元素的下位置元素以及所述目标元素的下下位置元素在所述替换分词列表中未被所述替换符替换,则将所述目标元素、所述下位置元素和所述下下位置元素进行拼接得到所述拼接新词。
20、在一个实施例中,所述基于所述拼接新词和预设先决条件,确定初始候选新词,包括:
21、根据所述行业文档集,确定所述拼接新词的左信息熵和右信息熵;
22、根据所述左信息熵和右信息熵,确定第一先决条件;
23、根据所述拼接新词的拼接长度,确定第二先决条件;
24、根据所述第一先决条件和所述第二先决条件,确定所述拼接新词为所述初始候选新词。
25、在一个实施例中,所述基于所述初始候选新词和所述关键词集,确定所述第一候选新词集,包括:
26、判断所述初始候选新词是否在所述关键词集中;
27、若所述初始候选新词存在所述关键词集中,则将所述初始候选新词存储至第一候选新词集,并根据所述初始候选新词所属下位置元素更新所述原始分词列表;
28、若所述初始候选新词不存在所述关键词集中,则继续遍历确定第一候选新词集,直至所述初始候选新词存在所述关键词集中,将所述初始候选新词存储至第一候选新词集,并根据所述初始候选新词所属下位置元素更新所述原始分词列表。
29、在一个实施例中,所述主题模型包括第一主题模型和第二主题模型;所述基于所述行业文档集和所述第一候选新词集,通过预先训练好的主题模型确定所述原始新词数据集相对应的主题关键词预测概率,包括:
30、根据所述行业文档集,采用预先训练好的所述第一主题模型获取所述原始新词数据集相对应的第一主题关键词预测概率,其中,所述第一主题模型的词库中不添加所述第一候选新词集;
31、根据所述行业文档集,采用预先训练好的所述第二主题模型获取所述原始新词数据集相对应的第二主题关键词预测概率,其中,所述第二主题模型的词库中添加所述第一候选新词集。
32、在一个实施例中,所述根据所述主题关键词预测概率对所述第一候选新词集进行更新确定第二候选新词集,包括:
33、根据所述第一候选新词集中的每个候选新词,查找对应的所述第一主题关键词预测概率,并将查找到的所述第一主题关键词预测概率进行累加处理得到第一累加概率;
34、根据所述第一候选新词集中的每个候选新词,查找对应的所述第二主题关键词预测概率,并将查找到的所述第二主题关键词预测概率进行累加处理得到第二累加概率;
35、基于所述第一累加概率和所述第二累加概率,对所述第一候选新词集进行更新,得到所述第二候选新词集。
36、在一个实施例中,所述基于所述原始新词数据集和所述第二候选新词集进行聚类处理,确定目标候选新词集,包括:
37、基于所述原始新词数据集和所述第二候选新词集进行聚类处理,获取所述第二候选新词集中的候选新词所属类别中非重要词集占比;
38、基于所述非重要词集占比,对所述第二候选新词集进行修正,确定所述目标候选新词集。
39、本申请第二方面提供一种文本新词发现分析系统,所述系统包括:
40、获取原始新词数据集模块,用于获取各行业的文本数据,对所述文本数据进行结构化处理,得到原始新词数据集,其中,所述原始新词数据集中每条原始新词数据的文本内容包括行业类别字段、标题字段和描述字段;
41、获取行业文档集模块,用于基于所述文本内容的行业类别字段进行筛本文档来自技高网...
【技术保护点】
1.一种文本新词发现分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:
3.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述确定所述初始候选新词之后,还包括:
4.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:
5.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述拼接新词和预设先决条件,确定初始候选新词,包括:
6.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述初始候选新词和所述关键词集,确定所述第一候选新词集,包括:
7.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述主题模型包括第一主题模型和第二主题模型;所述基于所述行业文档集和所述第一候选新词集,通过预先训练好的主题模型确定所述原始新词数据集相对应的主题关键词预测概率,包括:
...【技术特征摘要】
1.一种文本新词发现分析方法,其特征在于,所述方法包括:
2.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述基于所述原始新词数据集中每条原始新词数据进行分词,确定第一候选新词集,包括:
3.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述确定所述初始候选新词之后,还包括:
4.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述利用替换符替换所述原始分词列表中的预设停用词,根据替换结果确定拼接新词,包括:
5.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述拼接新词和预设先决条件,确定初始候选新词,包括:
6.根据权利要求2所述的文本新词发现分析方法,其特征在于,所述基于所述初始候选新词和所述关键词集,确定所述第一候选新词集,包括:
7.根据权利要求1所述的文本新词发现分析方法,其特征在于,所述主题模型包括第一主题模型和第二主题模型;所述基于...
【专利技术属性】
技术研发人员:张文广,邢添威,张书浆,丁照源,王彪,于俊高,
申请(专利权)人:银江技术股份有限公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。