System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及自然语言处理,具体为自然语言处理技术的文档分类与热点话题生成方法及系统。
技术介绍
1、为了增加用户参与度,大部分多媒体数据平台都会设置话题讨论区,在话题讨论区中可以包括至少一个热议的话题。但是传统的话题都是人工编辑,需要耗费较多的人力资源,导致话题生成效率较低、热点话题判断不准确,因此,如何提高热点话题生成效率成了当下的研究热点。
技术实现思路
1、鉴于上述存在的问题,提出了本专利技术。
2、因此,本专利技术解决的技术问题是:提高获取热点话题的效率和准确性,提高话题的讨论度。
3、为解决上述技术问题,本专利技术提供如下技术方案:自然语言处理技术的文档分类与热点话题生成方法,其包括如下步骤,
4、收集需要分类的原始文档数据集;使用分词算法将所述原始文档数据集切分为词汇单元;基于词汇单元对所述文档数据集进行基本特征提取;通过基本特征对原始文档数据集进行类别划分,获得分类文档;获取话题在分类文档中分布和关联,并识别出高频话题作为热点话题。
5、作为本专利技术所述的自然语言处理技术的文档分类与热点话题生成方法的一种优选方案,其中:所述使用分词算法包括基于规则的分词和基于机器学习的分词。
6、所述使用分词算法将所述原始文档数据集切分为词汇单元,包括通过所述基于规则的分词,使用预定义的词典和规则将所述原始文档数据集切分为词汇单元。
7、通过所述基于统计的分词,使用统计方法根据词频和共现概率将所述原始文档切分
8、作为本专利技术所述的自然语言处理技术的文档分类与热点话题生成方法的一种优选方案,其中:所述规则为从左到右扫描文件,取当前扫描位置后的最长字符串与预定义的词典进行匹配,若匹配成功,则匹配的最长字符串为词汇单元,若未匹配到最长字符串,则缩短字符串长度与预定义的词典进行匹配,直至找到符合匹配的字符串或字符串长度为1。
9、所述使用统计方法根据词频和共现概率将所述原始文档切分为词汇单元具体包括收集字符串出现的次数,若当前字符串出现的次数超过了次数阈值,则表示当前字符串被认为是潜在的词汇单元,基于潜在的词汇单元收集与另一个字符串共同出现的频率,若共同出现的频率超过了频率阈值,则当前两个字符串以及两个字符串组合均为词汇单元。
10、作为本专利技术所述的自然语言处理技术的文档分类与热点话题生成方法的一种优选方案,其中所述基本特征提取包括针对规则的分词切分的词汇单元与基于统计的分词切分的词汇单元采取各自的特征提取方法,其中对规则的分词切分的词汇单元为记录词汇在文档中的位置,利用预定义词典的元数据,直接从词典中提取并加入到特征集中,其中,若分词字符串长度在满足规则中的字符串长度时,直接加入特征集中。
11、对统计的分词切分为词汇单元为计算每个词汇在文档数据集中出现的频率以及词与词在窗口内的共现频率,构建共现网络,计算每个词汇的tf-idf值。
12、作为本专利技术所述的自然语言处理技术的文档分类与热点话题生成方法的一种优选方案,其中:所述通过基本特征对所述原始文档数据集进行类别划分,获得分类文档,包括将规则的分词切分得到的基本特征与统计的分词得到的基本特征进行特征融合,获取特征融合后的基本特征中的高维特征,利用主成分分析法对所述高维特征进行降维,获得主要特征。
13、通过预设文档分类模型对所述主要特征进行识别,获得所述主要特征对应的文档类别。
14、作为本专利技术所述的自然语言处理技术的文档分类与热点话题生成方法的一种优选方案,其中:所述获取话题在分类文档中分布和关联,并识别出高频话题作为热点话题,包括:
15、利用lda检测所述分类文档中的主题分布,所述主题分布用于表示所述分类文档中的各个主题的分布概率。
16、获取目标主题,对所述目标主题对应的话题进行语义识别,得到一条或多条语义信息;所述目标主题为所述分布概率满足预设分布概率阈值的主题;
17、获取所述一条或多条语义信息中相似语义信息的讨论频率。
18、若存在目标相似语义信息对应讨论频率满足第一预设条件,则确定所述目标相似语义信息对应的话题度满足预设话题条件。
19、将所述目标相似语义信息所在的话题作为所述热点话题。
20、所述利用lda检测所述分类文档中的主题分布,包括使用dirichlet分布预测所述主题分布:
21、
22、其中,θ为所述分类文档的主题分布,α是dirichlet分布的参数,k是主题的数量,p(θα)表示在给定参数α的情况下,θ的概率密度函数。
23、作为本专利技术所述的自然语言处理技术的文档分类与热点话题生成方法的一种优选方案,其中:所述所述识别出高频话题作为热点话题还包括获取所述原始文档数据集的观看时长。
24、对所述观看时长进行时间段划分,得到多个观看时间段。
25、获取所述多个观看时间段中各个观看时间段观看的文档数据集片段的片段评论内容的数量,所述各个播放时间段播放的文档数据集片段为所述文档数据集的多媒体片段,所述片段评论内容的语义信息为所述热点话题。
26、确定数量满足第二预设数量条件的片段评论内容,并根据确定的片段评论内容中发布时间最早的片段评论内容的时间信息,确定与所述讨论话题匹配的文档数据集片段在所述文档数据集中的起始位置。
27、建立所述讨论话题与所述起始位置的关联关系,并将所述讨论话题以及与所述讨论话题关联的起始位置存储至存储器中。
28、本专利技术的另外一个目的是提供自然语言处理技术的文档分类与热点话题生成系统,其能通过综合应用基于规则和基于统计的分词方法,高效的tf-idf特征提取,以及先进的潜在狄利克雷分配(lda)模型,解决了现有技术中对大规模文档数据处理效率低下、特征提取不精准以及话题识别不明确的问题。
29、为解决上述技术问题,本专利技术提供如下技术方案:自然语言处理技术的文档分类与热点话题生成系统,包括数据收集模块、数据切分模块、类别划分模块以及获取模块。
30、数据收集模块,用于收集需要分类的原始文档数据集。
31、数据切分模块,用于使用分词算法将所述文档数据集切分为词汇单元。
32、类别划分模块,用于基于所述词汇单元对所述文档数据集进行基本特征提取,以通过所述基本特征对所述原始文档数据集进行类别划分,获得分类文档。
33、获取模块,用于获取话题在所述分类文档中分布和关联,并识别出高频话题作为热点话题。
34、所述数据切分模块,具体用于:
35、通过基于规则的分词,使用预定义的词典和规则将所述原始文档数据集切分为词汇单元。
36、通过基于统计的分词,使用统计方法根据词频和共现概率将所述原始文档切分为词汇单元。
37、一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现如本文档来自技高网...
【技术保护点】
1.自然语言处理技术的文档分类与热点话题生成方法,其特征在于,包括:
2.如权利要求1所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述使用分词算法包括基于规则的分词和基于统计的分词;
3.如权利要求2所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述规则为从左到右扫描文件,取当前扫描位置后的最长字符串与预定义的词典进行匹配,若匹配成功,则匹配的最长字符串为词汇单元,若未匹配到最长字符串,则缩短字符串长度与预定义的词典进行匹配,直至找到符合匹配的字符串或字符串长度为1;
4.如权利要求3所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述基本特征提取包括针对规则的分词切分的词汇单元与基于统计的分词切分的词汇单元采取各自的特征提取方法,其中对规则的分词切分的词汇单元为记录词汇在文档中的位置,利用预定义词典的元数据,直接从词典中提取并加入到特征集中,其中,若分词字符串长度在满足规则中的字符串长度时,直接加入特征集中;
5.如权利要求4所述的自然语言处理技术的文档分类与热点话题生成方法,
6.如权利要求5所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述获取话题在分类文档中分布和关联,并识别出高频话题作为热点话题,包括:
7.如权利要求6所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述所述识别出高频话题作为热点话题还包括获取所述原始文档数据集的观看时长;
8.一种采用如权利要求1~7任一所述的自然语言处理技术的文档分类与热点话题生成方法的系统,其特征在于:包括数据收集模块、数据切分模块、类别划分模块以及获取模块;
9.一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其特征在于,所述处理器执行所述计算机程序时实现权利要求1至7中任一项所述的自然语言处理技术的文档分类与热点话题生成方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于,所述计算机程序被处理器执行时实现权利要求1至7中任一项所述自然语言处理技术的文档分类与热点话题生成方法的步骤。
...【技术特征摘要】
1.自然语言处理技术的文档分类与热点话题生成方法,其特征在于,包括:
2.如权利要求1所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述使用分词算法包括基于规则的分词和基于统计的分词;
3.如权利要求2所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述规则为从左到右扫描文件,取当前扫描位置后的最长字符串与预定义的词典进行匹配,若匹配成功,则匹配的最长字符串为词汇单元,若未匹配到最长字符串,则缩短字符串长度与预定义的词典进行匹配,直至找到符合匹配的字符串或字符串长度为1;
4.如权利要求3所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述基本特征提取包括针对规则的分词切分的词汇单元与基于统计的分词切分的词汇单元采取各自的特征提取方法,其中对规则的分词切分的词汇单元为记录词汇在文档中的位置,利用预定义词典的元数据,直接从词典中提取并加入到特征集中,其中,若分词字符串长度在满足规则中的字符串长度时,直接加入特征集中;
5.如权利要求4所述的自然语言处理技术的文档分类与热点话题生成方法,其特征在于:所述通过基本特征对所述原始文档数据集进行类别划分,获得分类文档,...
【专利技术属性】
技术研发人员:李文科,张克贤,吴漾,朱昌会,孙收余,白雪,孙骏,林昌志,田钺,姚舜,黄笠煌,王益彰,
申请(专利权)人:贵州电网有限责任公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。