System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及文本内容分析,具体为一种基于文本内容分析的职能标签分类方法及系统。
技术介绍
1、随着信息技术的迅速发展和广泛应用,文本数据的数量和复杂性不断增加,如何有效地从海量文本数据中提取有价值的信息,成为了信息处理领域的重要研究方向。在众多文本分析技术中,基于文本内容的职能标签分类方法具有重要的应用价值,如在文档管理、信息检索、舆情分析、自动摘要和文本分类等方面均有广泛的应用。
2、传统的文本分类方法主要依赖于关键词匹配和统计学习模型,虽然这些方法在一定程度上能够实现文本分类,但在处理复杂文本时往往存在准确率低、鲁棒性差、难以应对多层次文本结构等问题。因此,提出一种基于文本内容分析的职能标签分类方法,以提高文本分类的准确性和有效性,是当前研究的热点。
技术实现思路
1、鉴于上述存在的问题,提出了本专利技术。
2、因此,本专利技术解决的技术问题是:现有的职能标签分类方法存在灵活性差、精准度较低等问题。
3、为解决上述技术问题,本专利技术提供如下技术方案:一种基于文本内容分析的职能标签分类方法,包括:
4、采集文本内容信息;
5、对文本内容进行拆解和分析,并根据分析结果,对拆解后的每一个部分插入标签;
6、对所述标签进行统计,并分析统计结果,从而得到文本内容的分类结果。
7、作为本专利技术所述的基于文本内容分析的职能标签分类方法的一种优选方案,其中:所述文本内容包括,将文本导入系统内,系统识别文本
8、所述预处理包括,使用预训练的bert模型,识别出文本中的每一级标题及正文,并按照标题等级进行分层;
9、分层过程中,按照标题等级,将标题从高等级标题到低等级标题逐一排列;对正文赋予注意力权重为1,对最低的等级标题赋予注意力权重为2,按照排列顺序,每高一个标题等级则注意力权重增加1,设最高等级标题的注意力权重为l;
10、分层完成后,分别对标题和正文内容进行文本内容的拆解。
11、作为本专利技术所述的基于文本内容分析的职能标签分类方法的一种优选方案,其中:所述文本内容的拆解包括,对于同一段落的内容,将文本内容按句子进行分割,得到句子集合{s1,s2,…,sn};
12、使用word2vec算法,将每个句子si转换为向量表示v(si);
13、
14、其中,w(si)表示句子si中的词语集合,v(w)表示词语w的词向量;
15、选择文本中与句子i相邻的句子j,计算每对句子之间的余弦相似度θ(si,sj):
16、
17、构建句子相似度矩阵m,m[i][j]=θ(si,sj);
18、其中,m[i][j]表示矩阵m中第i行第j列的元素;
19、设合并阈值若则将句子i和句子j合并为同一句子集合;若则将句子i与句子j之间进行拆解,使句子i与句子j分别处于两个不同的句子集合;
20、完成拆解后,对拆解后的每个句子集合进行内容分析。
21、作为本专利技术所述的基于文本内容分析的职能标签分类方法的一种优选方案,其中:所述内容分析包括,对每个句子集合中的句子进行预处理,包括去除停用词、标点符号;
22、使用word2vec算法将句子集合中的每个句子转换为向量表示,对每个句子集合中的句子向取平均,得到该句子集合的向量表示;
23、
24、其中,ck表示第k个句子集合,v(si)表示句子si的向量;
25、将预设的标签向量化,并计算每个句子集合与分类标签之间的余弦相似度;
26、
27、其中,lm表示第m个预设标签的向量表示,similarity(ck,lm)表示第k个句子集合与标签lm的相似度;取similarity(ck,lm)的最大值作为标签选择依据,生成句子集合的分类标签。
28、作为本专利技术所述的基于文本内容分析的职能标签分类方法的一种优选方案,其中:所述内容分析还包括,对每个标题下的正文中的字符数量进行统计,记录为d;对每个句子集合的字符数量进行统计,记录为j;
29、计算每个句子集合在各自标题下的占比:
30、
31、计算每个句子集合所在的标题,在全文中的占比:
32、
33、其中,t表示全文字符数量;
34、将句子集合在标题下的占比p插入到每个句子集合对应的分类标签中,通过对全文的宏观统计,完成最终的分类。
35、作为本专利技术所述的基于文本内容分析的职能标签分类方法的一种优选方案,其中:所述对全文的宏观统计包括,统计整个文本中的所有标签,得到n个标签种类;
36、计算每种标签在全文中的重要性系数:
37、
38、其中,pq表示在当前标签种类的第q个标签,所在的句子集合在对应标题下的占比;fq表示在当前标签种类的第q个标签,所在标题的注意力权重;zq表示在当前标签种类的第q个标签匹配的内容,在全文中的占比;q表示当前标签种类的标签数量;
39、对文本中所有的标签进行聚类,得到m个聚类结果,计算每个聚类结果中所有标签在全文中的重要性系数:
40、
41、其中,pu表示在当前聚类结果中,第u个标签所在的句子集合在对应标题下的占比;fu表示在当前标签种类的第u个标签,所在标题的注意力权重;zu表示在当前标签种类的第u个标签匹配的内容,在全文中的占比;u表示当前聚类结果的标签数量。
42、作为本专利技术所述的基于文本内容分析的职能标签分类方法的一种优选方案,其中:所述最终的分类包括,预设阈值δ,作为判断聚类效果是否可用的标准;若y>δ,则判断聚类结果的聚类中心的分类标签为最终分类结果;
43、若y≤δ,则判断聚类效果不可用,通过每种标签在全文中的重要性系数zy对文本进行分类,选取zy的最大值所对应的分类标签为最终分类结果;
44、将最终分类结果进行输出,作为文本内容的总分类结果;同时将zy≥的所有标签都作为文本内容的可检索标签;
45、在检索时,通过输入标签内容,即可定位到当前文本。
46、一种采用如本专利技术所述方法的基于文本内容分析的职能标签分类系统,其特征在于:
47、采集单元,采集文本内容信息;
48、标签单元,对文本内容进行拆解和分析,并根据分析结果,对拆解后的每一个部分插入标签;
49、分类单元,对所述标签进行统计,并分析统计结果,从而得到文本内容的分类结果。
50、一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其中:所述处理器执行所述计算机程序时实现本专利技术中任一项所述的方法的步骤。
51、一种计算机可读存储介质,其上存储有计算机程序,其中:所述计算机程序被处理器执行时实现本专利技术中任一项所述的方法的步骤。<本文档来自技高网...
【技术保护点】
1.一种基于文本内容分析的职能标签分类方法,其特征在于,包括:
2.如权利要求1所述的基于文本内容分析的职能标签分类方法,其特征在于:所述文本内容包括,将文本导入系统内,系统识别文本信息,并对文本进行预处理;
3.如权利要求2所述的基于文本内容分析的职能标签分类方法,其特征在于:所述文本内容的拆解包括,对于同一段落的内容,将文本内容按句子进行分割,得到句子集合{S1,S2,...,Sn};
4.如权利要求3所述的基于文本内容分析的职能标签分类方法,其特征在于:所述内容分析包括,对每个句子集合中的句子进行预处理,包括去除停用词、标点符号;
5.如权利要求4所述的基于文本内容分析的职能标签分类方法,其特征在于:所述内容分析还包括,对每个标题下的正文中的字符数量进行统计,记录为D;对每个句子集合的字符数量进行统计,记录为J;
6.如权利要求5所述的基于文本内容分析的职能标签分类方法,其特征在于:所述对全文的宏观统计包括,统计整个文本中的所有标签,得到N个标签种类;
7.如权利要求6所述的基于文本内容分析的职能标签分
8.一种采用如权利要求1-7任一所述方法的基于文本内容分析的职能标签分类系统,其特征在于:
9.一种计算机设备,包括:存储器和处理器;所述存储器存储有计算机程序,其特征在于:所述处理器执行所述计算机程序时实现基于文本内容分析的职能标签分类方法的步骤。
10.一种计算机可读存储介质,其上存储有计算机程序,其特征在于:所述计算机程序被处理器执行时实现基于文本内容分析的职能标签分类方法的步骤。
...【技术特征摘要】
1.一种基于文本内容分析的职能标签分类方法,其特征在于,包括:
2.如权利要求1所述的基于文本内容分析的职能标签分类方法,其特征在于:所述文本内容包括,将文本导入系统内,系统识别文本信息,并对文本进行预处理;
3.如权利要求2所述的基于文本内容分析的职能标签分类方法,其特征在于:所述文本内容的拆解包括,对于同一段落的内容,将文本内容按句子进行分割,得到句子集合{s1,s2,...,sn};
4.如权利要求3所述的基于文本内容分析的职能标签分类方法,其特征在于:所述内容分析包括,对每个句子集合中的句子进行预处理,包括去除停用词、标点符号;
5.如权利要求4所述的基于文本内容分析的职能标签分类方法,其特征在于:所述内容分析还包括,对每个标题下的正文中的字符数量进行统计,记录为d;对每个句子集合的字符数量进行统计,记录为j;
<...【专利技术属性】
技术研发人员:王萌,杜贻林,
申请(专利权)人:华能新能源股份有限公司河北分公司,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。