System.ArgumentOutOfRangeException: 索引和长度必须引用该字符串内的位置。 参数名: length 在 System.String.Substring(Int32 startIndex, Int32 length) 在 zhuanliShow.Bind()
【技术实现步骤摘要】
本专利技术涉及多源海量文档的分类和检索,具体指一种多源海量教育数据统一集成方法。
技术介绍
1、多源海量文档分类检索涉及处理大量来自不同来源和不同格式的文档,并对其进行分类和检索。这是一个巨大挑战,因为海量文档的规模和多样性使得传统的分类和检索方法难以适用。
2、现有的解决方案包括基于关键词的检索、基于统计分析的分类方法、基于机器学习的分类算法等。然而,这些方法在面对多源海量文档时存在一些局限性,比如数据质量不一,来自不同来源的文档数据质量参差不齐,可能存在大量噪音、重复或不准确的数据,影响分类检索的准确性;随着数据的不断增长和更新,如何保证分类检索系统对多样性和时效性的要求,是需要进一步研究和改进的问题;大规模计算和存储需求,海量文档的分类检索需要大规模的计算和存储资源,如何有效地处理海量数据成为一个挑战。
技术实现思路
1、本专利技术针对现有技术的不足,提出一种多源海量教育数据统一集成方法,针对多源海量文档分类检索的需求,并解决涉及垂直领域的专有名词时精确度低、分类不准确、差异化的问题,可以更准确地对文本进行分类,更好地解决垂直领域的专有名词问题,大幅度提升检索的正确性,以提升生成答案的正确率。
2、为了解决上述技术问题,本专利技术的技术方案为:
3、一种多源海量教育数据统一集成方法,包括以下步骤:
4、s1.获取学习文档、服务说明文档和事项说明文档,并进行文档加载和分块;
5、s2.针对学习文档、服务说明文档、事项说
6、s2.1、由单词wjt,t∈[1,tj]组成的句子,首先通过通用词嵌入模型word2vec把单词转化为词向量,xjt=f(wjt),其中f表示word2vec模型;
7、s2.2、通过连接给定单词wjt的前向隐藏态其中fjt是一个单词序列fjt=[xj1,xj2,...,xjt-1],和反向隐藏态其中bjt是一个单词序列bjt=[xjt+1,xjt+2,...,xjt]。其中gru是一种循环神经网络结构,其内部包含重置门和更新门;
8、s2.3、对以wjt为中心的句子信息进行整合得到单词级别词向量,其中ejt包含了wjt周围前驱和后继两个方向以及自身的信息;
9、s3、将单词级别词向量ejt通过注意力机制计算与单词级别上下文词向量的相似性来测量单词的重要性ujt,并由此得到句子级别词向量表示esj,具体包括以下子步骤:
10、s3-1、使用注意力函数g将单词级别词向量ejt映射到一个标量,然后经过softmax操作获得了一个归一化的权重矩阵ujt,代表句子sj中第t个词的权重;
11、
12、s3-2、通过加权机制和单词级别词向量表示ejt,得到所有句子级别词向量表示esj;
13、
14、s4、将句子级别词向量esj通过注意力机制计算与句子级别上下文词向量的相似性来测量句子的重要性vj,并由此得到文档级别词向量表示edi,具体包括以下子步骤:
15、s4-1、使用注意力函数g将句子级别词向量esj映射到一个标量,然后经过softmax操作获得了一个归一化的权重矩阵vj,代表文档中第j个句子sj的权重;
16、
17、s4-2、通过加权机制和句子级别词向量esj,得到所有文档级别词向量表示edi;
18、
19、s5、若输入的文本是分类任务,则使用k-means算法得到所属文档类别,并更新文档聚类中心;如果输入的文本是检索任务,则使用k-means算法得到所属文档类别,将该类文档中最相似的n条内容作为检索内容。
20、本专利技术具有以下的特点和有益效果:
21、采用上述技术方案,本专利技术提出的一种多源海量教育数据统一集成方法,针对海量垂直领域不同细分维度的文档数据,采取针对性的网络参数、优化算法以及学习率的设置,根据不同的领域训练出不同的分类模型。对文本进行attention训练之后,本方法可以学习垂直领域的相关知识,使得分类器可以从语义的角度理解文本,可以对不同文本内容细分出不同的子领域,其中对不同的子领域进行二次聚类,可以大大加快检索的速度,提高整体的运行效率。对检索结果,本方法使用多种处理方法对检索结果二次加工,使得查询的数据更加精确,得到的结果更加令用户满意。
本文档来自技高网...【技术保护点】
1.一种多源海量教育数据统一集成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤1中,使用jieba库中的中文分词工具将文档分割为块。
3.根据权利要求1所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤2中,在获取单词级别词向量时,首先定义数据集中有R个文档Di,i∈[1,R],文档Di具有Li个句子Sj,j∈[1,Li],并且每个句子Sj包含Tj个汉字,wjt,t∈[1,Tj]表示第j个句子中第t个单词。
4.根据权利要求3所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤2中,提取单词级别词向量的方法为:
5.根据权利要求4所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤3中,计算相似性的具体方法为:
6.根据权利要求5所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤3中,通过权重矩阵ujt和单词级别词向量ejt,得到所有句子级别词向量eSj,表达式如下:
7.根据权利要求6所述的一种多源海量教育
8.根据权利要求7所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤5中,文本任务包括文本分类任何和文本检索任务。
9.根据权利要求8所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤5中,若输入的文本是分类任务,则得到文档所属类别的方法为:
10.根据权利要求8所述的一种多源海量教育数据统一集成方法,其特征在于,其特征在于,所述步骤5中,若输入的文本是检索任务,则检索相关文档内容的方法为:
11.根据权利要求9或10所述的一种多源海量教育数据统一集成方法,其特征在于,其特征在于,所述步骤5中,对于所述文本任务结果的优化方法为:利用词性标注和句法分析方法提取出重复信息,对于确定为重复信息的部分,采取合并的方式进行精简,多个相似信息只保留一个最完整、最准确的答案。
...【技术特征摘要】
1.一种多源海量教育数据统一集成方法,其特征在于,包括如下步骤:
2.根据权利要求1所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤1中,使用jieba库中的中文分词工具将文档分割为块。
3.根据权利要求1所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤2中,在获取单词级别词向量时,首先定义数据集中有r个文档di,i∈[1,r],文档di具有li个句子sj,j∈[1,li],并且每个句子sj包含tj个汉字,wjt,t∈[1,tj]表示第j个句子中第t个单词。
4.根据权利要求3所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤2中,提取单词级别词向量的方法为:
5.根据权利要求4所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤3中,计算相似性的具体方法为:
6.根据权利要求5所述的一种多源海量教育数据统一集成方法,其特征在于,所述步骤3中,通过权重矩阵ujt和单词级别词向量ejt,得到所有句子级别词向量esj,表...
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。