兼容多种语言的文档信息精准提取系统技术方案

技术编号：26846474 阅读：39 留言：0更新日期：2020-12-25 13:09

本发明专利技术提供的兼容多种语言的文档信息精准提取系统，实现了支持向量机算法的多种语言的信息提取方法，并分别按照文档分类的实际应用，结果表明在主动学习能力与分类效果方面，支持向量机算法优势明显；设计了一种通用可行的兼容多种语言的文档信息提取架构，并基于该架构实现的兼容多种语言的文档信息精准提取系统；将系统分别应用于对中英文科技新闻文档的信息提取中，结果表明：兼容多种语言的信息提取系统是实体关系提取的成功实践，具有较好的语言移植与可扩展能力、交互性能强、智能化程度高、可扩展性高、提取速度快、信息提取精度高等优势，是一种具备显著创新性，且优势突出的文档信息提取系统。

全部详细技术资料下载

【技术实现步骤摘要】
兼容多种语言的文档信息精准提取系统
本专利技术涉及一种文档信息精准提取系统，特别涉及一种兼容多种语言的文档信息精准提取系统，属于文档信息提取

技术介绍
伴随计算机和办公智能化的普以及互联网特别是移动互联网的飞速发展，各种形式的电子文档正持续高速增长。近年来移动互联网的火热，进一步加速了电子文档的普以与应用，人们的日常生活、工作和学习中都无时无刻的与电子文档发生密切联系。虽然电子文档数量与日俱增，但在庞大的文档库中有很大部分是含有大量垃圾信息的，且其中的信息还具有很大无序性，面对海量的电子文档资源时，为获取所需要的信息，只能采用通读全文或者逐个检索的方法，这大大阻碍了人们获取有效信息的效率。因此，从众多电子文档中智能、快速、精准的得到用户感兴趣的信息正日益成为一个急待解决的问题。信息提取技术虽是从众多文档中提取所需信息的有效手段，但要构建一个通用可行的信息提取系统却异常艰难和复杂。早期一般都是基于知识工程的方法构建信息提取系统，构建的系统虽具有一定的提取精度，但因提取规则都是基于手工建立的，需要花费大量的时间和资源，而且容易产生错误，导致系统的可移植能力较差。因此，当前迫切需要一种能够从训练语料库中智能获取文档信息提取模式的方法，而基于统计机器学习的信息提取方法能很好的满足这一需求，该方法是包括学习阶段与应用阶段两个部分的提取方法，其中，学习阶段主要是根据机器学习算法和训练语料训练模型，以构建提取模型；应用阶段使用学习阶段构造的模型对输入的文档进行信息提取。因此该类方法具有对领域知识的依赖性比较低，可...

【技术保护点】
1.兼容多种语言的文档信息精准提取系统，其特征在于，提出一种通用高效可行的兼容多种语言的文档信息精准提取架构，并基于该架构实现了兼容多种语言的文档信息精准提取系统，包括以下几个方面：/n第一，提出基于支持向量机的文档信息提取算法，并以多语言文档分类的实际应用设计和分析算法参数，改良优化算法过程，改进提高算法的主动学习能力；/n第二，通过对基于机器学习的信息提取流程解析改进，提出通用高效可行的兼容多种语言的信息精准提取架构，该架构主要分为两个层次，分别为前台展示层和后台逻辑处理层，该架构主要分为三个模块，分别为GUI模块、前置处理模块、主动学习模块，GUI模块为前台展示层，将信息提取过程以图形用户界面的方式展示给用户，提高用户的操作效率，提升系统交互性，前置处理模块和主动学习模块为后台逻辑处理层，采用模块化设计与个性化定制，增强系统的扩展能力与语言移植能力；/n第三，基于通用高效可行的兼容多种语言的信息精准提取架构，采用python语言实现了兼容多种语言的文档信息精准提取系统，在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果；/n兼容多种语言的文档信息精准提...

【技术特征摘要】
1.兼容多种语言的文档信息精准提取系统，其特征在于，提出一种通用高效可行的兼容多种语言的文档信息精准提取架构，并基于该架构实现了兼容多种语言的文档信息精准提取系统，包括以下几个方面：
第一，提出基于支持向量机的文档信息提取算法，并以多语言文档分类的实际应用设计和分析算法参数，改良优化算法过程，改进提高算法的主动学习能力；
第二，通过对基于机器学习的信息提取流程解析改进，提出通用高效可行的兼容多种语言的信息精准提取架构，该架构主要分为两个层次，分别为前台展示层和后台逻辑处理层，该架构主要分为三个模块，分别为GUI模块、前置处理模块、主动学习模块，GUI模块为前台展示层，将信息提取过程以图形用户界面的方式展示给用户，提高用户的操作效率，提升系统交互性，前置处理模块和主动学习模块为后台逻辑处理层，采用模块化设计与个性化定制，增强系统的扩展能力与语言移植能力；
第三，基于通用高效可行的兼容多种语言的信息精准提取架构，采用python语言实现了兼容多种语言的文档信息精准提取系统，在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果；
兼容多种语言的文档信息精准提取系统：一是基于支持向量机的文档信息提取算法，包括支持向量机及其核函数、基于支持向量机的文档信息提取算法设计与实验；二是兼容多种语言的文档信息精准提取系统的设计，包括基于支持向量机的信息提取流程、文档信息提取图形用户界面、机器学习算法与特征选择、文档信息精准提取系统的架构，三是兼容多种语言的文档信息精准提取系统的实现，包括实现图形用户界面GUI、实现前置处理模块、实现主动学习模块、实现基于规则的提取模块。

2.根据权利要求1所述的兼容多种语言的文档信息精准提取系统，其特征在于，基于支持向量机的文档信息提取算法中最重要的是对参数向量e的求解，求出向量e能很容易的计算出分隔超平面的方程，本发明参数向量e的求解算法应用能提速的启发式方法：首先通过一个外层循环对第一个e的值进行选择，并且其选择过程在以下二种方式下交替进行，一种方式是在所有数据集上进行单遍扫描，另外一种方式是在非边界e上进行单遍扫描；另外，对非边界e值进行遍历时，第一步必须构造包含其中所有值的列表，然后才对该列表进行遍历，同时该遍历忽略掉已知且不会改变的e值；在选择第一个e值后，算法通过一个内层循环选择第二个e值，选择方式是通过最大化步长获取第二个e值的；本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤：
第1步，定义数据结构basicDataClass给所有数据赋予初始值，其中包括样本集矩阵X、样本集分类结果矩阵labelMat、容错率tolerRatio、样本集矩阵的行数n，参数向量alpha，参数g及n行2列的矩阵eCache，该矩阵第一列表征的是第二列的值是否有效；
第2步，初始化第1步定义的数据结构，其中向量alpha为零向量，g为0，初始化当前迭代次数curLooNum、迭代次数上限值maxLooNum、用于记录alpha是否已进行优化的变量alphaOptimized及用于标记选择过程是否是全集扫面方式fullScaner，其中curLooNum初始值为0，alphaOptimized的初始值为0，fullScaner为True；
第3步，若满足外层循环条件，此时的迭代次数curLooNum小于设定的上限次数maxLooNum，并且alphaOptimized大于零或fullScaner为True，则转向第4步；否则，跳出外循环，并返回向量alpha和参数g的结果值，算法结束；
第4步，将优化状态alphaOptimized设定为0，并判断全集扫描的状态fullScaner的值是否为True，如果为True，则转向第5步，否则转向第6步；
第5步，在所有数据集上进行单遍扫描，内层循环，对参数向量alpha进行优化，其中第二个alpha的选择采用启发式方法，即从中选择步长最大的一个；如果alpha对优化成功，则将优化状态变量alphaOptimized设定为1，之后将curLooNum加1，转向第7步；
第6步，首先找到非边界alpha值列表，再在非边界alpha上进行一次遍历，内层循环，对参数向量alpha进行优化，其中第二个alpha的选择采用启发式方法，即从中选择步长最大的一个，如果alpha对优化成功，则将优化状态变量alphaOptimized设定为1，之后将curLooNum加1，转向第7步；
第7步，如果全集扫描状态fullScaner为True，则将fullScaner设定为False，转向第3步；否则，判断优化状态变量alphaOptimized是否为0，如果为0，则将fullScaner设定为True，并转向第3步。

3.根据权利要求2所述的兼容多种语言的文档信息精准提取系统，其特征在于，利用支持向量机构造文档信息提取机器学习算法的分类系统，具体步骤为：
步骤1，准备数据集：采用多个类别的开放语料文档集，确定语料的类别与数据详细信息；
步骤2，前置处理数据：采用python脚本用于数据的前置处理操作；
步骤3，参数估计：按照本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤，基于python实现，核函数的选择使用高斯核函数，且在训练样本集上运行SMO算法时对径向基函数的参数值h采用不同的设置，计算此时的训练错误率百分比及支持向量的个数，实施例容错率tolerRatio取0.0001，迭代次数上限值maxLooNum取10000；
步骤4，算法测试：根据估计的参数向量alpha和g的值，对测试样本集进行测试，并计算出此时的测试错误率百分比；
步骤5，实验完成：整理实验结果，当径向基函数中的参数h取10时是一个临界点，此时的测试错误率最小。

4.根据权利要求1所述的兼容多种语言的文档信息精准提取系统，其特征在于，基于支持向量机的文档信息提取流程分为三个主要步骤：
步骤一，目标定义和样本集标注，预定义本次文档信息提取的目标，并在事先准备的测试样本集上对待提取的文档信息进行适当手工标记；从事先准备的语料库中随机选取其中20％的样本作为测试样本集，而剩余80％的样本则用于模型训练；
步骤二，模型学习以及优化，在步骤一中已经标注好的测试样本集上，根据其中信息的特征进行特征定义，并将其与其它算法相结合，算法在训练样本集上对参数向量进行学习以构建支持向量机模型，然后利用已构建的支持向量机信息提取模型在测试样本集上对信息提取结果进行测试，并根据提取的结果对上一步定义的特征进行改进和优化，之后不断迭代重复测试，使得构造的模型达到比较理想的性能；
步骤三，基于模型的信息提取，主要是支持向量机模型的应用，即利用上一步训练好的支持向量机模型和算法相结合对未标记的待提取文档进行信息提取。

5.根据权利要求4所述的兼容多种语言的文档信息精准提取系统，其特征在于，图形用户界面将数据库中的结构化数据以图形化窗口的形式更友好和直观的展示给信息提取用户，本发明对基于支持向量机的信息提取流程中的三个步骤进行解析，提出用户对文档信息提取系统图形用户界面化的需求：
步骤一对数据样本集进行手工标注是一项花费大量时间资源的任务；将命名实体识别的结果以图形化的界面展示给用户，并且通过图形用户界面GUI对命名实体进行增加、删除、修改操作，简化提取流程、优化操作方式；
步骤二中将提取模型在测试样本集上不断测试以改进模型参数，此时正确的提取结果已经提前标注，用户需要反复比较基于模型的信息提取结果与手工标注的参照结果；
步骤三在模型构建成功之后对其进行应用时，将其对未标注文档提取的结果以图形用于界面GUI的方式展示给用户。

6.根据权利要求1所述的兼容多种语言的文档信息精准提取系统，其特征在于，文档信息精准提取系统的架构采用软件开发中的模块化设计与分层思想，整体上划分为两个层次：前台展示层和后台逻辑处理层；前台展示层是图形用户界面GUI，在信息提取的不同阶段，通过友好的图形用户界面GUI的方式为...

【专利技术属性】
技术研发人员：刘秀萍，王程，
申请(专利权)人：刘秀萍，
类型：发明
国别省市：浙江;33

全部详细技术资料下载我是这个专利的主人