当前位置: 首页 > 专利查询>刘秀萍专利>正文

兼容多种语言的文档信息精准提取系统技术方案

技术编号:26846474 阅读:31 留言:0更新日期:2020-12-25 13:09
本发明专利技术提供的兼容多种语言的文档信息精准提取系统,实现了支持向量机算法的多种语言的信息提取方法,并分别按照文档分类的实际应用,结果表明在主动学习能力与分类效果方面,支持向量机算法优势明显;设计了一种通用可行的兼容多种语言的文档信息提取架构,并基于该架构实现的兼容多种语言的文档信息精准提取系统;将系统分别应用于对中英文科技新闻文档的信息提取中,结果表明:兼容多种语言的信息提取系统是实体关系提取的成功实践,具有较好的语言移植与可扩展能力、交互性能强、智能化程度高、可扩展性高、提取速度快、信息提取精度高等优势,是一种具备显著创新性,且优势突出的文档信息提取系统。

【技术实现步骤摘要】
兼容多种语言的文档信息精准提取系统
本专利技术涉及一种文档信息精准提取系统,特别涉及一种兼容多种语言的文档信息精准提取系统,属于文档信息提取

技术介绍
伴随计算机和办公智能化的普以及互联网特别是移动互联网的飞速发展,各种形式的电子文档正持续高速增长。近年来移动互联网的火热,进一步加速了电子文档的普以与应用,人们的日常生活、工作和学习中都无时无刻的与电子文档发生密切联系。虽然电子文档数量与日俱增,但在庞大的文档库中有很大部分是含有大量垃圾信息的,且其中的信息还具有很大无序性,面对海量的电子文档资源时,为获取所需要的信息,只能采用通读全文或者逐个检索的方法,这大大阻碍了人们获取有效信息的效率。因此,从众多电子文档中智能、快速、精准的得到用户感兴趣的信息正日益成为一个急待解决的问题。信息提取技术虽是从众多文档中提取所需信息的有效手段,但要构建一个通用可行的信息提取系统却异常艰难和复杂。早期一般都是基于知识工程的方法构建信息提取系统,构建的系统虽具有一定的提取精度,但因提取规则都是基于手工建立的,需要花费大量的时间和资源,而且容易产生错误,导致系统的可移植能力较差。因此,当前迫切需要一种能够从训练语料库中智能获取文档信息提取模式的方法,而基于统计机器学习的信息提取方法能很好的满足这一需求,该方法是包括学习阶段与应用阶段两个部分的提取方法,其中,学习阶段主要是根据机器学习算法和训练语料训练模型,以构建提取模型;应用阶段使用学习阶段构造的模型对输入的文档进行信息提取。因此该类方法具有对领域知识的依赖性比较低,可移植能力较高的优点。近年来伴随已标注样本集的不断增加积累,基于统计机器学习的信息提取技术研发与应用受到越来越多的青睐。在20世纪60年代末期,有一种文档理解的技术,主要用于从自然语言文档中提取出结构化的数据信息,这就是信息提取技术的前身。之后,伴随因特网的发展和普及,涌现出大量的在线文档和离线文档,这也在一定程度上为信息提取带来了便利。近年来,伴随语料库的不断扩充及应用需求的逐渐增加,信息提取技术变得更加火热。在理论研究方面,大多数现有技术将重点放在以下几个方面:机器学习的信息提取方法、文档理解方法、篇章分析方法、Web信息提取方法及文档事件探测方法等;在实际应用方面,大部分是构建仅仅适用于某一领域范围的提取系统,或与信息检索、文档挖掘等其它自然语言处理技术相互协作以构建功能相对完善的知识发掘与识别系统。现有技术的英文信息提取起步较早,在命名实体识别和实体关系提取方面的技术较成熟,但仍有许多关键性的难题需要突破。现有技术重点放在基于机器学习的信息提取方法上,根据模型训练过程中采用的是否是已标注的训练样本集,可分为有监督的学习方法和无监督的学习方法,虽然有监督的机器学习方法逐渐丰富,但同时也存在无法快速得到诸多的已标注训练样本集等瓶颈,然而基于无监督的学习方法却很好地解决了这个难题,但这种方法目前仍处于空白状态,存在着一些急待克服的问题,如特征空间冗余性的缺陷等。中文信息提取起步较晚,中文不具有英文那种词与词之间存在空格分隔符等的天然特征,使得中文信息提取的变得更加困难。现有技术在中文信息提取方面主要致力于提高命名实体识别的精确度和召回率及构建简单的信息提取系统上,然而对于复杂强健的中文信息提取系统的设计与实现较弱。在实体关系提取系统实现方面,现有技术采用提出了一种可提高关系提取精度的改进语义序列核函数,然后结合KNN机器学习算法构造分类器来分类并标注关系的类型,但该系统只适合于小规模训练集的关系提取,且精度不高、可移植能力较差。在事件提取系统的研究方面,现有技术针对中文事件提取技术的缺点与不足,在中文事件提取中的事件类别和元素识别过程中分别采用两种分类方法,并以训练样本作为实验语料,提取性能有所提高,但一般只运用于特定的领域。综上,现有技术都还存在一些明显不足,表现在以下方面:一是当前电子文档数量与日俱增,但在庞大的文档库中有很大部分是含有大量垃圾信息的,且其中的信息还具有很大无序性,面对海量的电子文档资源时,现有技术为获取所需要的信息,主要还是采用通读全文或者逐个检索的方法,这大大阻碍了人们获取有效信息的效率;缺少从众多电子文档中智能、快速、精准的得到用户感兴趣信息的兼容多种语言的文档信息精准提取系统;二是信息提取技术虽是从众多文档中提取所需信息的有效手段,但现有技术要构建一个通用可行的信息提取系统却异常艰难和复杂,早期一般都是基于知识工程的方法构建信息提取系统,但因提取规则都是基于手工建立的,需要花费大量的时间和资源,而且容易产生错误,导致系统的可移植能力较差;三是现有技术重点放在基于机器学习的信息提取方法上,根据模型训练过程中采用的是否是已标注的训练样本集,可分为有监督的学习方法和无监督的学习方法,虽然有监督的机器学习方法逐渐丰富,但同时也存在无法快速得到诸多的已标注训练样本集等瓶颈,然而基于无监督的学习方法却很好地解决了这个难题,但这种方法目前仍处于空白状态,存在着一些急待克服的问题,如特征空间冗余性的缺陷等,兼容多种语言的文档信息提取技术不成熟,不能够满足行业需求;四是中文不具有英文那种词与词之间存在空格分隔符等的天然特征,使得中文信息提取的变得更加困难,现有技术在中文信息提取方面主要致力于提高命名实体识别的精确度和召回率及构建简单的信息提取系统上,然而对于复杂强健的中文信息提取系统的设计与实现较弱,只适合于小规模训练集的关系提取,且精度不高、可移植能力较差,一般只运用于特定的领域,同时存在交互性能弱、智能化程度低、可扩展性低、提取速度慢、语言移植能力差、信息提取精度低等缺陷。
技术实现思路
本专利技术提供的兼容多种语言的文档信息精准提取系统,不管是在精确度、召回率、F值三个指标上,还是在时间性能指标上,英文文档处理都能很好的迁移到中文文档处理上,表现出较好的可移植能力。另外,在处理中文文档时需要增加英文文档处理所不需要的分词模块,然而由于系统的模块化设计与个性化定制,此时只需在前置处理模块中添加上分词接口即可,展现了系统较好的语言移植与可扩展能力,具有交互性能强、智能化程度高、可扩展性高、提取速度快、语言移植能力好、信息提取精度高等优势。为达到以上技术效果,本专利技术所采用的技术方案如下:兼容多种语言的文档信息精准提取系统,提出一种通用高效可行的兼容多种语言的文档信息精准提取架构,并基于该架构实现了兼容多种语言的文档信息精准提取系统,包括以下几个方面:第一,提出基于支持向量机的文档信息提取算法,并以多语言文档分类的实际应用设计和分析算法参数,改良优化算法过程,改进提高算法的主动学习能力;第二,通过对基于机器学习的信息提取流程解析改进,提出通用高效可行的兼容多种语言的信息精准提取架构,该架构主要分为两个层次,分别为前台展示层和后台逻辑处理层,该架构主要分为三个模块,分别为GUI模块、前置处理模块、主动学习模块,GUI模块为前台展示层,将信息提取过程以图形用户界面的方式展示给用户,提高用户的操作本文档来自技高网
...

【技术保护点】
1.兼容多种语言的文档信息精准提取系统,其特征在于,提出一种通用高效可行的兼容多种语言的文档信息精准提取架构,并基于该架构实现了兼容多种语言的文档信息精准提取系统,包括以下几个方面:/n第一,提出基于支持向量机的文档信息提取算法,并以多语言文档分类的实际应用设计和分析算法参数,改良优化算法过程,改进提高算法的主动学习能力;/n第二,通过对基于机器学习的信息提取流程解析改进,提出通用高效可行的兼容多种语言的信息精准提取架构,该架构主要分为两个层次,分别为前台展示层和后台逻辑处理层,该架构主要分为三个模块,分别为GUI模块、前置处理模块、主动学习模块,GUI模块为前台展示层,将信息提取过程以图形用户界面的方式展示给用户,提高用户的操作效率,提升系统交互性,前置处理模块和主动学习模块为后台逻辑处理层,采用模块化设计与个性化定制,增强系统的扩展能力与语言移植能力;/n第三,基于通用高效可行的兼容多种语言的信息精准提取架构,采用python语言实现了兼容多种语言的文档信息精准提取系统,在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果;/n兼容多种语言的文档信息精准提取系统:一是基于支持向量机的文档信息提取算法,包括支持向量机及其核函数、基于支持向量机的文档信息提取算法设计与实验;二是兼容多种语言的文档信息精准提取系统的设计,包括基于支持向量机的信息提取流程、文档信息提取图形用户界面、机器学习算法与特征选择、文档信息精准提取系统的架构,三是兼容多种语言的文档信息精准提取系统的实现,包括实现图形用户界面GUI、实现前置处理模块、实现主动学习模块、实现基于规则的提取模块。/n...

【技术特征摘要】
1.兼容多种语言的文档信息精准提取系统,其特征在于,提出一种通用高效可行的兼容多种语言的文档信息精准提取架构,并基于该架构实现了兼容多种语言的文档信息精准提取系统,包括以下几个方面:
第一,提出基于支持向量机的文档信息提取算法,并以多语言文档分类的实际应用设计和分析算法参数,改良优化算法过程,改进提高算法的主动学习能力;
第二,通过对基于机器学习的信息提取流程解析改进,提出通用高效可行的兼容多种语言的信息精准提取架构,该架构主要分为两个层次,分别为前台展示层和后台逻辑处理层,该架构主要分为三个模块,分别为GUI模块、前置处理模块、主动学习模块,GUI模块为前台展示层,将信息提取过程以图形用户界面的方式展示给用户,提高用户的操作效率,提升系统交互性,前置处理模块和主动学习模块为后台逻辑处理层,采用模块化设计与个性化定制,增强系统的扩展能力与语言移植能力;
第三,基于通用高效可行的兼容多种语言的信息精准提取架构,采用python语言实现了兼容多种语言的文档信息精准提取系统,在精确度、召回率、F值、时间性能四个评估指标及语言移植能力上表现出非常好的效果;
兼容多种语言的文档信息精准提取系统:一是基于支持向量机的文档信息提取算法,包括支持向量机及其核函数、基于支持向量机的文档信息提取算法设计与实验;二是兼容多种语言的文档信息精准提取系统的设计,包括基于支持向量机的信息提取流程、文档信息提取图形用户界面、机器学习算法与特征选择、文档信息精准提取系统的架构,三是兼容多种语言的文档信息精准提取系统的实现,包括实现图形用户界面GUI、实现前置处理模块、实现主动学习模块、实现基于规则的提取模块。


2.根据权利要求1所述的兼容多种语言的文档信息精准提取系统,其特征在于,基于支持向量机的文档信息提取算法中最重要的是对参数向量e的求解,求出向量e能很容易的计算出分隔超平面的方程,本发明参数向量e的求解算法应用能提速的启发式方法:首先通过一个外层循环对第一个e的值进行选择,并且其选择过程在以下二种方式下交替进行,一种方式是在所有数据集上进行单遍扫描,另外一种方式是在非边界e上进行单遍扫描;另外,对非边界e值进行遍历时,第一步必须构造包含其中所有值的列表,然后才对该列表进行遍历,同时该遍历忽略掉已知且不会改变的e值;在选择第一个e值后,算法通过一个内层循环选择第二个e值,选择方式是通过最大化步长获取第二个e值的;本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤:
第1步,定义数据结构basicDataClass给所有数据赋予初始值,其中包括样本集矩阵X、样本集分类结果矩阵labelMat、容错率tolerRatio、样本集矩阵的行数n,参数向量alpha,参数g及n行2列的矩阵eCache,该矩阵第一列表征的是第二列的值是否有效;
第2步,初始化第1步定义的数据结构,其中向量alpha为零向量,g为0,初始化当前迭代次数curLooNum、迭代次数上限值maxLooNum、用于记录alpha是否已进行优化的变量alphaOptimized及用于标记选择过程是否是全集扫面方式fullScaner,其中curLooNum初始值为0,alphaOptimized的初始值为0,fullScaner为True;
第3步,若满足外层循环条件,此时的迭代次数curLooNum小于设定的上限次数maxLooNum,并且alphaOptimized大于零或fullScaner为True,则转向第4步;否则,跳出外循环,并返回向量alpha和参数g的结果值,算法结束;
第4步,将优化状态alphaOptimized设定为0,并判断全集扫描的状态fullScaner的值是否为True,如果为True,则转向第5步,否则转向第6步;
第5步,在所有数据集上进行单遍扫描,内层循环,对参数向量alpha进行优化,其中第二个alpha的选择采用启发式方法,即从中选择步长最大的一个;如果alpha对优化成功,则将优化状态变量alphaOptimized设定为1,之后将curLooNum加1,转向第7步;
第6步,首先找到非边界alpha值列表,再在非边界alpha上进行一次遍历,内层循环,对参数向量alpha进行优化,其中第二个alpha的选择采用启发式方法,即从中选择步长最大的一个,如果alpha对优化成功,则将优化状态变量alphaOptimized设定为1,之后将curLooNum加1,转向第7步;
第7步,如果全集扫描状态fullScaner为True,则将fullScaner设定为False,转向第3步;否则,判断优化状态变量alphaOptimized是否为0,如果为0,则将fullScaner设定为True,并转向第3步。


3.根据权利要求2所述的兼容多种语言的文档信息精准提取系统,其特征在于,利用支持向量机构造文档信息提取机器学习算法的分类系统,具体步骤为:
步骤1,准备数据集:采用多个类别的开放语料文档集,确定语料的类别与数据详细信息;
步骤2,前置处理数据:采用python脚本用于数据的前置处理操作;
步骤3,参数估计:按照本发明基于支持向量机的文档信息提取机器学习算法对参数e进行求解的具体步骤,基于python实现,核函数的选择使用高斯核函数,且在训练样本集上运行SMO算法时对径向基函数的参数值h采用不同的设置,计算此时的训练错误率百分比及支持向量的个数,实施例容错率tolerRatio取0.0001,迭代次数上限值maxLooNum取10000;
步骤4,算法测试:根据估计的参数向量alpha和g的值,对测试样本集进行测试,并计算出此时的测试错误率百分比;
步骤5,实验完成:整理实验结果,当径向基函数中的参数h取10时是一个临界点,此时的测试错误率最小。


4.根据权利要求1所述的兼容多种语言的文档信息精准提取系统,其特征在于,基于支持向量机的文档信息提取流程分为三个主要步骤:
步骤一,目标定义和样本集标注,预定义本次文档信息提取的目标,并在事先准备的测试样本集上对待提取的文档信息进行适当手工标记;从事先准备的语料库中随机选取其中20%的样本作为测试样本集,而剩余80%的样本则用于模型训练;
步骤二,模型学习以及优化,在步骤一中已经标注好的测试样本集上,根据其中信息的特征进行特征定义,并将其与其它算法相结合,算法在训练样本集上对参数向量进行学习以构建支持向量机模型,然后利用已构建的支持向量机信息提取模型在测试样本集上对信息提取结果进行测试,并根据提取的结果对上一步定义的特征进行改进和优化,之后不断迭代重复测试,使得构造的模型达到比较理想的性能;
步骤三,基于模型的信息提取,主要是支持向量机模型的应用,即利用上一步训练好的支持向量机模型和算法相结合对未标记的待提取文档进行信息提取。


5.根据权利要求4所述的兼容多种语言的文档信息精准提取系统,其特征在于,图形用户界面将数据库中的结构化数据以图形化窗口的形式更友好和直观的展示给信息提取用户,本发明对基于支持向量机的信息提取流程中的三个步骤进行解析,提出用户对文档信息提取系统图形用户界面化的需求:
步骤一对数据样本集进行手工标注是一项花费大量时间资源的任务;将命名实体识别的结果以图形化的界面展示给用户,并且通过图形用户界面GUI对命名实体进行增加、删除、修改操作,简化提取流程、优化操作方式;
步骤二中将提取模型在测试样本集上不断测试以改进模型参数,此时正确的提取结果已经提前标注,用户需要反复比较基于模型的信息提取结果与手工标注的参照结果;
步骤三在模型构建成功之后对其进行应用时,将其对未标注文档提取的结果以图形用于界面GUI的方式展示给用户。


6.根据权利要求1所述的兼容多种语言的文档信息精准提取系统,其特征在于,文档信息精准提取系统的架构采用软件开发中的模块化设计与分层思想,整体上划分为两个层次:前台展示层和后台逻辑处理层;前台展示层是图形用户界面GUI,在信息提取的不同阶段,通过友好的图形用户界面GUI的方式为...

【专利技术属性】
技术研发人员:刘秀萍王程
申请(专利权)人:刘秀萍
类型:发明
国别省市:浙江;33

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1