基于文档的智能办公文件推送技术制造技术

技术编号:22641761 阅读:24 留言:0更新日期:2019-11-26 16:11
本发明专利技术公开一种基于文档的智能办公文件推送技术,所述技术包含文档特征提取、文档重要性排序以及文档推送的功能:特征提取模块主要负责提取原始文档中能够有效代表文档含义的特征向量;文档重要性采用卷积神经网络,通过历史数据的训练为文档进行重要性打分,并针对多文档进行重要性排序;文档推送依据系统设定阈值,将排名靠前的文档推送或者高亮提醒用户,保证重要文档的优先处理。本发明专利技术基于Python语言开发,采用RESTful API的方式,通过与第三方办公系统对接,能够有效的提升办公人员的办公效率。

Intelligent office file push technology based on document

The invention discloses an intelligent office file push technology based on document, which includes the functions of document feature extraction, document importance sorting and document push: the feature extraction module is mainly responsible for extracting the feature vector which can effectively represent the meaning of the document in the original document; the document importance adopts convolution neural network, and carries out the important for the document through the training of historical data Score by sex, and sort the importance of multiple documents; according to the threshold set by the system, push or highlight the top ranked documents to remind users, so as to ensure the priority of important documents. The invention is based on Python language development, adopts restful API mode, and can effectively improve the office efficiency of office staff by docking with the third-party office system.

【技术实现步骤摘要】
基于文档的智能办公文件推送技术
本专利技术涉及基于用户画像的智能办公文件推送技术,研究面向智能办公自动化系统的文档推荐和排序功能。
技术介绍
办公自动化(OA,OfficeAutomation)是一个企业除了生产控制之外的一切信息处理与管理的集合。不同的使用对象具有不同的功能:对企业高层领导来说,OA是决策支持系统(DSS,DecisionSupportSystem),它运用科学的数学模型,结合企业内部/外部的信息,为企业领导的决策提供参考和依据;对于企业中层管理者来说,OA是信息管理系统(IMS,InformationManagementSystem),它利用业务各环节提供的基础“数据”,提炼出有用的管理“信息”,把握业务进程,降低经营风险,提高经营效率;对于企业普通员工来说,OA是事务/业务处理系统。OA为办公室人员提供良好的办公手段和环境,使之准确、高效,愉快地工作。办公自动化的根本目的在于,能够更加准确的切入办公人员的需求要点,进而起到大幅度提高办公人员处理事务效率的作用。作为办公事务的核心内容,文件的有效运转和推送,对于系统服务机构工作的正常流转起到了至关重要的作用。然而,随着电子化办公和信息爆炸,OA出现了文档流转效率和文档处理能力之间的矛盾,即文档在部门与部门之间通过电子化方式加速了流转,但是也造成了由于文档处理速度不足或者文档处理策略不完善导致的多源头文档带来的文件堆积的问题,文档处理者和整个文档流转集合的处理能力处于瓶颈阶段。基于上述问题,如何提高文档处理者的处理能力,规划更加高效的文档处理策略,成为突破文档处理速度瓶颈的关键性问题。目前,针对这一问题,并没有一个成熟的、实际有效的解决方法。但是,通过应用场景的迁移,新闻推荐、邮件过滤等服务类应用场景相对比较成熟,推荐算法和排序技术在这些应用场景中也得到了更加广泛的应用。在此基础上,结合OA中公文处理速度瓶颈的问题,引入推荐算法和排序技术,实现基于文档的智能办公文件推送,以公文处理中的相关指标作为依据,为公文处理者的公文处理策略起到指导性作用。
技术实现思路
基于文档特征的智能办公推送技术,采用卷积神经网络(CNN,ConvolutionalNeuralNetwork),具备文档特征提取、文档重要性排序以及文档推送的功能,主要通过历史文档的特征提取和学习,为文档所属内容、时效性、文档源头等指标进行评价,采用加权的方法对文档整体的重要性进行打分,按照评分的高低进行排序并展示给文档办公人员。基于文档的智能办公推送技术的特点在于:用于python语言作为开发语言,采用RESTFULAPI的方式作为第三方开发接口,部署在办公自动化应用平台上。技术框架主要包括文档特征提取模块、文档重要性训练模块、文档重要性排序模块三个方面。其中,文档特征提取模块主要用于根据文档内容、文档标题和文档来源为文档标注合适的标签向量;文档重要性训练模块主要功能为对已经标注标签向量的文档输入到深度神经网络中,采用监督学习的方法对文档的重要性进行学习,生成网络模型;文档重要性排序模块主要针对将测试和实际应用中,将文档集合分别输入神经网络中,得到每一篇文档的重要性程度,并且按照重要性由高到低对文档进行排序。本专利技术的优点在于:1.所述基于文档的智能办公文件推送采用B/S架构,相比起C/S架构,具有系统轻便,实时性强,移植性强,多任务并行的特点,尤其适合分布式全寿命自主保障验证系统。2.以文件为核心,通过将文件的标签向量转化为重要性指标的方式,对文件的重要性进行定量的刻画,用以满足对文件进行定量的训练和后续重要性排序起到决定性的作用。3.基于文档的智能办公文件推送采用RESTfulAPI访问数据资源。RESTful架构遵循统一接口原则,统一接口包含了一组受限的预定义的操作,通过使用相同的接口进行所有资源的访问。同时,按照HTTP方法的语义暴露的资源,接口具有幂等性的特性,提高了服务器在访问量大、网络不稳定时的安全性。附图说明图1为算法框架示意图图2为文档特征提取流程图图3为卷积神经网络基本结构图具体实施方案下面结果附图对本专利技术提供的文档的智能办公文件推送技术及其实现进行详细说明:1.技术系统框架基于文档的智能办公文件推送及排序技术主要有三个模块构成:文档特征提取模块、文档重要性训练模块、文档重要性排序模块。本专利技术采用的技术框架如附图1所示。基本流程如下:系统中,针对已有历史文档数据,通过已有的自动化办公领域特有以及面向业务领域的词库,对每一个文件进行标签向量的构建,并根据专家知识以及相关领域的经验,对每一份文档进行标签标注,形成特征向量,并根据相关经验对文档进行评分,作为模型训练的依据。模型训练首先构建神经网络的结构,根据特征提取的结果,分别将特征向量和重要性分数分别作为神经网络的输入和输出,不断进行深度神经网络的训练,得到相对比较准确的神经网络。深度神经网络训练结束之后,线上将文档进行特征提取,得到特征向量之后作为神经网络的输入,得到输出的文档重要性,分别得到多个文档的重要性进行排序,为后续的文档重要性排序和推荐其他重要的指导作用。2.文档特征提取文档特征提取流程如图2所示。首先,在各种行业中,都会对应相应的语料库,根据系统保存的历史文档,结合语料库得到更大的特征向量表。线上文档通过于特征向量表进行匹配,可以得到公文特有的文档特征,用于后续的训练和排序。由文档到关键词之间的过程需要通过词向量的方式进行定位,针对这一过程,需要特定的算法对文档处理,才能够将数据进行分词和特征提取。这一过程采用的是根据词频、词语词之间的向量关系以及互信息的方式进行匹配的。策划词向量之间的互信息如下表示:还可以采用词跨度的形式进行计算:一个文档中的词频可以采用这个词在文档中出现的频率决定,可以采用TF的值。假设一个词w在文本中出现了m词,而文本中词的总数为n,那么一个词的IDF是根据语料库得到的,表示这个词在整个语料中出现的频率。假设整个语料库中,包含词w的文本一共有M篇,语料中的文本已拥有N篇,则由此可得词w的TF-IDF值为TFIDFw=TFw×IDFw采用textRank算法对关键词进行提取,步骤如下:关键词抽取的任务就是从一段给定的文本中自动抽取出若干有意义的词语或词组。textRank算法是利用局部词汇之间关系(共现窗口)对后续关键词进行排序,直接从文本本身抽取。其主要步骤如下:1)把给定的文本T按照完整句子进行分割,即2)对于每个句子,进行分词和词性标注处理,并过滤掉停用词,只保留指定词性的单词,如名词、动词、形容词,即,其中是保留后的候选关键词。3)构建候选关键词图G=(V,E),其中V为节点集,由(2)生成的候选关键词组成,然后采用共现关系(co-occurrence)构造任两点之间的边,两个节点之间存在边仅当它们对应的词汇在长度为本文档来自技高网
...

【技术保护点】
1.基于文档的智能办公文件推送技术,其特征在于:所述技术包含文档特征提取、文档重要性排序以及文档推送的功能;特征提取模块主要负责提取原始文档中能够有效代表文档含义的特征向量;文档重要性模块采用卷积神经网络,通过对历史文档和文档流转信息的训练为文档进行重要性打分,并针对多文档进行重要性排序;文档推送依据系统设定阈值,将排名靠前的文档推送或者高亮提醒用户,保证重要文档的优先处理。/n

【技术特征摘要】
1.基于文档的智能办公文件推送技术,其特征在于:所述技术包含文档特征提取、文档重要性排序以及文档推送的功能;特征提取模块主要负责提取原始文档中能够有效代表文档含义的特征向量;文档重要性模块采用卷积神经网络,通过对历史文档和文档流转信息的训练为文档进行重要性打分,并针对多文档进行重要性排序;文档推送依据系统设定阈值,将排名靠前的文档推送或者高亮提醒用户,保证重要文档的优先处理。


2.根据权利要求1所述的智能办公文件推送技术,其特征在于:基于B/S架构的思想,采用服务组件的概念,以RESTfulAPI的模式为第三方系统提供接口,支持Windows系统和类Linux系统的国产麒麟系统。


3.根...

【专利技术属性】
技术研发人员:于劲松韩丹阳杜胜贤代京唐荻音刘浩
申请(专利权)人:北京航空航天大学
类型:发明
国别省市:北京;11

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1