本发明专利技术提供一种基于VBA和四面体数据模型的文本信息获取与描述方法,其基于四面体数据模型形成文本数据的存储和表达形式;自动采集数据文件的基本属性;文本编辑软件生成原始数据;使用伺服程序对文本数据进行特征提取;处理文本并自动提取相关信息;语义标注模块提供用户对语义信息的输入、修改以及增删语义项的功能;存储管理模块综合原始数据、基本属性、底层特征以及语义特征信息最终形成文本的四面体表达;在文本编辑软件界面中添加按钮,通过与非结构化数据库相连的伺服程序,实现文档的一键入库。本发明专利技术解决文本编辑和排版过程中文本四面体数据的获取以及文本四面体的形成,以便于后期文本数据的管理。
【技术实现步骤摘要】
本专利技术涉及数据处理的
,具体涉及一种基于VBA和四面体数据模型的文本信息获取与描述方法,其通过VBA宏配合伺服程序的形式对文本信息的获取、描述和整合。
技术介绍
随着信息时代的到来,信息每天都在以惊人的速度增长,Web网页、文本、图形图像、音频视频和空间数据等非结构化数据越来越多。据Gartner Group统计,当今80%的数据是非结构化数据,这些数据来源丰富、内容复杂、结构迥异,传统的关系型数据库对这些复杂类型的非结构化数据已力不从心。因此建立非结构化数据管理系统,实现非结构化数据的有效管理将具有重大意义。由于非结构化数据本身差异巨大、底层特征完全不同,如何抽象、表示数据对象是非结构化数据管理首要解决的问题。四面体(Tetrahedron)数据模型,或称为三棱锥(Pyramid)模型,认为对于非结构化数据可以由四面体的4个刻面基本属性(所有数据都具有的一般属性,包括名称、类型、创建者等),语义特征(以文字表达的非结构化数据特有的语义属性,包括作者创作意图、数据主题说明、底层特征含义等语义要素),底层特征(通过各种专用处理技术(如文本、图像、语音、视频等)获得的非结构化数据特性,如颜色、纹理、形状、关键字等),原始数据(非结构化数据的原生态文件),以及刻面间语义关联进行描述。因此,四面体数据模型能够统一描述多种非结构化数据类型,合理表达了非结构化数据的组成部分以及各组成部分之间的内在联系。同时四面体数据模型能够集成处理各种数据类型的成熟技术,有效支持非结构化数据间的特征关联,具有可扩展性。文本作为一类重要的非结构化数据,可以由四面体进行完全描述。如果能够在文本获取、创建和编辑的同时即可提取文本的四面体信息,将极大得方便这些数据的管理。因此本专利技术采用Windows应用程序(例如Microsoft Office系列软件、WPS Office系列软件等)中广泛使用的VBA宏技术,对文本进行统一、一致地数据处理,实现文本的编辑和排版过程中,文本四面体数据的获取以及文本四面体的形成,以便于后期文本数据的管理。
技术实现思路
本专利技术的技术解决问题采用Windows应用程序(例如Microsoft Office系列软件、WPS Office系列软件等)中广泛使用的VBA宏技术,对文本进行统一、一致地数据处理,实现文本的编辑和排版过程中,文本四面体数据的获取以及文本四面体的形成,以便于后期文本数据的管理。本专利技术采用的技术方案为一种基于VBA (Visual Basic for Applications)和四面体数据模型的文本信息获取与描述方法,步骤如下步骤(I)、基于四面体数据模型(Tetrahedral Data Model),或称为三棱锥模型(Pyramid Data Model),形成文本数据进行存储和表达形式;步骤(2)、自动采集数据文件的文件名、类型、创建者、创建时间、修改时间等基本属性;步骤(3)、文本编辑软件完成文本的编辑和排版等工作,生成原始数据;步骤(4)、使用伺服程序对文本数据进行特征提取,提取关键字和倒排索引等底层信息;步骤(5 )、处理文本并自动提取标题、作者等信息,对科技文献类数据提取关键字(中英文)、摘要(中英文)、分类号等信息;步骤(6)、语义标注模块提供用户输入其他语义信息、对自动提取的语义信息进行修正以及添加删除语义项的功能;步骤(7)、存储管理模块综合原始数据、基本属性、底层特征以及语义特征信息最终形成文本的四面体表达;·步骤(8)、在文本编辑软件界面中添加按钮,通过与非结构化数据库相连的伺服程序,实现文档的一键入库。根据本专利技术的又一个方面,其中步骤(I)又进一步包括在四面体数据模型中,非结构化数据(在本专利技术中特指文本数据)可以被表示为如下四个刻面的集合(Al)基本属性所有非结构化数据都具有的一般属性,这些属性不涉及数据的语义,包括名称、类型、创建者、创建时间等;(A2)语义特征以文字表达的非结构化数据特有的语义属性,包括作者创作意图、数据主题说明、底层特征含义等语义要素;(A3)底层特征通过各种专用处理技术获得的非结构化数据特性,对文本而言主要指用于检索操作的倒排索引等信息;(A4)原始数据非结构化数据的原生态数据,在本专利技术中即文本数据包含的文字和排版信息。根据本专利技术的又一个方面,其中步骤(6)又进一步包括(BI)查看和修改语义项内容在窗口中显示语义项的内容,并对可修改的语义项提供用户编辑功能;对于内容长度较短的语义项,直接在一个窗口中列表显示并提供编辑;对于超长的语义项,为了方便用户查看和编辑,提供独立的窗口显示和编辑语义项的内容。(B2)添加和删除用户自定义语义项在窗口中显示用户自定义语义项的信息(语义项名称和语义项类型),并提供用户添加和删除特定语义项的功能。根据本专利技术的又一个方面,其中步骤(7)又进一步包括(Cl)、使用用户自定义文档属性存储除原始数据刻面以外的三个刻面的数据;(C2)、对超过255字符长度限制的属性进行分片存储;(C3)、通过响应VBA的三个重要事件,即“新建文件”事件、“打开文件”事件和“保存文件”事件,实现刻面数据存储的用户透明,同时避免用户对刻面数据的非法访问。具体如下(I)、将基本属性、底层特征以及语义信息以一定方式存放到文本文件中,以Microsoft Word2007软件为例,即为存放在DOCX文件中。VBA6. 0以上版本已经支持一定数量的内建属性项可以用于存放部分基本属性和语义信息中的标题、主题、公司、类别、版本等字段,但是为了提供对用户透明的处理过程,在本专利技术中所有的非原始数据信息都使用用户自定义属性存放。另外由于XXXPropertyTypeString类型(例如MicrosoftOffice系列软件中即为msoPropertyTypeString,在WPS Office系列软件中即为wpsPropertyTypeString)有255个字符的限制,对于超长的语义项内容,本专利技术定义了分片存储方案。①、原始数据文档内容以及排版信息,按相应文本编辑软件规范存放;②、语义信息标题、作者、状态、关键字、摘要、分类号等,以及用户自定义的语义项;a)标题文档的标题;Name=Title Type=XXXPropertyTypeStringEditable=Trueb)作者文档的作者,对于多个作者都存储于同一个语义项中;Name=AuthorType=XXXPropertyTypeStringEditable=Truec)状态文档处于的状态,例如审查中、已定稿等;Name=StateType=XXXPropertyTypeStringEdi tab I e=Trued)中文关键字代表文档主要内容的中文关键字;Name=KeywordsChineseType=XXXPropertyTypeStringEditable=Truee)英文关键字代表文档主要内容的英文关键字;Name=KeywordsEnglishType=XXXPropertyTypeStringEditable=Truef)中文摘要文档的中文摘要;Name=AbstractChineseType=XXXPropertyTypeStringEditable=Trueg本文档来自技高网...
【技术保护点】
一种基于VBA和四面体数据模型的文本信息获取与描述方法,其特征在于:该方法包括如下步骤:步骤(1)、基于四面体数据模型,或称为三棱锥模型,形成文本数据进行存储和表达形式;步骤(2)、自动采集文本文件的基本属性,包括文件名、类型、创建者、创建时间、修改时间;步骤(3)、文本编辑软件完成文本的编辑和排版工作,生成原始数据;步骤(4)、使用伺服程序对文本数据进行特征提取,提取底层信息,包括关键字和倒排索引;步骤(5)、处理文本并自动提取文档的标题和作者,对科技文献类数据提取关键字、摘要、分类号,其中关键字和摘要均为中英文格式;步骤(6)、语义标注模块提供用户输入其他语义信息、对自动提取的语义信息进行修正以及添加删除语义项的功能;步骤(7)、存储管理模块综合原始数据、基本属性、底层特征以及语义特征信息最终形成文本的四面体表达;步骤(8)、在文本编辑软件界面中添加按钮,通过与非结构化数据库相连的伺服程序,实现文档的一键入库。
【技术特征摘要】
【专利技术属性】
技术研发人员:李未,郎波,刘洋,
申请(专利权)人:北京航空航天大学,
类型:发明
国别省市:
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。