基于VBA和四面体数据模型的文本信息获取与描述方法技术

技术编号：8022435 阅读：224 留言：0更新日期：2012-11-29 04:40

本发明专利技术提供一种基于VBA和四面体数据模型的文本信息获取与描述方法，其基于四面体数据模型形成文本数据的存储和表达形式；自动采集数据文件的基本属性；文本编辑软件生成原始数据；使用伺服程序对文本数据进行特征提取；处理文本并自动提取相关信息；语义标注模块提供用户对语义信息的输入、修改以及增删语义项的功能；存储管理模块综合原始数据、基本属性、底层特征以及语义特征信息最终形成文本的四面体表达；在文本编辑软件界面中添加按钮，通过与非结构化数据库相连的伺服程序，实现文档的一键入库。本发明专利技术解决文本编辑和排版过程中文本四面体数据的获取以及文本四面体的形成，以便于后期文本数据的管理。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及数据处理的
，具体涉及一种基于VBA和四面体数据模型的文本信息获取与描述方法，其通过VBA宏配合伺服程序的形式对文本信息的获取、描述和整合。
技术介绍
随着信息时代的到来，信息每天都在以惊人的速度增长，Web网页、文本、图形图像、音频视频和空间数据等非结构化数据越来越多。据Gartner Group统计，当今80%的数据是非结构化数据，这些数据来源丰富、内容复杂、结构迥异，传统的关系型数据库对这些复杂类型的非结构化数据已力不从心。因此建立非结构化数据管理系统，实现非结构化数据的有效管理将具有重大意义。由于非结构化数据本身差异巨大、底层特征完全不同，如何抽象、表示数据对象是非结构化数据管理首要解决的问题。四面体(Tetrahedron)数据模型，或称为三棱锥(Pyramid)模型，认为对于非结构化数据可以由四面体的4个刻面基本属性(所有数据都具有的一般属性，包括名称、类型、创建者等)，语义特征(以文字表达的非结构化数据特有的语义属性，包括作者创作意图、数据主题说明、底层特征含义等语义要素)，底层特征(通过各种专用处理技术(如文本、图像、语音、视频等)获得的非结构化数据特性，如颜色、纹理、形状、关键字等)，原始数据(非结构化数据的原生态文件)，以及刻面间语义关联进行描述。因此，四面体数据模型能够统一描述多种非结构化数据类型，合理表达了非结构化数据的组成部分以及各组成部分之间的内在联系。同时四面体数据模型能够集成处理各种数据类型的成熟技术，有效支持非结构化数据间的特征关联，具有可扩展性。文本作为一类重要的非结构化数据，可以由四面体进行完全描...

【技术保护点】
一种基于VBA和四面体数据模型的文本信息获取与描述方法，其特征在于：该方法包括如下步骤：步骤（1）、基于四面体数据模型，或称为三棱锥模型，形成文本数据进行存储和表达形式；步骤（2）、自动采集文本文件的基本属性，包括文件名、类型、创建者、创建时间、修改时间；步骤（3）、文本编辑软件完成文本的编辑和排版工作，生成原始数据；步骤（4）、使用伺服程序对文本数据进行特征提取，提取底层信息，包括关键字和倒排索引；步骤（5）、处理文本并自动提取文档的标题和作者，对科技文献类数据提取关键字、摘要、分类号，其中关键字和摘要均为中英文格式；步骤（6）、语义标注模块提供用户输入其他语义信息、对自动提取的语义信息进行修正以及添加删除语义项的功能；步骤（7）、存储管理模块综合原始数据、基本属性、底层特征以及语义特征信息最终形成文本的四面体表达；步骤（8）、在文本编辑软件界面中添加按钮，通过与非结构化数据库相连的伺服程序，实现文档的一键入库。

【技术特征摘要】

【专利技术属性】
技术研发人员：李未，郎波，刘洋，
申请(专利权)人：北京航空航天大学，
类型：发明
国别省市：

全部详细技术资料下载我是这个专利的主人