网络内容语义结构标注的方法和装置制造方法及图纸

技术编号：3868067 阅读：260 留言：0更新日期：2012-04-11 18:40

本发明专利技术公开了一种网络内容语义结构标注的方法和装置，所述语义结构包括网络内容的语义注解、被注解的信息的属性、语义注解之间的关系。包括：识别网络内容的语义结构；编辑语义结构；发布和共享语义结构描述文件，建立语义结构知识库；使用语义结构生成网页内容格式化指令文件。属于计算机科学技术领域语义网络分支，适用于网络信息提取、网络知识库建立、语义网络服务等应用领域。

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术属于计算机科学
语义网络分支，具体涉及一种网络内容语义结构标注的方法和装置，适用于网络信息提取、企业网站自助推广、全文搜索和语义搜索、商业情报挖掘、信息聚合、网络知识分类、网络知识库建立、网络服务和内容混搭(mashup)等应用领域。
技术介绍
万维网(Web)给人们的信息和知识管理带来了巨大改变，现在，人们逐渐习惯了到万维网上寻找知识和问题的答案，以前需要花费几个小时甚至更长时间翻阅图书资料，现在可能只需要几分钟。然而，当前万维网上的信息的处理方法还是比较单一的，最成功的处理方法是将网页内容下载下来，建立全文索引，网络用户通过输入关键字进行信息搜索。这个提取和索引过程仅限于对字面文本的处理，并不处理内容的语义，显而易见，具有很大的局限性，例如，搜索的准确率很低，用户不得不从一堆搜索结果中人工筛选需要的内容。然而，计算机凭借现有的算法和能力无法像人一样阅读和理解万维网中的内容。人工智能是一种解决方案，然而，根据现有的研究进度，人工智能的目标还是比较遥远的。其实，有另外一种更实用的解决方案将现有互联网中的内容进行结构化改造，首先汇聚网络内容语义结构元数据，然后利用该元数据将互联网上的内容按照特定语义格式提取下来存储成结构化数据或者进行在线的格式化。这样，现有的非结构化信息转变成了像关系数据库一样的结构化信息，使计算机的进一步处理加工成为可能。事实上，从万维网(Web)上提取信息早在上个世纪就出现了，信息提取就是将网页上特定语义的内容片段取下来供其他应用系统使用，经过十几年的发展，出现了各种信息提取算法，而且随着...

【技术保护点】
一种网络内容语义结构标注的方法，所述语义结构包括网络内容的语义注解、被注解的信息的属性、语义注解之间的关系，其特征在于，所述方法包括：　（１）识别网络内容的语义结构；　（２）编辑语义结构；　（３）发布和共享语义结构描述文件；　（４）使用语义结构生成网页内容格式化指令文件。

【技术特征摘要】

【专利技术属性】
技术研发人员：华天清，齐勇挺，
申请(专利权)人：华天清，齐勇挺，
类型：发明
国别省市：94[中国|深圳]

全部详细技术资料下载我是这个专利的主人