本发明专利技术公开了一种网络内容语义结构标注的方法和装置,所述语义结构包括网络内容的语义注解、被注解的信息的属性、语义注解之间的关系。包括:识别网络内容的语义结构;编辑语义结构;发布和共享语义结构描述文件,建立语义结构知识库;使用语义结构生成网页内容格式化指令文件。属于计算机科学技术领域语义网络分支,适用于网络信息提取、网络知识库建立、语义网络服务等应用领域。
【技术实现步骤摘要】
本专利技术属于计算机科学
语义网络分支,具体涉及一种网络内容语义结构标注的 方法和装置,适用于网络信息提取、企业网站自助推广、全文搜索和语义搜索、商业情报挖 掘、信息聚合、网络知识分类、网络知识库建立、网络服务和内容混搭(mashup)等应用领 域。
技术介绍
万维网(Web)给人们的信息和知识管理带来了巨大改变,现在,人们逐渐习惯了到万 维网上寻找知识和问题的答案,以前需要花费几个小时甚至更长时间翻阅图书资料,现在可 能只需要几分钟。然而,当前万维网上的信息的处理方法还是比较单一的,最成功的处理方 法是将网页内容下载下来,建立全文索引,网络用户通过输入关键字进行信息搜索。这个提 取和索引过程仅限于对字面文本的处理,并不处理内容的语义,显而易见,具有很大的局限 性,例如,搜索的准确率很低,用户不得不从一堆搜索结果中人工筛选需要的内容。然而, 计算机凭借现有的算法和能力无法像人一样阅读和理解万维网中的内容。人工智能是一种解决方案,然而,根据现有的研究进度,人工智能的目标还是比较遥远的。其实,有另外一种 更实用的解决方案将现有互联网中的内容进行结构化改造,首先汇聚网络内容语义结构元 数据,然后利用该元数据将互联网上的内容按照特定语义格式提取下来存储成结构化数据或 者进行在线的格式化。这样,现有的非结构化信息转变成了像关系数据库一样的结构化信息, 使计算机的进一步处理加工成为可能。事实上,从万维网(Web)上提取信息早在上个世纪就出现了,信息提取就是将网页上 特定语义的内容片段取下来供其他应用系统使用,经过十几年的发展,出现了各种信息提取 算法,而且随着计算机技术的发展,用新计算机语言和技术不断武装以前算法,其能力大大 增强,然而,本质上所有这些算法和技术的基础没有改变,我们知道,万维网上的内容是用 HTML文档呈现给人们的,即使服务器使用了各种先进的动态页面管理技术,客户端浏览器 面对的仍然是HTML文档,几乎所有的信息提取算法和技术都是利用HTML文档中的各种 标签,使用字符串正则表达式或者DOM结构遍历技术,从文档中指定位置提取信息。随着 一些新技术的出现,例如,XPath,XSLT,XQuery等,信息提取的效率和能力大大提高,然而,6没有质的改变,其局限性主要提现在下面三点1,信息提取技术的应用是分散的信息提取的应用十分普遍,几乎每个互联网领域的公司和个人都或多或少地需要从现有的万维网内容中提取需要的信息。当前,计算机编程语言发展的十分强大,编写一段信息提取的代码也许只需要几个小时,因此,这些公司和个人几乎都有编写定制的信息提取代码的经历。虽然单个个体的开发投入很小,而整个产业领域的开发投入总量是巨大的,所以,当前这种分散状态耗费了可观的资源。2,信息提取开发成果是无法继承和积累的由于信息提取系统的开发是分散的,每个个体的开发成果无法继承和积累,个体开发的信息提取代码都是为特定目的的,随着应用场景的改变,从技术上这些代码无法重用,例如,目标页面改变了就需要新代码应对新的文档结构;开发人员到一个新项目中,因为项目环境的变化,他很可能选择开发一个全新的信息提取代码;开发人员替换后,继任者很有可能抛弃前任的成果,重新开发。成果不能继承是一项损失,再加上重复开发的支出,都对企业盈利造成损害,如果,再将这些损失扩大到产业领域甚至整个人类社会领域,总量是巨大的,这跟万维网的理念是相悖的。3,网络内容的语义结构不是显见的当前网络上的绝大多数内容是用来显示的文本,缺少语义信息,计算机程序难于对其进行格式化,同时信息提取算法只有使用绝对定位方法,很容易受页面排版改变的冲击。近几年,出现了几个万维网内容标注的方法和技术,例如,MicroFormat技术,通过在HTML文档中增加代表特定语义的HTML标签或者HTML元素属性,可以将结构化信息传递给浏览器或者其他网络内容处理器,此类技术大大增强了信息提取和内容格式化的准确度和可处理性。然而这类技术要求内容发布者使用标准的内容注解标签或者元素属性编写HTML页面,但是要成为标准,需要经历一个较长的协商过程,而内容发布者不可能坐等标准的颁布而放弃内容的发布;另一方面,当前互联网的存量内容已经十分巨大了,使用标准的内容注解进行重写的成本是无法接受的。本专利技术的方法和装置成功地解决了上述这些问题,从语义注解角度看,对于本专利技术来说,页面上的现有标签或者属性都是潜在的语义注解,内容发布者可以自由使用本领域语境中的任何词汇,同时,语义结构的定义将不再与页面内容揉合在一起,而是建立一个独立的且共享的语义结构描述知识库,任何信息提取任务或者内容格式化任务都可以利用;从信息提取角度看,本专利技术使信息提取行为不再是备受争议的攫取行为,而是积极参与万维网价值增值的回馈循环。使用本专利技术的方法和装置,网络用户能够参与到万维网内容语义结构的定义和共享活动中,随着参与度的增加,定义出来的语义结构将联系成一张语义网络,使用这些语义结构,能够有效地对网络内容进行结构化改造,而且,由于这些语义结构是共享发布的,能够有效地减少重复劳动造成的消耗。网络用户不再需要重复定制大量的信息提取程序,使用本专利技术的方法和装置,先搜索是否已经存在满足需求的别人共享出来的语义结构,如果存在,只需生成自己的网络内容格式化指令即可,而且生成网络内容格式化指令的过程是完全自动的,将程序员从繁杂的编写定制代码的活动中解放出来。
技术实现思路
本专利技术公开了一种网络内容语义结构标注的方法和装置,根据本专利技术的一个方面,提供了一种网络内容语义结构标注的方法,所述语义结构包括网络内容的语义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述方法包括(1) 识别网络内容的语义结构;(2) 编辑语义结构;(3) 发布和共享语义结构描述文件;(4) 使用语义结构生成网页内容格式化指令文件。根据本专利技术的另一个方面,提供了一种网络内容语义结构标注的的装置,所述语义结构包括网络内容的语义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述装置包括语义标志识别单元从网络页面上将携带可识别的语义标志的DOM节点识别出来,输出候选语义节点列表关系参数计算单元计算网络页面DOM节点的关系参数,在确保关系参数没有违背的条件下计算候选语义节点的关系参数语义结构管理单元使用语义节点的关系参数和语义节点列表,构建语义结构树,管理内存中的语义结构树的存取操作,向其它单元提供语义结构的操作接口语义结构编辑单元管理用户操作界面,接受用户对语义结构编辑的请求,计算编辑后的语义节点列表和关系参数语义结构描述文件管理单元从语义结构管理单元获取语义结构树,转换成语义结构描述文件,完成发布和共享过程;或者,从语义结构知识库读取语义结构描述文件并转换成语义节点列表和关系参数,完成语义结构加载过程。在这两个过程中都要与语义结构访问授权单元交互,以决定用户对语义结构描述文件的共享操作模式。语义结构访问授权单元根据当前用户的角色和语义结构描述文件的权限属性,确定用户对语义结构的共享操作模式。格式化指令生成单元根据内存中的语义结构生成网络页面内容格式化指令,管理指令文件的存取。附图说明图1是网络页面内容DOM树和语义结构树的示意2是根据本专利技术的优选实施例的识别和构建语本文档来自技高网...
【技术保护点】
一种网络内容语义结构标注的方法,所述语义结构包括网络内容的语义注解、被注解的信息的属性、语义注解之间的关系,其特征在于,所述方法包括: (1)识别网络内容的语义结构; (2)编辑语义结构; (3)发布和共享语义结构描述文件 ; (4)使用语义结构生成网页内容格式化指令文件。
【技术特征摘要】
【专利技术属性】
技术研发人员:华天清,齐勇挺,
申请(专利权)人:华天清,齐勇挺,
类型:发明
国别省市:94[中国|深圳]
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。