本发明专利技术提供一种语音浏览方法,包括:网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;其中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。本发明专利技术还提供了相应的语音浏览器。发明专利技术能够使得网页内容的呈现更为合理和高效;发明专利技术能够使满足用户的实时请求。
Voice browsing method and browser
The invention provides a voice browsing method, including: Web information extraction steps: for any web user request, the first page of its classification, determine if the page belongs to the theme \, is the main content of the web page extraction; if the non theme type web page, then\ block \; format conversion steps:\ HTML format will be automatically converted to VOICEXML format \; among them, for the theme\, \main content from the set to give priority to the user to read; for non theme page, set the shortcut keys to enable users to freely switch between each page block and the choice for the user to push the speech; take steps: Web page based on voiceXML format, read web content to users. The invention also provides a corresponding voice browser. The invention can make the content of the web page appear more reasonable and efficient; the invention can satisfy the real-time request of the user.
【技术实现步骤摘要】
本专利技术涉及网络浏览器
,具体地说,本专利技术涉及一种语音浏览方法及浏IrWSB 见益。
技术介绍
浏览器是指一种获取网页内容的软件,而语音浏览器是在获取web页面供用户浏览的过程中使用语音技术(比如说,将网页的内容通过语音的方式提供给用户),从而满足那些不能通过视觉浏览网页的用户(如盲人)的浏览需求。早期的语音浏览器主要是屏读软件(screen reader),其中比较有影响的包括国外的JAWS,IBM Home Page Reader,国内的阳光读屏、永德读屏和晨光读屏等软件。这类软件可通过语音合成技术将屏幕上显示的网页文本内容读出,使盲人依靠听觉获取网页内容。屏读软件最大的问题在于,这些软件几乎不对网页做分析和处理,而是直接按照网页固有顺序读出所有网页内容。这样,当网页内容很多时,用户很难快速定位到感兴趣的内容。针对屏读软件费时、低效的缺点,近年来,语音浏览器研究的热点逐渐转向对网页结构和内容的解析和重组,以期在更大的粒度上显示和操作网页内容。国内外许多研究者都开展了相关的研究,开发出了一批应用系统。其中最具代表性的是美国的HearSay项目和IBM日本公司的相关研究。为解决网页内容太多造成的访问低效问题,HearSay系统将HTML网页内容分为较大的块(block),用户可以通过快捷键跳过网页块,从而较快地定位到感兴趣的信息。而且, 当用户点击网页中的某个链接进入另一个网页时,系统会自动跳转到与链接文字语义最接近的块,从而直接朗读用户最可能感兴趣的内容。这一按照语义相关性跳转的特性是较为重要的创新,但只能用于链接跳转,无法用于首次进入网站首页时,而网站首页对用户来说却是必不可少且浏览最为困难的网页。另外,HearSay系统的分块算法比较初级,其分块效果琐碎且有一定的随意性,往往不符合网页视觉和结构的特点,并且只能支持向下跳过网页块的操作,并未把整个网页组织成块的集合,使用户可以直接在所有块间选择和跳转。IBM日本公司的系统“Web content transcoding system”通过将网页分为若干个组(group)来减少网页中一次性读出的条目的个数。该系统将组作为网页的基本单位进行组织和显示,使得用户可操作的单位变大因而提高了交互效率。然而,为得到较好的分组效果,该系统需要采用动态匹配的方法对整个网站进行离线批处理,这种方法处理时间较长,无法满足用户的实时请求,返回给用户的网页有可能是已过期的旧网页(具体可参考文献Takagi, H. and Asakawa, C.,“ Web Content. Transcoding For VoiceOutput “, Technology And. Persons With Disabilities Conference,2002· 4·)。综上所述,当前迫切需要一种既便于用户以语音方式浏览各种网页,又够满足用户的实时请求的语音浏览方法和语音浏览器。
技术实现思路
本专利技术的目的是提供一种便于用户以语音方式浏览各种网页且处理时间短,能够满足用户的实时请求的语音浏览方法和语音浏览器。为实现上述专利技术目的,本专利技术提供了一种语音浏览方法,包括网页信息提取步骤对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤将HTML格式的网页自动转换为V0ICEXML格式的页面;语音推送步骤基于voiceXML格式网页,向用户朗读网页内容。其中,所述网页格式转换步骤中,对于主题型网页,所抽取的网页主内容设置为优先向用户朗读;对于非主题型网页,为用户设置快捷键以使用户能够在各网页块之间自由切换和选择;其中,所述网页信息提取步骤中,网页分类的算法包括下列步骤11)对网页进行DOM树解析,计算每一个DOM结点的链接文字比;12)对网页是否为主题型网页进行粗判断以将该网页判定为主题型网页、非主题型网页和网页类型待定的网页;其中,所述粗判断包括当DOM树根结点的链接文字比小于预设的第一阈值时,判定该网页为主题型网页,网页分类算法结束;当DOM树根结点的链接文字比大于预设的第二阈值时,判定该网页为非主题型网页,网页分类算法结束;当DOM树根结点的链接文字在所述第一阈值和所述第二阈值之间时,该网页类型待定,转入步骤3);13)根据步骤11)中得出的DOM树中各结点的链接文字比确定所述网页的最大内容结点;14)根据最大内容结点所占区域的位置判断该网页是否为主题型网页。其中,所述步骤14)中,当最大内容结点所占区域的位置位于网页中心区域时,判定该网页为主题型网页,否则判定为非主题型网页。其中,网页的中心区域定义如下如页面的坐标是(0,0, width, height),其中(0,0)代表左上角坐标,(width, height)代表页面的右下角的坐标。width指页面的宽度,height指页面的高度,那么网页的中心区域为(0. 25*width,0,0. 75*width,0. 5*height);当最大内容结点所占区域与网页的中心区域有交集时,即判定最大内容结点所占区域的位置位于网页中心区域。其中,所述网页信息提取步骤中,主内容抽取的算法包括下列步骤21)取最大内容结点所对应的DOM树片段,对该DOM树片段进行遍历,对该DOM 树片段中的每个结点,如该结点包含的链接的个数大于预设的链接个数阈值,且该结点的链接文字比大于预设的链接文字比阈值,则判定该结点为噪音结点;否则判定为主内容结占.^ \\\ 22)去除所有噪音结点,得到只含主内容结点的子结点集合。 其中,所述网页信息提取步骤中,分块处理的算法包括下列步骤 31)获取待分块网页的DOM树;32)遍历所述DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块; 其中,当一个基本多行结点的父结点被作为一个基本分块时,该基本多行结点不再作为一个基本分块。其中,所述分块处理的算法还包括33)在所述基本分块中找出主题块,将主题块与其后面邻接的若干个非主题块合并;所述主题块中包含主题或分类标签。其中,所述步骤3 包括下列子步骤321)自底向上遍历网页的DOM树,找出DOM树中的基本多行结点;322)自顶向下先序遍历DOM树,将其中每个只包含1个基本多行结点的结点作为一个基本分块,将每两个只包含1个基本多行结点的结点之间的零散叶结点分别合成一个基本分块。其中,所述步骤321)包括下列子步骤3211)自底向上遍历网页的DOM树,对每个当前结点,执行步骤321 ;3212)记录当前结点所含的基本多行结点个数。其中,所述步骤32 包括下列子步骤3221)建立一个结点列表,自顶向下地先序遍历DOM树;3222)如果当前结点包含的基本多行结点个数为0,将当前结点放入所述结点列表,否则执行步骤3223);3223)如果当前结点包含的基本多行结点个数为1,则执行步骤32M),否则执行步骤3225);3224)将当前块作为一个基本分块,并将当前所述结点列表中的结点合并,作为另一个基本分块,然后清空所述结点列表;3225)如果当前结点包含的基本多行结点个数大于1,则本文档来自技高网...
【技术保护点】
1.一种语音浏览方法,包括:网页信息提取步骤:对于用户请求的任一网页,首先对其进行网页分类,若判定该网页属于主题型网页,则对网页进行主内容抽取;若该网页为非主题型网页,则进行网页分块;网页格式转换步骤:将HTML格式的网页自动转换为VOICEXML格式的网页;语音推送步骤:基于voiceXML格式网页,向用户朗读网页内容。
【技术特征摘要】
【专利技术属性】
技术研发人员:邓铸辉,陈启华,王向东,钱跃良,林守勋,
申请(专利权)人:中国科学院计算技术研究所,
类型:发明
国别省市:11
还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。