一种语音浏览方法及浏览器技术

技术编号：6068928 阅读：238 留言：0更新日期：2012-04-11 18:40

本发明专利技术提供一种语音浏览方法，包括：网页信息提取步骤：对于用户请求的任一网页，首先对其进行网页分类，若判定该网页属于主题型网页，则对网页进行主内容抽取；若该网页为非主题型网页，则进行网页分块；网页格式转换步骤：将HTML格式的网页自动转换为VOICEXML格式的网页；其中，对于主题型网页，所抽取的网页主内容设置为优先向用户朗读；对于非主题型网页，为用户设置快捷键以使用户能够在各网页块之间自由切换和选择；语音推送步骤：基于voiceXML格式网页，向用户朗读网页内容。本发明专利技术还提供了相应的语音浏览器。发明专利技术能够使得网页内容的呈现更为合理和高效；发明专利技术能够使满足用户的实时请求。

Voice browsing method and browser

The invention provides a voice browsing method, including: Web information extraction steps: for any web user request, the first page of its classification, determine if the page belongs to the theme \, is the main content of the web page extraction; if the non theme type web page, then\ block \; format conversion steps:\ HTML format will be automatically converted to VOICEXML format \; among them, for the theme\, \main content from the set to give priority to the user to read; for non theme page, set the shortcut keys to enable users to freely switch between each page block and the choice for the user to push the speech; take steps: Web page based on voiceXML format, read web content to users. The invention also provides a corresponding voice browser. The invention can make the content of the web page appear more reasonable and efficient; the invention can satisfy the real-time request of the user.

全部详细技术资料下载

【技术实现步骤摘要】

本专利技术涉及网络浏览器
，具体地说，本专利技术涉及一种语音浏览方法及浏IrWSB 见益。
技术介绍
浏览器是指一种获取网页内容的软件，而语音浏览器是在获取web页面供用户浏览的过程中使用语音技术(比如说，将网页的内容通过语音的方式提供给用户)，从而满足那些不能通过视觉浏览网页的用户(如盲人)的浏览需求。早期的语音浏览器主要是屏读软件(screen reader)，其中比较有影响的包括国外的JAWS，IBM Home Page Reader，国内的阳光读屏、永德读屏和晨光读屏等软件。这类软件可通过语音合成技术将屏幕上显示的网页文本内容读出，使盲人依靠听觉获取网页内容。屏读软件最大的问题在于，这些软件几乎不对网页做分析和处理，而是直接按照网页固有顺序读出所有网页内容。这样，当网页内容很多时，用户很难快速定位到感兴趣的内容。针对屏读软件费时、低效的缺点，近年来，语音浏览器研究的热点逐渐转向对网页结构和内容的解析和重组，以期在更大的粒度上显示和操作网页内容。国内外许多研究者都开展了相关的研究，开发出了一批应用系统。其中最具代表性的是美国的HearSay项目和IBM日本公司的相关研究。为解决网页内容太多造成的访问低效问题，HearSay系统将HTML网页内容分为较大的块(block)，用户可以通过快捷键跳过网页块，从而较快地定位到感兴趣的信息。而且，当用户点击网页中的某个链接进入另一个网页时，系统会自动跳转到与链接文字语义最接近的块，从而直接朗读用户最可能感兴趣的内容。这一按照语义相关性跳转的特性是较为重要的创新，但只能用于链接跳转，无法用于首次进入网站...

【技术保护点】
１．一种语音浏览方法，包括：网页信息提取步骤：对于用户请求的任一网页，首先对其进行网页分类，若判定该网页属于主题型网页，则对网页进行主内容抽取；若该网页为非主题型网页，则进行网页分块；网页格式转换步骤：将ＨＴＭＬ格式的网页自动转换为ＶＯＩＣＥＸＭＬ格式的网页；语音推送步骤：基于ｖｏｉｃｅＸＭＬ格式网页，向用户朗读网页内容。

【技术特征摘要】

【专利技术属性】
技术研发人员：邓铸辉，陈启华，王向东，钱跃良，林守勋，
申请(专利权)人：中国科学院计算技术研究所，
类型：发明
国别省市：11

全部详细技术资料下载我是这个专利的主人