当前位置: 首页 > 专利查询>林光荣专利>正文

计算机文字-读音一体内码技术制造技术

技术编号:2890689 阅读:280 留言:0更新日期:2012-04-11 18:40
本发明专利技术,是一种计算机文字语音信息处理技术,它把每个文字读音顺序一一编码(叫做读音内码),和对应的文字内码组合为一个内码单元(叫做文字-读音-体码),作为计算机语言文字信息处理的基本单位,使计算机和计算机操作人员乃至普通用户都既能编排处理文字信息,又能编排处理语音信息的方法和技术。计算机根据操作者输入的读音内码和控制要求发出对应的语音,从而根本不存在计算机文本-语音转换错音、别音问题。本发明专利技术使人们不仅能用计算机编排文字,也能编排语音及各种声音信息,使计算机代人说话,教人发音,做有声广告,有声报纸,有声教学,信息台自动答话服务,甚至奏乐、唱歌等。(*该技术在2015年保护过期,可自由使用*)

【技术实现步骤摘要】
【国外来华专利技术】
本专利技术,是关于,语言文字在计算机中,采用多字节内码同时记录文字及其相应读音,其中一部分字节记录文字(含语言文字、词、符号、数字等等)内码,另一部分字节记录该文字读音的内码,二者组合为一个内码单位,作为语言文字信息处理的基本单位,供计算机和计算机操作人员以及普通计算机用户处理的方法和技术。简言之,本专利技术,是关于在计算机语言文字信息处理中,采用一单位内码同时记录文字及其读音,使计算机和计算机操作人员以及普通计算机用户即能编排处理文字信息,又能编排处理语音信息的方法和技术。在现有技术中,汉语言文字在计算机里的内码表示,仅有“字”的内码,并无“音”的内码。当初开发计算机的汉字信息处理时,只开发了“字”的处理,未开发“音”的处理。这种内码技术,包括最近见诸报端的“计算机多级内码技术”,均属纯文字码。普通计算机用户只能编排处理文字信息,不能编排处理语音信息。目前计算机代人朗读这种纯文字内码的文本,采用两种方法一种方法是事先人工录音。这种方法语音信息量大,占用存储空间大。而且编辑修改不方便,文本修改了,相应必须重新录音;工效低,成本高,不宜推广。另一种方法采用软件实现文本——语音转换。由于同一汉字在不同的词中可能有不同的读音,软件必须正确分辨词语结构和前后文环境,以确定正确的读音,使得软件分词技术复杂,开发难度大,文本——语音转换出现错音、别音较多,不实用。(参见成都《软件报》1995年10月28日总第474期头版)本专利技术把“语音”和“文字”统一起来,把“语音”和“文字”一样,也按顺序一一编码,并将二者一体化,组合于一个多字节内码单元中。这种编码方法,本专利技术称之为“文字——读音一体码”(以下简称“字——音一体码”或“一体码”)。在本专利技术中,计算机和计算机操作人员以这种字——音一体码作为基本信息单位进行处理,可以进行诸如录入、编辑、排版、拷贝、压缩、固化、传输、及向任何类型输出设备输出等操作。在向输出设备输出时,根据其文字内码部分输出相应字形点阵,根据读音内码部分输出相应语音信号。在实施本专利技术的计算机中,字——音一体码表及其输入法程序,由软件开发者编制,装载在计算机中,提供给计算机录入人员。在这种一体码表中,不同的文字——读音组合,构成不同的内码。例如中文“的”字有“de”轻声、“di”阳平、“di”去声、“di”轻声四种不同念法,则编制四种不同内码。其中,文字码部分是相同的;读音码部分是不相同的。相应地,输入法程序应提供四种不同的输入码(外码),以使录入人员能够选择输入其中某个读音的“的”字。最简单的方法,是在现有输入法基础上,增加最后一个选音步骤同字不同音提示,再用数字键选择输入。计算机录入人员在输入文字时,按照其含义和前后文环境,选择输入正确的读音。对于中文输入,较简单快捷而又能确保正确输入的方法,是词组输入法;因为汉字在词组中的读音一般是固定的。显然,在本专利技术的技术中,计算机文本——语音转换正确与否,由计算机录入人员的素质决定,而不是由计算机决定。计算机专业录入人员或编审人员,经过专门培训,是可以做到99.9%以上输入正确。并且,即使存在错误,一经发现,也能纠正。倘若由计算机文本——语音转换软件转换,发生转换错误,计算机用户是无能为力的。由于不取决于计算机转换技术,所以从根本上消除了计算机转换错音、别音问题。并且,根据音码,可以直接计算出相应读音的数字化信息序列在存储介质(可以由标准发音人员事先录制好,以下简称“语音库”)中的地址;实际上,甚至可以直接寻址语音库。根据音码寻址语音库的工作和合成语音并输出给发声器件的工作,可以一并交给专门的集成电子发声部件去做;计算机主机只须在适当的时侯、以适当的方式向该部件输出音码。有利于简化主机软件系统,减轻主机负担,节省CPU处理时间,使文本——语音转换速度达到最快。CPU还可以有更多时间花在必要的音强、音长和音色等控制信息的加工处理上,增强计算机对语音的管理功能,使计算机发音更接近于人类语言。在本专利技术中,由于即包含文字码,又包含音码,所以,它所需要的字节数较本专利技术以前的单纯文字码要多一些。例如汉字可采用四字节一体码。如果考虑古今中外各种文字语音都能编辑处理,则可采用八字节一体码。现以中文单字四字节一体码方式为实施例,低两字节记录汉字国标内码,高两字节记录相应读音内码。假定每个汉字平均有两种不同念法,则两个音码×2字节×6735字=27K字节,一体码表比较纯文字码表只需增加27K内存占用。在大部分中文软件中,汉字用负码表示,负码范围128-255,国标汉字区位码使用范围161-254。汉字音码也可用两字节负码表示。从汉语拼音表知道,汉语拼音声母——韵母组合共有415种,每个拼音最多五种声调阴平、阳平、上声、去声、轻声。拼音和声调组合起来,最多有415×5=2075种读音。在汉语音库中,只需事先录制好2075种读音的数字化信息,约占40-200兆字节存储空间,可以固化在只读存储器中。两字节负码在161-254范围内,可表示(254-160)2=8836种读音,足够记录全部汉语音。未被利用的128-160之间负码,四字节共有(161-128)4=1186K种组合,可以用来增加很多特殊标志符号和排版、控制命令,特别是增加对语音的“排版”、控制命令,有利于大大扩展计算机的功能和用途。标点符号一般是不读音的,例如逗号“,”句号“。”。有时候却需要念标点符号,而一个标点符号要发两三个音,问号“?”两个音,感叹号“!”三个音。另外,有的汉字要发两个音,特别是外来语,例如海里“浬”。对此,引入有字无音和有音无字的编码,规定有字无音码低两字节仍为该文字码,高两字节音码部分填以255、255(十六进制FFH,FFH);反之,有音无字码低两字节填以255、255,高两字节仍为正常音码。不读音的标点符号可输入该标点符号的有字无音码,计算机只输出字形点阵,不输出语音信号。“!”的读音可用“感叹号”三个字音的有音无字码输入,计算机只输出语音信号,不输出字形点阵。有字无音码和有音无字码是字——音一体码的两个特例;本专利技术以前的纯文字码相当于有字无音码的特例。在输入法程序中,除了应提供同字不同音提示外,还应提供有字无音和有音无字提示,以供录入人员选择输入。这样,许多符号、数字的读音都可用同音汉字的有音无字码输入。并且,字和音还可以分别输入处理,使字的顺序和音的顺序可以不相同,例如“60℃”,文字部分用有字无音码输入,其后跟着“摄氏六十度”五个字的有音无字码。这样,不依赖计算机,依靠人的智慧正确编排文本和读音,任何复杂难读的文本,计算机都能正确朗读。对于英文字母和其它半角符号,相应扩充使用两字节正码。由于英文字母和半角符号的读音是固定不变的,与前后文环境无关,只有声调的变化,因此,一个低位字节的字符码本身即可确定读音,高位字节用来标志声调。声调变化只有四、五种,只需要0-2位就够了,剩下3-7位可用来扩充半角字符集,或用来标志字形的变化,如上标、下标,上加声调符号,上加点、下加点等。低位字节的字符码,占用正码范围32-126,尚余0-31,和高位字节配合,可以增设很多标志、控制和排版等符号,有利于扩展计算机的功能和用途。英文字母及其它半角符号,也可以规定有字无音码,高位字节0-2位置本文档来自技高网...

【技术保护点】
在计算机中,对每个文字(含语言文字、词、符号、数字等等。见说明书)读音,按顺序一一编码(称为读音内码,见说明书),并和对应的文字内码按某种方式组合为一个内码单位,使得一单位内码即包含文字信息代码,又直接包含(不是间接包含或隐含)相应读音信息代码。这种内码形式,包括有字无音码和有音无字码(详见说明书)两个特例,称为文字-读音一体码(以下简称字-音一体码,见说明书)。其特征是:(1)一单位内码中包含文字内码和读音内码两个部分(包括有字无音码和有音无字码两个特例);(2)读 音内码所代表的读音系文字内码所代表的文字的读音。(3)读音内码和文字内码一样,是计算机和计算机操作人员进行编辑、排版、输入、输出等操作的对象。

【技术特征摘要】
【国外来华专利技术】

【专利技术属性】
技术研发人员:林光荣
申请(专利权)人:林光荣
类型:发明
国别省市:35[中国|福建]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1