语言再现装置制造方法及图纸

技术编号:2892539 阅读:207 留言:0更新日期:2012-04-11 18:40
使用者从输入部11输入任意长度的发音符号序列。索引码处理部12把所输入的发音符号序列转换为检索用的索引码。码组检索部14将上述转换成的索引码作为检索关键码参照索引存储部15检索与索引码相应的辞书中的对应码组。辞书16中形成与索引存储部15的各读音一一对应的码组,并存储有与各对应码组相应的读音为起始的全部单词索引码以及单词各文字的汉字码。转换部17将所输入的索引码作为检索关键码参照辞书16从对应码组检索出对应单词向输出部输出。(*该技术在2012年保护过期,可自由使用*)

【技术实现步骤摘要】

本专利技术涉及能有效地用于中国语/日本语的输入系统、文字处理机,特别是能用所输入的索引码从小型辞书高速地查出对应的单词以及相关信息的语言再现装置。普通的语言再现装置,是将所输入的读音或部首等信息作为检索关键码而从辞书转换为相应单词的文字序列的装置。作为已有的语言再现装置有例如日本特开昭59-121425公报中所记载的中国语汉字转换装置,是将中国语的发音符号作为检索关键码从辞书查出对应的单词的装置。该专利技术的系统框图示于图4(a)中。图4(b)是相应实施例中辞书的构成方式中国语的表音方式有台湾(注意、拼音2)以及中国大陆(拼音1)使用的三种发音符号。该已有例是用中国大陆(拼音1)进行说明的。中国语原则上是一个汉字对应于一个音节。音节由声明、韵母以及声调构成,而韵母还能细分为介母以及主韵母,因而其构成如下声母+介母+主韵母+声调在图4(a)中,31是将所输入的数据分离为罗马字数据和声调数据的分离装置。33是以示于图4(b)中的要点存储各单词的罗马字序列、汉字序列、声调以及频度各项目的辞书。32是将与经上述分离装置31送给的罗马字序列相应的全部同音异义词从上述辞书33取出的参照装置。34是将经参照装置32得到的汉字序列与分离装置31的声调数据进行比较而输出规定的汉字序列,同时在没有上述声调数据的场合利用相应汉字序列的使用频度按频度高低的顺序输出且能选择所要的汉字序列的比较装置。在如上述构成的已有的语言再现装置中,例如想输入“中国”的场合首先从键盘输入其读音“zhong1guo2”。于是分离装置31将其分离为(zhongguo)罗马字序列与(1,2)声调数据。由参照装置34将(zhongguo)作为检索关键码从辞书33逐次检索单词。然而在辞书33中所收纳的单词有“中国”与“中果”,而声调数据为(1,2)的是“中国”,因而由比较装置判断并输出“中国”。上述已有例的辞书中如图4(b)所示不仅存储了读音符号以及对应单词,作为转换时的参照还存储声调数据以及单词的使用频度。分别存储数据的方式使存储空间浪费。而且另一方面将“中国”、“中国语”等有重复文字序列的某些单词作为不同的项目存储也浪费了存储空间。鉴于上述缺点,本专利技术将单词的使用频度设定在索引码中,并且利用字数少的单词包含在字数多的单词中(即短的单词包含在长的单词中)的所谓单词特征,藉助于分隔关键码把有些重复文字序列的多个单词连结起来作为一个单词存储在辞书中。采用上述辞书结构能节约存储空间。为解决上述问题,本专利技术目的在于提供一种语言再现装置,其特征是包括,按顺序存入单词的索引码以及对应的文字序列的汉字码并分作码组将单词的使用频度、把含有短单词的较长单词分成各个单词的分隔关键码等信息分别配置在索引码或汉字码中的辞书;根据起动转换键而将输入的索引码的前部分作为检索关键码在所述辞书中检索出对应码组的码组检索装置;将输入的索引码作为检索关键码从检索出的对应码组中检索出对应单词,或者通过起动再转换键检索出含有对应单词的较长单词以及这些单词的使用频度的转换装置。本专利技术因如上述构成,使用者输入某个单词的索引码,码组检索部就检索出与该索引码相应的辞书中的对应码组。接着转换部将所输入的索引码作为检索关键码从对应码组检索出对应单词以及相应单词的使用频度。而且使用者还能通过按再转换键选择索引码的前部分一致的、作为候补单词的多个单词。附图的说明附图说明图1为表示本专利技术一实施例语言再现装置构成的框图。图2为表示本专利技术一实施例的处理过程的流程图。图3为表示本专利技术一实施例的处理过程的流程图。图4(a)为表示已有的语言再现装置构成的框图。图4(b)为表示同一已有例中辞书构成的说明图。图5为表示本专利技术实施例一种中国语发音符号编码的说明图,图5(a)为表示索引码第一字节发音符号编码的说明图,图5(b)为表示索引码第二字节发音符号编码的说明图。图6为表示本专利技术实施例的中国语发音符号码顺序的说明图。图7为示出本专利技术的索引码处理部操作的流程图。图8为说明本专利技术同一实施例的辞书构成的说明图。符号的说明11为输入部,12为索引码处理部,13为存储部,131C、132R、135H分别为寄存器,133A、134B、136BC分别为缓冲器,1361为单词字段,1362为使用频度字段,14为码组检索部,15为索引存储部,16、33分别为辞书,17为转换部,18为输出部,31为分离装置,32为参照装置,34为比较装置,35为输出装置。图4为本专利技术中一实施例的一种索引码配置图。把图5(a)中示出的各中国语读音的声母以及声调一起配置在第一字节中,把图5(b)中示出的韵母以及介母一起配置在第二字节中,通过这种方式将一个文字的读音转换为索引码。以读音为例,参照图5立刻就明白相应的索引码为3306H。根据该配置方式用规则的结构就可很容易地将发音符号转换为索引码。而且能将单词的频度等信息存入第二字节的高2位中,从而供转换时用。图1是本专利技术语言再现装置中一实施例的系统框图。图1中11是能输入任意长度的发音符号序列的输入部。12是将所输入的发音符号序列转换为供检索用的索引码的索引码处理部。索引码处理部12的转换处理如图7的流程图所示,以赋于图6所示各顺序值之一的中国语发音符号为基础,通过简单地判断以及计算,便将所输入的发音符号转换为索引码。这里以读音(外1)为例详细说明索引码的转换处理。参照图6的顺序值,声母是声母顺序的第10号,第1声是声调顺序的第0号,因而第一字节的数值被转换如下。01H+10·5+0=33H韵母是韵母顺序的第0号,介母是介母顺序的第2号,因而第二字节的数值如下所示。04H+0·4+2=06H综上所述读音(外1)的索引码应该为3306H。图1中,码组检索部14能将上述所转换的索引码作为检索关键码通过参照索引存储部15而检索相应于索引码的辞书中的对应码组。辞书16的详细构造如图8所示,与索引存储部15的各读音形成一一对应的码组,各对应码组中存储了从相应读音开始的全部单词的索引码以及单词各文字的汉字码并以检索码顺序排列在辞书16中。索引码中设定了多级单词使用频度。汉字码中填入了表明长单词中含有重复文字的短单词的分隔关键码。在本实施例中,单词的使用频度被设定在单词索引码的最后字节中不用的高2位上。分作最常用、常用、较常用、不常用四级,分别将相应位配置为二进制的11、10、01、00。以单词(欢迎)为例时,通过索引码处理部12的处理其相应索引码为“3326H 6b31H”。该单词是最常用单词,而且相应单词字数为2,因而最后字节即第四字节的b0以及b1上设定为1来表明是最常用单词。于是索引码各位配置如下(表1)所述,变为“3326H6bF1H”。中国语有所谓字数少的单词可包含在字数多的单词中的特征。例如,“立法院”中含有“立法”的单词,而“立法院长”单词中又含有这两个单词。若利用中国语这一构词特征,由分隔关键码分隔各单词而仅将字数最长的单词存储在辞书中,就可在高速检索出适当的单词的基础上节约辞书的存储容量。象“立法院长”这样的较长的单词如下所述由“~”分隔关键码分隔。立法“院”长根据索引码的转换方式,该单词就如图6中所示以“270112846da7496c立法”院”长”的形式存储在辞书16中。汉字码中各文字占本文档来自技高网...

【技术保护点】
一种语言再现装置其特征在于它包括:把单词的索引码以及对应的文字序列的汉字码按顺序存储并分作码组,将单词的使用频度、把含有短单词的长单词分成每个单词的分隔关键码等信息,分别配置在索引码或汉字码中的辞书;通过起动转换键将所输入的索引码的前部分作为检索关键码在上述辞书中检索出对应码组的码组检索装置;将所输入的索引码作为检索关键码从所检索出的对应码组检索出对应单词,或通过起动再转换键检索出含有对应单词的较长单词以及这些单词的使用频度的转换装置。

【技术特征摘要】

【专利技术属性】
技术研发人员:罗进财林启轩
申请(专利权)人:松下电器产业株式会社
类型:发明
国别省市:JP[日本]

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1