韩文音译方法及装置制造方法及图纸

技术编号:15329518 阅读:74 留言:0更新日期:2017-05-16 13:10
本发明专利技术公开了一种韩文音译方法及装置,属于语言处理领域。所述方法包括:将韩文信息进行拆分,得到若干个韩文文字;从字库中查询与韩文文字对应的注音片段,字库存储有韩文文字和注音片段的对应关系;将查询到的注音片段按照韩文文字在韩文信息中的顺序进行拼接,得到与韩文信息对应的注音信息。由于字库中预先存储有韩文文字和注音片段的对应关系,本发明专利技术通过从字库中查询与韩文文字对应的注音片段,使得当待音译的韩文信息中包括冷僻词组或网络流行新词组或自造词组时,仍能查询到该韩文信息中每个韩文文字对应的注音片段,从而进行准确的注音,提高了音译结果的准确率。

Han Wen transliteration method and apparatus

The invention discloses a Korean transliteration method and a device thereof, which belong to the field of language processing. The method comprises the following steps: will be split into several Han Wen Han Wen information, text query; phonetic segment corresponding with Han Wen characters from the font, text and phonetic correspondence between Han Wen fragments of font storage; the phonetic fragments query according to the text in the interest of Han Wen Han Wenxin in order to get information and phonetic mosaic, Han Wen the corresponding information. The corresponding relationship between the font pre stored in Korean words and phonetic segments, the phonetic query fragment corresponds to Korean character from the font, so when the Korean transliteration information including unfamiliar phrases or words or phrases from the popular network group, can inquire into phonetic segments of each of the Korean information in Korean corresponding to the characters, so as to achieve accurate phonetic, improve the accuracy of the results.

【技术实现步骤摘要】
韩文音译方法及装置
本专利技术实施例涉及语言处理领域,特别涉及一种韩文音译方法及装置。
技术介绍
音译(英文:transliteration)技术,用于将一种语言中的词汇翻译为另一种语言中与之发音相近的词汇或注音。目前使用较为广泛的韩文音译技术是基于词组库的音译技术。基于词组库的韩文音译技术的核心思想是:人工预先采集韩文中的常用词组及每个常用词组对应的注音片段序列,建立词组库;服务器对于待音译的韩文信息,进行拆分得到若干组韩文词组,对于每组韩文词组从词组库中选择出匹配度高于阈值的注音片段序列,将选择出的若干组注音片段按照韩文词组对应的顺序进行拼接,得到与输入的韩文信息对应的注音信息。由上述方法可知,词组库中存储的为韩文中的常用词组,且这些常用词组是人工进行采集的,因此该词组库并不能够涵盖韩文中所有的词组,当待音译的韩文词组在词组库中不存在时,根据匹配度选择出的注音片段序列并不是该韩文词组的准确注音,从而出现音译结果准确率低的问题。
技术实现思路
为了解决目前的韩文音译技术的音译结果准确率低的问题,本专利技术实施例提供了一种韩文音译方法及装置。所述技术方案如下:第一方面,提供了一种韩文音译方法,该方法包括:将韩文信息进行拆分,得到若干个韩文文字;从字库中查询与韩文文字对应的注音片段,字库存储有韩文文字和注音片段的对应关系;将查询到的注音片段按照韩文文字在韩文信息中的顺序进行拼接,得到与韩文信息对应的注音信息。可选地,将韩文信息进行拆分,得到若干个韩文文字,包括:检测韩文信息中相邻的两个韩文文字之间是否存在待变音的韩文文字;若存在待变音的韩文文字,则将待变音的韩文文字替换为变音后的韩文文字;根据变音后的韩文文字得到与韩文信息对应的若干个韩文文字。可选地,检测韩文信息中相邻的两个韩文文字之间是否存在待变音的韩文文字,包括:以预定标识作为拆分位置,将韩文信息拆分为若干组韩文词组;预定标识包括空格符号和标点符号中的至少一种;检测韩文词组中相连的两个韩文文字之间是否存在待变音的韩文文字。可选地,检测韩文词组中相连的两个韩文文字之间是否存在待变音的韩文文字,包括:获取第一韩文文字的第一单音节序列和第二韩文文字的第二单音节序列,第一韩文文字和第二韩文文字是韩文词组中相邻的两个韩文文字;提取第一单音节序列的尾部音节和第二单音节序列的首部音节;检测尾部音节和首部音节是否属于变音音节组合;若尾部音节和首部音节属于变音音节组合,则确定存在待变音的韩文文字。可选地,将待变音的韩文文字替换为变音后的韩文文字,包括:当第一韩文文字是待变音的韩文文字时,对第一单音节序列的尾部音节进行变音,根据变音后的第一单音节序列重新组合出第三韩文文字,使用第三韩文文字替换第一韩文文字;和/或,当第二韩文文字是待变音的韩文文字时,对第二单音节序列的首部音节进行变音,根据变音后的第二单音节序列重新组合出第四韩文文字,使用第四韩文文字替换第二韩文文字。第二方面,提供了一种韩文音译装置,该装置包括:拆分模块,用于将韩文信息进行拆分,得到若干个韩文文字;查询模块,用于从字库中查询与韩文文字对应的注音片段,字库存储有韩文文字和注音片段的对应关系;拼接模块,用于将查询到的注音片段按照韩文文字在韩文信息中的顺序进行拼接,得到与韩文信息对应的注音信息。可选地,拆分模块,包括:检测单元、替换单元和得到单元;检测单元,用于检测韩文信息中相邻的两个韩文文字之间是否存在待变音的韩文文字;替换单元,用于若存在待变音的韩文文字,则将待变音的韩文文字替换为变音后的韩文文字;得到单元,用于根据变音后的韩文文字得到与韩文信息对应的若干个韩文文字。可选地,检测单元,包括:拆分子单元和检测子单元;拆分子单元,用于以预定标识作为拆分位置,将韩文信息拆分为若干组韩文词组;预定标识包括空格符号和标点符号中的至少一种;检测子单元,用于检测韩文词组中相连的两个韩文文字之间是否存在待变音的韩文文字。可选地,检测子单元,还用于获取第一韩文文字的第一单音节序列和第二韩文文字的第二单音节序列,第一韩文文字和第二韩文文字是韩文词组中相邻的两个韩文文字;提取第一单音节序列的尾部音节和第二单音节序列的首部音节;检测尾部音节和首部音节是否属于变音音节组合;若尾部音节和首部音节属于变音音节组合,则确定存在待变音的韩文文字。可选地,替换单元,包括:第一替换子单元和/或第二替换子单元;第一替换子单元,用于当第一韩文文字是待变音的韩文文字时,对第一单音节序列的尾部音节进行变音,根据变音后的第一单音节序列重新组合出第三韩文文字,使用第三韩文文字替换第一韩文文字;第二替换子单元,用于当第二韩文文字是待变音的韩文文字时,对第二单音节序列的首部音节进行变音,根据变音后的第二单音节序列重新组合出第四韩文文字,使用第四韩文文字替换第二韩文文字。本专利技术实施例提供的技术方案带来的有益效果是:由于字库中预先存储有韩文文字和注音片段的对应关系,通过将韩文信息进行拆分,得到若干个韩文文字,从字库中查询与韩文文字对应的注音片段,将查询到的注音片段按照韩文文字在韩文信息中的顺序进行拼接,得到与韩文信息对应的注音信息;使得当待音译的韩文信息中包括冷僻词组或网络流行新词组或自造词组时,仍能查询到该韩文信息中每个韩文文字对应的注音片段,从而进行准确的注音,提高了音译结果的准确率。附图说明为了更清楚地说明本专利技术实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本专利技术的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。图1是本专利技术一个实施例提供的韩文音译方法的流程图;图2是本专利技术另一个实施例提供的韩文音译方法的流程图;图3是本专利技术另一个实施例提供的韩文音译方法的原理示意图;图4是本专利技术另一个实施例提供的韩文音译方法的流程图;图5是本专利技术一个实施例提供的韩文音译装置的结构图;图6是本专利技术另一个实施例提供的韩文音译装置的结构图;图7是本专利技术一个实施例提供的终端的框图;图8是本专利技术一个实施例提供的服务器的结构框架图。具体实施方式为使本专利技术的目的、技术方案和优点更加清楚,下面将结合附图对本专利技术实施方式作进一步地详细描述。请参考图1,其示出了本专利技术一个实施例提供的韩文音译方法的流程图。该韩文音译方法可由具有韩文处理能力的服务器或终端来执行,在以下实施例中均以韩文音译方法的执行主体为服务器进行说明。该韩文音译方法,包括:步骤101,将韩文信息进行拆分,得到若干个韩文文字。可选地,服务器获取待音译的韩文信息,将韩文信息进行拆分,得到若干个韩文文字;其中,韩文信息为文字类型是韩文的信息,该信息为一个词组或一句话或一段文字或一篇文章,本实施例对此不加以限定。比如,待音译的韩文信息为为服务器将韩文信息进行拆分,分别得到四个韩文文字和步骤102,从字库中查询与韩文文字对应的注音片段,字库存储有韩文文字和注音片段的对应关系。可选地,由于韩文文字一共有11172个,服务器预先根据预定编码规则,将每个韩文文字解构为对应的单音节序列,该单音节序列包括构成该韩文文字的至少一个单音节,也称单音节符号或单音节笔画;对于每个韩文文字,服务器根据该韩文文字对应的单音节序列,生成与该韩文文本文档来自技高网...
韩文音译方法及装置

【技术保护点】
一种韩文音译方法,其特征在于,所述方法包括:将韩文信息进行拆分,得到若干个韩文文字;从字库中查询与所述韩文文字对应的注音片段,所述字库存储有所述韩文文字和所述注音片段的对应关系;将查询到的所述注音片段按照所述韩文文字在所述韩文信息中的顺序进行拼接,得到与所述韩文信息对应的注音信息。

【技术特征摘要】
1.一种韩文音译方法,其特征在于,所述方法包括:将韩文信息进行拆分,得到若干个韩文文字;从字库中查询与所述韩文文字对应的注音片段,所述字库存储有所述韩文文字和所述注音片段的对应关系;将查询到的所述注音片段按照所述韩文文字在所述韩文信息中的顺序进行拼接,得到与所述韩文信息对应的注音信息。2.根据权利要求1所述的方法,其特征在于,所述将韩文信息进行拆分,得到若干个韩文文字,包括:检测所述韩文信息中相邻的两个韩文文字之间是否存在待变音的韩文文字;若存在所述待变音的韩文文字,则将所述待变音的韩文文字替换为变音后的韩文文字;根据所述变音后的韩文文字得到与所述韩文信息对应的若干个韩文文字。3.根据权利要求2所述的方法,其特征在于,所述检测所述韩文信息中相邻的两个韩文文字之间是否存在待变音的韩文文字,包括:以预定标识作为拆分位置,将所述韩文信息拆分为若干组韩文词组;所述预定标识包括空格符号和标点符号中的至少一种;检测所述韩文词组中相连的两个韩文文字之间是否存在待变音的韩文文字。4.根据权利要求3所述的方法,其特征在于,所述检测所述韩文词组中相连的两个韩文文字之间是否存在待变音的韩文文字,包括:获取第一韩文文字的第一单音节序列和第二韩文文字的第二单音节序列,所述第一韩文文字和所述第二韩文文字是所述韩文词组中相邻的两个韩文文字;提取所述第一单音节序列的尾部音节和所述第二单音节序列的首部音节;检测所述尾部音节和所述首部音节是否属于变音音节组合;若所述尾部音节和所述首部音节属于所述变音音节组合,则确定存在所述待变音的韩文文字。5.根据权利要求4所述的方法,其特征在于,所述将所述待变音的韩文文字替换为变音后的韩文文字,包括:当所述第一韩文文字是所述待变音的韩文文字时,对所述第一单音节序列的尾部音节进行变音,根据变音后的所述第一单音节序列重新组合出第三韩文文字,使用所述第三韩文文字替换所述第一韩文文字;和/或,当所述第二韩文文字是所述待变音的韩文文字时,对所述第二单音节序列的首部音节进行变音,根据变音后的所述第二单音节序列重新组合出第四韩文文字,使用所述第四韩文文字替换所述第二韩文文字。6.一种韩文音译装置,其特征在于,所述装置包括...

【专利技术属性】
技术研发人员:陶县俊邱宇扬黄卓腾姜宁
申请(专利权)人:广州酷狗计算机科技有限公司
类型:发明
国别省市:广东,44

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1