一种多音字汉字转拼音全拼的方法技术

技术编号:21088683 阅读:53 留言:0更新日期:2019-05-11 09:39
本发明专利技术公开了一种多音字汉字转拼音全拼的方法,先将汉字拼音字典转换成计算机可读的格式,将其中的多音字列出来,把多音字词组整理出来做成多音字拼音字典;在实际汉字转拼音时,遍历待转换的汉字句子,如果当前汉字是对多音字,则取前后相邻的字作为词组在多音字拼音字典中匹配,匹配到则使用多音字拼音字典中的拼音,匹配不到则使用默认拼音;非多音字直接从汉字拼音字典中取拼音。本发明专利技术的一种多音字汉字转拼音全拼的方法,能够精确识别多音字汉字的拼音,为拼音搜索、语音合成等用途提供精确的匹配结果。利用本发明专利技术的一种多音字汉字转拼音全拼的方法可以精确地将多音汉字转换为拼音,转换准确率高。

【技术实现步骤摘要】
一种多音字汉字转拼音全拼的方法
本专利技术涉及信息
,尤其涉及一种汉字与拼音转换,精确识别多音字的多音字汉字转拼音全拼的方法。
技术介绍
随着中国综合国力的逐渐增强,汉字在国际上的应用场景越来越多,汉字的学习热情空前高涨。在汉字学习的过程中,将汉字分解为拼音是一个基础过程,当前很多软件支持将汉字转换为拼音。但现有软件使用的汉字转拼音,要么不支持多音字,要么不能精确识别多音字,只能在模糊搜索的场景使用,不能用于精确拼音匹配用途。因此,有必要提出一种改进,以克服现有技术缺陷。
技术实现思路
本专利技术的目的是解决现有技术中的问题,提供一种可以精确地将多音汉字转换为拼音,转换准确率高的多音字汉字转拼音全拼的方法。本专利技术的技术方案是:一种多音字汉字转拼音全拼的方法,包括以下步骤:S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库;S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音;S3:遍历待转换的汉字词组或句子,判断字符是否为汉字,不是则原样返回;是则从所述多音字拼音库内查询该汉字是否为多音字,找到匹配的多音字词组则返回对应多音字词组拼音,没找到匹配的多音字词组则返回所述汉字拼音库内对应汉字的拼音。作为一种优选的技术方案,步骤S2中建立多音字拼音库时,针对带数字的多音字词组,使用通配符表示数字。作为一种优选的技术方案,所述汉字拼音库用C#语言定义为Dictionary<string,string>类型。作为一种优选的技术方案,步骤S1内所述计算机可读的字典格式中,键名称为汉字,值为拼音。作为一种优选的技术方案,所述汉字拼音库内还包括汉字的声调信息,所述声调信息通过声调字符串表示,所述声调字符串设置于汉字拼音后。作为一种优选的技术方案,所述声调字符串为数字或声调符号。作为一种进一步优选的技术方案,所述声调字符串为数字时,用数字1-4表示一到四声声调,用数字5表示轻声。作为一种优选的技术方案,所述多音字拼音库也为计算机可读的格式,其中,键名称为多音字、值为多音字词组列表,多音字词组实体有词组和拼音两个属性。作为一种进一步优选的技术方案,所述多音字拼音库用C#语言可定义为Dictionary<string,List<WordInfo>>类型,多音字词组实体WordInfo有Words和PinYin两个字符串类型的属性。作为一种优选的技术方案,本专利技术的一种多音字汉字转拼音全拼的方法,还包括步骤S4:将步骤S3返回的全拼拼音转换为拼音首字母。本专利技术的一种多音字汉字转拼音全拼的方法,先将汉字拼音字典转换成计算机可读的格式,将其中的多音字列出来,把多音字词组整理出来做成多音字拼音字典;在实际汉字转拼音时,遍历待转换的汉字句子,如果当前汉字是对多音字,则取前后相邻的字作为词组在多音字拼音字典中匹配,匹配到则使用多音字拼音字典中的拼音,匹配不到则使用默认拼音;非多音字直接从汉字拼音字典中取拼音。汉字拼音字典内的多音字词组越全,本专利技术一种多音字汉字转拼音全拼的方法转换的准确率越高。本专利技术的一种多音字汉字转拼音全拼的方法,能够精确识别多音字汉字的拼音,为拼音搜索、语音合成等用途提供精确的匹配结果。利用本专利技术的一种多音字汉字转拼音全拼的方法可以精确地将多音汉字转换为拼音,转换准确率高。附图说明图1为本专利技术本专利技术一种多音字汉字转拼音全拼的方法具体实施例流程图。具体实施方式为了使本专利技术实现的技术手段、技术特征、专利技术目的与技术效果易于明白了解,下面结合具体图示,进一步阐述本专利技术。为使本专利技术实施例的目的、技术方案和优点更加清楚,下面将结合本专利技术实施例中的附图,对本专利技术实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本专利技术一部分实施例,而不是全部的实施例。基于本专利技术中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本专利技术保护的范围。在本专利技术实施例中使用的术语是仅仅出于描述特定实施例的目的,而非旨在限制本专利技术。在本专利技术实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式,除非上下文清楚地表示其他含义,“多种”一般包含至少两种,但是不排除包含至少一种的情况。应当理解,本文中使用的术语“和/或”仅仅是一种描述关联对象的关联关系,表示可以存在三种关系,例如,A和/或B,可以表示:单独存在A,同时存在A和B,单独存在B这三种情况。另外,本文中字符“/”,一般表示前后关联对象是一种“或”的关系。应当理解,尽管在本专利技术实施例中可能采用术语第一、第二、第三等来描述XXX,但这些XXX不应限于这些术语。这些术语仅用来将XXX彼此区分开。例如,在不脱离本专利技术实施例范围的情况下,第一XXX也可以被称为第二XXX,类似地,第二XXX也可以被称为第一XXX。取决于语境,如在此所使用的词语“如果”、“若”可以被解释成为“在……时”或“当……时”或“响应于确定”或“响应于检测”。类似地,取决于语境,短语“如果确定”或“如果检测(陈述的条件或事件)”可以被解释成为“当确定时”或“响应于确定”或“当检测(陈述的条件或事件)时”或“响应于检测(陈述的条件或事件)”。还需要说明的是,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的商品或者系统不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种商品或者系统所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的商品或者系统中还存在另外的相同要素。为了精确识别汉字词组或句子中的多音字将其转换为拼音全拼,如图1所示,本专利技术提供了一种多音字汉字转拼音全拼的方法,包括以下步骤:准备好汉字拼音字典,由于汉字拼音字典内多音字词组越全,通过本专利技术一种多音字汉字转拼音全拼的方法转换后的拼音准确率越高,因此该汉字拼音字典内多音字词组越多越全越好。作为优选方案,该汉字拼音字典内的拼音信息最好还包括声调。在将待转换的多音字汉字准确转换为拼音全拼前,需要手动整理多音字拼音数据库:S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库。作为优选方案,该计算机可读的字典格式中,键名称为汉字,值为拼音。为了在后续转换过程中能一并体现出声调,在上述汉字拼音库内一并录入声调信息,在汉字拼音库内声调信息通过声调字符串表示,声调字符串设置于汉字拼音之后。在实际应用过程中,声调字符串可以为数字或声调符号。为了简化录入信息,提高上述汉字拼音库的建立效率,上述声调字符串可以为数字,用数字1-4表示一到四声声调,用数字5表示轻声。为了提高后续查询效率,上述汉字拼音库优选地用C#语言定义为Dictionary<string,string>类型。建立汉字拼音库之后,执行步骤S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音。在制作多音字拼音库时,针对带数字的多音字词组,若将所有数字词组添加到多音字拼音库太费力,此时,本文档来自技高网...

【技术保护点】
1.一种多音字汉字转拼音全拼的方法,其特征在于:包括以下步骤:S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库;S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音;S3:遍历待转换的汉字词组或句子,判断字符是否为汉字,不是则原样返回;是则从所述多音字拼音库内查询该汉字是否为多音字,找到匹配的多音字词组则返回对应多音字词组拼音,没找到匹配的多音字词组则返回所述汉字拼音库内对应汉字的拼音。

【技术特征摘要】
1.一种多音字汉字转拼音全拼的方法,其特征在于:包括以下步骤:S1:将含声调的汉字拼音字典中的汉字及拼音转换为计算机可读的字典格式,建立汉字拼音库;S2:将所述汉字拼音库内的多音字及拼音提取汇总,制作多音字拼音库;所述多音字拼音库内包括多音字、多音字拼音、多音字词组及多音字词组拼音;S3:遍历待转换的汉字词组或句子,判断字符是否为汉字,不是则原样返回;是则从所述多音字拼音库内查询该汉字是否为多音字,找到匹配的多音字词组则返回对应多音字词组拼音,没找到匹配的多音字词组则返回所述汉字拼音库内对应汉字的拼音。2.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:步骤S2中建立多音字拼音库时,针对带数字的多音字词组,使用通配符表示数字。3.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:所述汉字拼音库用C#语言定义为Dictionary<string,string>类型。4.根据权利要求1所述的一种多音字汉字转拼音全拼的方法,其特征在于:步骤S1内所述计算机可读的字典格式中,键名称为汉字,值为拼音。5.根据权利要求1所述的一...

【专利技术属性】
技术研发人员:王暖
申请(专利权)人:上海中畅信息科技有限公司
类型:发明
国别省市:上海,31

网友询问留言 已有0条评论
  • 还没有人留言评论。发表了对其他浏览者有用的留言会获得科技券。

1