中文字符的编码方式的识别方法和装置制造方法及图纸

技术编号：11062093 阅读：88 留言：0更新日期：2015-02-19 09:08

本发明专利技术实施例提供一种中文字符序列的编码方式的识别方法和装置。该方法包括：从待识别中文字符序列中获取字符序列特征，所述字符序列特征包括：字符序列的长度特征，或者字符序列的长度特征以及字符序列的异常编码点特征；根据所述字符序列特征，基于设定的中文编码识别策略，确定所述待识别中文字符序列的编码方式。由于无需事先建立复杂的字符概率分布模型，因此简化了识别编码方式的识别流程；对于海量网络数据中的待识别中文字符序列，采用长度特征缩小了检测范围，避免了直接对待识别中文字符序列逐一检测异常编码点导致的对内存的占用，在缩小检测范围后，进一步结合异常编码点特征，提高了编码方式的识别效率和准确率。

全部详细技术资料下载

【技术实现步骤摘要】
中文字符的编码方式的识别方法和装置
本专利技术实施例涉及计算机数据通信
，尤其涉及一种中文字符的编码方式的识别方法和装置。
技术介绍
随着计算机通信技术的不断发展，人们创造了多种编码方式用于在网络中传输数据，对于中文字符来说，常用的编码方式有GBK，GB2312和UTF-8。在获取到网络中传输的经编码后的中文字符序列之后，需要对获取到的中文字符序列进行解码，才能正确还原出中文字符序列对应的原始数据，因此，识别中文字符序列的编码方式的技术应运而生。现有的中文字符序列的编码方式的识别技术主要包括:编码模式法和字符分布法。编码模式法主要是基于编码范围判断编码方式，对于海量的字符序列，只能基于编码范围逐个检测，不仅检测效率低，而且当存在大量的编码重合点时，会导致无法决策是哪种编码方式。字符分布法是以字符分布概率为模型，在对编码方式进行识别前需要针对特定的字符集建立字符概率分布模型，实现起来较复杂，且识别时会占用大量内存，导致识别效率低；同时面对错综复杂的网络环境，网络数据流中往往是中、英文和其余特殊符号夹杂在一起，当英文字符等非中文字符占多数的情况下，往往会干扰中文字符编码方式的识别，尤其是影响基于字符概率分布模型的字符编码识别方案的识别准确性。
技术实现思路
本专利技术实施例提供一种中文字符的编码方式的识别方法和装置，以简化识别流程，降低对内存的占用，并提高对于海量网络数据中的中文字符序列的编码方式识别效率和准确率。第一方面，本专利技术实施例提供了一种中文字符序列的编码方式的识别方法，包括: 从待识别中...

【技术保护点】
一种中文字符序列的编码方式的识别方法，其特征在于，包括：从待识别中文字符序列中获取字符序列特征，所述字符序列特征包括：字符序列的长度特征，或者字符序列的长度特征以及字符序列的异常编码点特征；根据所述字符序列特征，基于设定的中文编码识别策略，确定所述待识别中文字符序列的编码方式。

【技术特征摘要】
1.一种中文字符序列的编码方式的识别方法，其特征在于，包括: 从待识别中文字符序列中获取字符序列特征，所述字符序列特征包括:字符序列的长度特征，或者字符序列的长度特征以及字符序列的异常编码点特征；根据所述字符序列特征，基于设定的中文编码识别策略，确定所述待识别中文字符序列的编码方式。2.根据权利要求1所述的方法，其特征在于，根据所述字符序列特征，基于设定的中文编码识别策略，确定所述待识别中文字符序列的编码方式，包括下述至少一项: 如果所述待识别中文字符序列的长度不能被2整除，则确定所述待识别中文字符序列的编码方式为UTF-8编码；如果所述待识别中文字符序列的长度能被2整除，且所述待识别中文字符序列的每两个字节存在GBK异常编码点，则确定所述待识别中文字符序列的编码方式为UTF-8编码；如果所述待识别中文字符序列的长度能被2整除，且所述待识别中文字符序列的每两个字节存在GB2312异常编码点，且所述待识别中文字符序列的每两个字节不存在GBK异常编码点，则确定所述待识别中文字符序列的编码方式为GBK编码；如果所述待识别中文字符序列的长度能被2整除，且所述待识别中文字符序列的每两个字节不存在GB2312异常编码点，则确定所述待识别中文字符序列的编码方式为GB2312编码或GBK编码；如果所述待识别中文字符序列的长度能被2整除，且不能被3整除，且所述待识别中文字符序列的每两个字节存在GB2312异常编码点，且所述待识别中文字符序列的每两个字节不存在GBK异常编码点，则确定所述待识别中文字符序列的编码方式为GBK编码；如果所述待识别中文字符序列的长度能被2整除，且不能被3整除，且所述待识别中文字符序列的每两个字节不存在GB2312异常编码点，则确定所述待识别中文字符序列的编码方式为GB2312编码或GBK编码；如果所述待识别中文字符序列的长度能被6整除，且所述待识别中文字符序列的每三个字节不存在UTF-8异常编码点，则确定所述待识别中文字符序列的编码方式为UTF-8编码；如果所述待识别中文字符序列的长度能被6整除，且所述待识别中文字符序列的每三个字节存在UTF-8异常编码点，则确定所述待识别中文字符序列的编码方式为GB2312编码或GBK编码。3.根据权利要求1所述的方法，其特征在于，在从待识别中文字符序列中获取字符序列特征之前，还包括: 从待识别字符序列中获取待识别中文字符序列。4.根据权利要求3所述的方法，其特征在于，从待识别字符序列中获取待识别中文字符序列，包括: 将所述待识别字符序列的每个字节分别进行十六进制转化；对于各字节，如果该字节对应的十六进制值大于0X7F，则保留该字节，否则，将该字节从所述待识别字符序列中删除，将剩余的字符序列作为所述待识别中文序列。5.根据权利要求1-4任一所述的方法，其特征在于，在根据所述字符序列特征，基于设定的中文编码识别策略，确定所述待识别中文字符序列的编码方式之后，还包括: 根据确定的所述编码方式对应的解码方式对所述待识别中文字符序列进行解码。6.一种中文字符序列的编码方式的识别装置，其特征在于，包括: 字符序列特征获取模块，用于从待识别中文字符序列中获取字符序列...

【专利技术属性】
技术研发人员：许敬缓，
申请(专利权)人：北京锐安科技有限公司，
类型：发明
国别省市：北京;11

全部详细技术资料下载我是这个专利的主人