首页 首页 大数据 查看内容

深入解析字符集和字符编码

木马童年 2019-3-16 11:25 25 0

字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。计算机要准确的处理各种字符集文字,需要进行编码,以便计算机能够识别和存储各种字符。 0x01 字符集 字符集(Character set) ...

字符(Character)是各种文字和符号的总称,包括各国家文字、标点符号、图形符号、数字等。计算机要准确的处理各种字符集文字,需要进行编码,以便计算机能够识别和存储各种字符。

0x01 字符集

字符集(Character set)是多个字符的集合,字符集种类较多,每个字符集包含的字符个数不同,常见字符集名称:ASCII字符集、GB2312字符集、BIG5字符集、 GB18030字符集、Unicode字符集等。

字符集从表示字符使用字节的数目来区分,可以分为单字节字符集和多字节字符集。

单字节字符集

顾名思义,单字节字符集是使用一个字节表示字符的字符集。常见的包括Latin(又称ISO8859)系列字符集(如Latin1、ISO8859P1等)、ASCII等。

由于只有一个字节,单字节字符集最多只能表示256个字符。

多字节字符集

多字节字符集使用一个或多个字节表示一个字符。

支持中文的字符集

支持中文的字符集包括国标系列字符集(GB2312、GBK、GB18030)和Unicode。

Latin系列字符集的编码范围是00-FF,因此无论是单字节表示的字符还是多字节表示的字符,均可以存储任意字符包括中文。

0x02 字符编码

相同的字符,在不同的字符集下可能有不同的编码。比如“中文”这两个字符,在GBK字符集的编码为d6,d0,ce,c4,在Unicode字符集中使用UTF8编码为e4,b8,ad,e6,96,87。相同的字符可能有不同的编码,在字符集不同的操作环境中交换数据可能会发生编码转换,如果转换失败就会出现乱码。

编码转换

编码转换在操作环境字符集不同的情况下发生。操作环境为操作系统为中文版Windows,默认的字符集为GBK,而在操作系统为Linux,则使用的字符集为UTF8,在这两者之间进行数据交换时,就可能发生字符编码转换。

比如我们在Windows平台(使用默认的环境变量)下启动SQL*PLUS从远程字符集为UTF8的Oracle数据库中查询含有中文的数据时,会发生UTF8字符编码向GBK字符集的编码转换。这个转换过程在下一章节会详细讨论。

乱码

字符编码如果转换不成功,就会产生乱码。在编码转换中我们提到,字符从UTF8转换为GBK,由于UTF8和GBK均存在相应的中文字符编码,这时候转换是成功的,不会产生乱码,如“中文”两个字符,从“e4,b8,ad,e6,96,87”转换为“d6,d0,ce,c4”编码。但如果从GBK往Latin1转换或者Latin1往GBK进行转换时,由于两种字符集不兼容,转换就会出现乱码。

通常来说,无法转换的字符会变为目标字符集中的疑问字符,在ASCII下是3f,GBK下是a3,bf,在ISO8859P1下是bf。

另外,值得一提的是,如果是通过JDBC驱动获取数据,如果字符无法转换为UTF16(Java内部使用的字符编码),字符可能会变成null值。

0x03 Oracle中的字符编码转换

本章节以Oracle数据库为例详细解释在使用SQL*PLUS时,Oracle如何处理字符编码的转换。

操作模型

深入解析字符集和字符编码

操作模型如上图所示,客户端环境包括操作系统OS、应用环境AppEnv、客户端工具SQL*PLUS和数据库驱动(OCI Driver)以及环境变量NLS_LANG。服务端环境包括操作系统OS,Oracle数据库。

举个例子,我们在中文版Windows中,通过CMD打开SQL*PLUS,连接到操作系统为CentOS 6.5,字符集为GBK的数据库。这时候操作模型的各种要素,客户端为:OS=Windows(字符集为GBK),AppEnv=CMD(默认CodePage=936,可通过chcp修改),NLS_http://attachbak.dataguru.cn/attachments/portal/201710/15/143025pxr5bxgx6xrcby08.png" />

深入解析字符集和字符编码

如下图所示:

深入解析字符集和字符编码

深入解析字符集和字符编码

#3:客户端为Win7/CP=936;服务端为WE8ISO885P1数据库;NLS_http://attachbak.dataguru.cn/attachments/portal/201710/15/143026xlpth8cyxptgaugb.png" />

由于环境变量字符集与数据库服务器字符集不一致,这时候会发生编码转换,从GBK转换为ISO8859P1,由于字符集不兼容,字符转换失败,中文字符会变为bf。

深入解析字符集和字符编码

在GBK字符集中,"bf,bf"为合法的字符编码,也就是中文字符“靠”的编码,这就是有时候我们看到一堆的“靠”字的原因所在。

0x04 结语

字符或其他信息的编码是计算机最基本的知识,因为只有经过编码之后的信息才能存储在计算机中,掌握好这些基础知识才能更好的理解其他更高级的内容。

欢迎加入本站公开兴趣群

软件开发技术群

兴趣范围包括:Java,C/C++,Python,PHP,Ruby,shell等各种语言开发经验交流,各种框架使用,外包项目机会,学习、培训、跳槽等交流

QQ群:26931708

在不久的将来,多智时代一定会彻底走入我们的生活,有兴趣入行未来前沿产业的朋友,可以收藏多智时代,及时获取人工智能、大数据、云计算和物联网的前沿资讯和基础知识,让我们一起携手,引领人工智能的未来!

计算机 操作系统 数据交换 数据库
0
为您推荐
大数据技术改变城市的运作方式,智慧城市呼之欲出

大数据技术改变城市的运作方式,智慧城市呼

纽奥良虽像大多数城市一样有火灾侦测器安装计划,但直到最近还是要由市民主动申装。纽…...

大数据分析面临生死边缘,未来之路怎么走?

大数据分析面临生死边缘,未来之路怎么走?

大数据分析开始朝着营销落地,尤其像数果智能这类服务于企业的大数据分析供应商,不仅…...

什么是工业大数据,要通过3B和3C来理解?

什么是工业大数据,要通过3B和3C来理解?

核心提示:工业视角的转变如果说前三次工业革命分别从机械化、规模化、标准化、和自动…...

大数据普及为什么说肥了芯片厂商?

大数据普及为什么说肥了芯片厂商?

科技界默默无闻的存在,芯片行业年规模增长到了3520亿美元。半导体给无人驾驶汽车带来…...

大数据技术有哪些,为什么说云计算能力是大数据的根本!

大数据技术有哪些,为什么说云计算能力是大

历史规律告诉我们,任何一次大型技术革命,早期人们总是高估它的影响,会有一轮一轮的…...

个人征信牌照推迟落地,大数据 重新定义个人信用!!

个人征信牌照推迟落地,大数据 重新定义个

为金融学的基础正日益坚实。通过互联网大数据精准记录海量个人行为,进而形成分析结论…...