他盯着覆盖了龙眼的那层坚硬的瞬膜,想到那对在黑暗里缓缓睁开的黄金瞳,仿佛世界之门在他的眼前开启。
编码简介
ASCII
字母A是65,c是99,~是126等等, ASCII码就这样诞生了。原始的ASCII标准定义了从0到127 的字符,这样正好能用127个字节表示。
ISO-8859
ISO-8859-1收录的字符除ASCII收录的字符外,还包括西欧语言、希腊语、泰语、阿拉伯语、希伯来语对应的文字符号。
GB2312
为了满足中文,中国人定制了GB2312,兼容ASCII
GBK
为了满足了更多的中文,GBK诞生,GBK:2Bytes代表一个字符;为了满足其他国家,各个国家纷纷定制了自己的编码。日本把日文编到Shift_JIS里,韩国把韩文编到Euc-kr里,兼容ASCII,gb2312
GB18030
为了再满足少数民族的文字,GB18030编码覆盖中、日、朝鲜、少数民族文字,采用单字节、双字节、四字节三种字符编码,维文即使中过少数名字文字又是四字节编码,gb18030没理由不支持转码,经测试发现假设正确。
cp936
微软的CP936通常被视为等同GBK,连 IANA 也以“CP936”为“GBK”之别名。事实上比较起来, GBK 定义之字符较 CP936 多出95字(15个非汉字及80个汉字)。
万国码Unicode
有人开始觉得太多编码导致世界变得过于复杂了,让人脑袋疼,于是大家坐在一起拍脑袋想出来一个方法:所有语言的字符都用同一种字符集来表示,这就是Unicode。
Unicode统一用2Bytes代表一个字符,2的16次方-1=65535,可代表6万多个字符,因而兼容万国语言.
UTF-8
Unicode编码对于通篇都是英文的文本来说,这种编码方式无疑是多了一倍的存储空间(英文字母只需要一个字节就足够,用两个字节来表示,无疑是浪费空间)。于是产生了UTF-8:
UTF-8:对英文字符只用1Bytes表示,对中文字符用3Bytes
在UTF-8中,0-127号的字符用1个字节来表示,使用和US-ASCII相同的编码。这意味着1980年代写的文档用UTF-8打开一点问题都没有。只有128号及以上的字符才用2个,3个或者4个字节来表示。因此,UTF-8被称作可变长度编码。
总结
unicode:简单粗暴,所有字符都是2Bytes,优点是字符----->数字的转换速度快,缺点是占用空间大。
utf-8:精准,对不同的字符用不同的长度表示,优点是节省空间,缺点是:字符->数字的转换速度慢,因为每次都需要计算出字符需要多长的Bytes才能够准确表示。
因此,内存中使用的编码是unicode,用空间换时间(程序都需要加载到内存才能运行,因而内存应该是尽可能的保证快);硬盘中或者网络传输用utf-8,网络I/O延迟或磁盘I/O延迟要远大与utf-8的转换延迟,而且I/O应该是尽可能地节省带宽,保证数据传输的稳定性。而把数据存放到硬盘,或者网络传输,都需要把unicode转成utf-8,因为数据的传输,追求的是稳定,高效,数据量越小数据传输就越靠谱,于是都转成utf-8格式的,而不是unicode。
终端编码
windows下终端指的是CMD控制台,在控制台上输入输出有着其本身的编码格式,如windows控制台输入输出编码都为cp936。
在Linux下是utf-8。
为啥要了解终端编码?
因为你的python程序最终会在CMD下输出运行打印的结果,比如:CMD python xxx.py
在终端执行python脚本时,经常会遇到输出中文乱码,而这往往是因为输出的字符串本身编码与控制台编码不一致。
Python中编码问题
上面说到内存中使用的编码是unicode,在Python2或者3中运行程序的时候内存中的文字编码都是Unicode。
但是运行中的编码是一回事,文件保存的编码又是一回事。上面提起,存储文本数据的时候如果使用Unicode编码会占用大量的内存,如果存储的时候把文本数据转换成utf-8编码格式来保存,然后取出放到内存的时候编码成Unicode岂不美滋滋?
的确是这么做的,你在win下保存txt文本的时候,在保存为下面有个选择框,让你选择存储编码。在python2中也是这样的,保存python2文件需要在开头加上一行
# condig:utf-8
这就是申明这个文件保存的编码格式为utf-8,如果不加上这一行的话,你在程序中运行中文就会出错,但是python3解决了这个问题。python3中默认的文件编码格式就是utf-8,所以不用加上这一行。
主要说一下decode和encode这两个方法,decode(‘gbk’)的意思就是把gbk编码的字符串转换成unicode编码的字符串,也就是个人理解的编码(世人皆认为这是解码),encode(‘utf-8’)的意思就是把unicode编码的字符串转换成utf-8编码,也就是个人理解的解码(世人皆认为这是编码),不过不打紧,你只需要明白他们的作用即可。
并且py中的数据字符串类型都有两种,下面对py字符串编码做下详细区分
python2
在python2中有两种字符串类型str和unicode,在python2里,str其实就是bytes
代码演示str
C:\Users\Administrator\Desktop>python
Python 2.7.14 (v2.7.14:84471935ed, Sep 16 2017, 20:25:58) [MSC v.1500 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> s = '你好'
>>> s
'\xc4\xe3\xba\xc3'
>>> print s
你好
直接调用变量s,看到的却是一个个的16进制表示的二进制字节,其实就是bytes类型,即字节类型, 它把8个二进制一组称为一个byte,用16进制来表示。
代码演示unicode
>>> s = u'你好'
>>> s
u'\u4f60\u597d'
>>> print s
你好
Unicode编码是一个反斜杠加上一个字母4,然后拼接4个字符。前面说到内存中使用的编码是unicode,如何让所有输入的字符串都变成Unicode编码呢?同样是上文提到的decode方法。
代码演示编码转换
>>> s = '你好'
>>> s
'\xc4\xe3\xba\xc3'
# 这里编码是str
>>> s.decode('utf-8')
# 尝试把s的内容以utf-8编码格式转出Unicode
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
File "F:\Python27\lib\encodings\utf_8.py", line 16, in decode
return codecs.utf_8_decode(input, errors, True)
UnicodeDecodeError: 'utf8' codec can't decode byte 0xc4 in position 0: invalid continuation byte
>>> s.decode('gbk')
# 尝试把s的内容以gbk编码格式转出Unicode
u'\u4f60\u597d'
>>> s.decode()
# 尝试把s的内容以默认ascii编码格式转出Unicode
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
UnicodeDecodeError: 'ascii' codec can't decode byte 0xc4 in position 0: ordinal not in range(128)
>>> s.decode('gb2312')
# 尝试把s的内容以gb2312编码格式转出Unicode
u'\u4f60\u597d'
只要是Unicode编码格式的字符串,打印出来都可以正常显示。
其他技巧
我们知道,python的字符串在内存中是unicode编码,存储的时候是utf-8编码保存。
在将unicode存储到文本的过程中,还有一种存储方式,不需要将unicode转换为实际的文本存储字符集,而是将unicode的内存编码值进行存储,读取文件的时候再反向转换回来,是采用:unicode-escape的转换方式。
将unicode编码的内容转化为中文(注意是内容,而不是字符串变量)
a="\\u8fdd\\u6cd5\\u8fdd\u89c4" #变量a的内容为unicode编码,变量a为string编码(""前不要加u)
b=a.decode('unicode-escape')
print b
对于utf-8编码的字符串,在存储的时候,通常是直接存储,而实际上也还有一种存储utf-8编码值的方法,即:string-escape。
将string编码的内容转化为中文(注意是内容,而不是字符串变量)
a="\\xe5\\x85\\xb3\\xe4\\xba\\x8e\\xe4" #变量a的内容为string编码,变量a为string编码(""前不要加u)
b=a.decode('string-escape')
print b
unicode-escape与utf-8的区别
>>>a="\u4e0a\u4f20\u6210\u529f"
>>>b=a.decode('utf-8')
>>>print type(b)
<type 'unicode'>
>>>b
u'\\u4e0a\\u4f20\\u6210\\u529f'
>>>print b
\u4e0a\u4f20\u6210\u529f
当对变量a做decode(‘utf-8’)时,除了对把变量a的类型从str变成了unicode,a变量的内容也做了utf-8解码,所以多了一些斜杠。
>>>a="\u4e0a\u4f20\u6210\u529f"
>>>c=a.decode("unicode-escape")
>>>print type(c)
<type 'unicode'>
>>>c
u'\u4e0a\u4f20\u6210\u529f'
>>>print c
上传成功
而对变量a做decode(‘unicode-escape’)时,貌似只有变量本身被decode成unicode了,其内容没有发生改变。
我们知道print函数会将变量以及变量内容都encode成str,因此第二个例子能输出中文,而第一个例子输出的还是unicode类型的内容,只不过少了一些斜杠,因为它还需要再encode一次。
当然本例子的转化,有更简单的方法,如下:
>>> d=u"\u4e0a\u4f20\u6210\u529f" #定义变量d时,前面加个u,将其变成unicode
>>> print d
上传成功
列表中打印变成中文
一般来说字典或者列表中的中文字符串直接打印出来的话,会是unicode或者别的编码格式,使用如下方法解决
#coding:utf-8
d = {'user':'浪子',
'password':'123456'}
print d
>>>{'password': '123456', 'user': '\xe6\xb5\xaa\xe5\xad\x90'}
dd = ['中文','123456']
print str(dd)
>>>['\xe4\xb8\xad\xe6\x96\x87', '123456']
这个dd列表中的中文是字符串编码,如果想打印的时候直接打印原始中文,可以这么做
print str(dd).decode("string-escape")#
如果dd列表中的中文是unicode编码,就是在前面加了一个字母u。
dd = [u'中文','123456']
print str(dd).decode("unicode-escape")
>>>['中文', '123456']
这样打印出来的就是中文
注意:
str表示字符的原始8位值,unicode表示Unicode字符。
在python2中,如果str只包含7位ASCII字符(英文字符),那么unicode与str实例类似于同一种类型(等价的),那么在这种情况下,以下几种操作是正常的:
- 可以用+号连接str与unicode
- 可以用=与!=来判断str与unicode
- 可以用’%s’来表示Unicode实例
python3
python3把字符串变成了unicode,文件默认编码变成了utf-8,这意味着,只要用python3,无论你的程序是以哪种编码开发的,都可以在全球各国电脑上正常显示
在python3中有两种字符串类型str和bytes,并且对str 和bytes 做了明确区分, str 就是unicode格式的字符, bytes就是单纯二进制
代码演示str
C:\Users\Administrator\Desktop>python3
Python 3.6.3 (v3.6.3:2c5fed8, Oct 3 2017, 18:11:49) [MSC v.1900 64 bit (AMD64)] on win32
Type "help", "copyright", "credits" or "license" for more information.
>>> s = '你好'
>>> s
'你好'
>>> print(s)
你好
>>> type(s)
<class 'str'>
>>> s.decode('gbk')
Traceback (most recent call last):
File "<stdin>", line 1, in <module>
AttributeError: 'str' object has no attribute 'decode'
>>> s.encode('gbk')
b'\xc4\xe3\xba\xc3'
>>> s = u'你好'
>>> s
'你好'
>>> print(s)
你好
>>> type(s)
<class 'str'>
代码演示bytes
>>> s = '你好'
>>> s.encode('utf-8')
b'\xe4\xbd\xa0\xe5\xa5\xbd'
>>> s.encode('gbk')
b'\xc4\xe3\xba\xc3'
>>> print(type(s.encode('gbk')))
<class 'bytes'>
注意:
bytes表示字符的原始8位值,str表示Unicode字符。将unicode字符表示为二进制数据(原始8位值),最常见的编码方式就是UTF-8。python2与3中的unicode字符没有和特定的二进制编码相关联,因此需要使用encode方法。
在python3中bytes与str是绝对不会等价的,即使字符内容为””,因此在传入字符序列时必须注意其类型。
'''
对于bytes编码的数据来说
只有decode方法
就是把bytes编码的数据转换成utf-8编码
对于utf-8编码的数据来说
只有encode方法
就是把utf-8编码的数据转换成bytes编码
'''
a = '浪子'
print(a.encode())
# 默认是编码成bytes
print(a.encode('gbk'))
# 将utf-8编码格式转换成gbk编码格式
print(a.encode().decode('utf-8'))
print(a.encode('gbk').decode('gbk'))
# 相同编码格式必须要用相同编码才能解码
打印乱码常规解决办法
如果不想在打印输出的时候每个都加上decode的话,这两个方法可以帮到你
在开头加上这三行代码(仅Python2)
import sys
reload(sys)
sys.setdefaultencoding(‘utf-8’)在开头加上这两行代码
import sys,io
sys.stdout = io.TextIOWrapper(sys.stdout.buffer,encoding=’gb18030’) #改变标准输出的默认编码
Chardet库
chardet是Python社区提供了一个类库包,方便我们在代码中动态检测当前页面或者文件中的编码格式信息。
import chardet
f = open('file','r')
fencoding=chardet.detect(f.read())
print fencoding
fencoding输出格式 {'confidence': 0.96630842899499614, 'encoding': 'GB2312'}
只能判断是否为某种编码的概率。比较准确的结果了。输入参数为str类型。
一个实例,判断网页编码:
url = 'https://stackoverflow.com'
d1 = requests.get(url)
print d1.content
if isinstance(d1.content,unicode):
pass
else:
codesty = chardet.detect(d1.content)
a = d1.content.decode(codesty['encoding'])
常见编码错误的原因有:
- Python解释器的默认编码
- Python源文件文件编码
- Terminal使用的编码
- 操作系统的语言设置
文件读写
中文iso8859-1编码转utf8编码
在项目中使用wget 进行ftp下载文件时,由于ftp下载默认的是ascii模式,下载的文件编码是iso8859-1。
在python3中直接使用open函数的话,需要设置编码,不然会报错。
open("08M0063639_20170710.txt","r",encoding='iso8859-1')
这样做,假如文本是数字或者字母的时候,没有什么影响。但文本是中文的时候,获取的数据是iso8859-1编码的,进行数据操作时会出现乱码。
所以要将数据转化为utf8编码
uft_str = str.encode("iso-8859-1").decode('gbk').encode('utf8')
先将文本转化成gbk编码,然后在从gbk编码变成utf8编码。
原理:
utf8编码的文本可以用iso8859-1的编码表示,但是反过来不行。iso8859-1是单字节编码,而utf8是定长编码,从utf8转化成iso8859-1相当于是高精度转化成低精度,造成精度丢失,所以不可逆。根本原因是因为utf8中文,在iso8859-1没有匹配的位置。
而gbk是不定长编码,英文数字的字符编码规则跟iso8859-1是一样的,所以gbk是兼容iso8859-1编码的,这两者可以相互转换。