Python 3中的编码

发布时间：2023-04-08 13:56:06 所属栏目：教程来源：

导读：Python 3中的默认编码 Python3中默认是UTF-8 可查看Python3的默认编码。 >>> import sys >>> >>> s

Python 3中的默认编码

python3中默认是UTF-8

可查看python3的默认编码。

>>> import sys
>>>
>>> sy

Python 3中的默认编码 Python3中默认是UTF-8 可查看Python3的默认编码。 >>> import sys >>> >>> s

Python 3中的默认编码

python3中默认是UTF-8

可查看python3的默认编码。

>>> import sys
>>>
>>> sys.getdefaultencoding()
'utf-8'
>>>

系统默认编码指：
在python 3编译器读取.py文件时，若没有头文件编码声明，则默认使用“utf-8”来对.py文件进行解码。并且在调用 encode()这个函数时，不传参的话默认是“ utf-8 ”。（这与下面的open( )函数中的“encoding”参数要做区分）

本地默认编码指：
在你编写的python 3程序时，若使用了 open( )函数，而不给它传入 “ encoding ” 这个参数，那么会自动使用本地 Windows 或 Linux 的默认编码。没错，如果在Windows系统中，就是默认用gbk格式！所以请大家在这里注意：linux中可以不用传“ encoding” 的参数，而win中不能忘了“ encoding” 的参数）

utf-8是可变长的的编码，有1个字节的英文字符，也有2个字节的阿拉伯文，也有3个字节的中文和日文。utf-8是有严格定义的，一个字节的字符高位必须是0；三个字节的字符中，第一个字节的高位是1110开头。

gbk对英文是使用单字节编码（也就意味着兼容ascii），而gbk对中文部分是采取定长的2字节，总体编码范围为 8140-FEFE，首字节在 81-FE 之间，尾字节在 40-FE 之间。所以说它只要没有碰到尾字节在40之内的字符，都会一股脑地按照2字节去解码成中文。而中文在 utf-8 编码后，一般是三字节的。当解码的字节数和编码的字节数不匹配时，自然会造成全是乱码的局面。

实际上unicode就是一个字符集，一个字符与数字一一对应的映射关系，因为它一律以2个字节编码（或者也有4个字节的，这里不讨论），所以占用空间会大一些，一般只用于内存中的编码使用。
而 utf-8 是为了实现unicode 的传输和存储的。因为它可变长，存英文时候可以节省大量存储空间。传输时候也节省流量。

进程在内存中的表现是“ unicode ”的编码；当python3编译器读取磁盘上的.py文件时，是默认使用“utf-8”的；当进程中出现open(), write() 这样的存储代码时，需要与磁盘进行存储交互时，则是默认使用操作系统的默认编码。

Python 3中的encode和decode

python3中字符编码经常会使用到decode和encode函数。特别是在抓取网页中，这两个函数用的熟练非常有好处。encode的作用，使我们看到的直观的字符转换成计算机内的字节形式。decode刚好相反，把字节形式的字符转换成直观的形式。

\x表示后面是十六进制

在Python 3中，以字节形式表示的字符串则必须加上前缀b，也就是写成上文的b'xxxx'形式。

UTF-8兼容ASCII

python3中的编码转换

字符以Unicode的字节形式表现出来

（编辑：汽车网）

【声明】本站内容均来自网络，其相关言论仅代表作者个人观点，不代表本站立场。若无意侵犯到您的权利，请及时与联系站长删除相关内容!