视频1 视频21 视频41 视频61 视频文章1 视频文章21 视频文章41 视频文章61 推荐1 推荐3 推荐5 推荐7 推荐9 推荐11 推荐13 推荐15 推荐17 推荐19 推荐21 推荐23 推荐25 推荐27 推荐29 推荐31 推荐33 推荐35 推荐37 推荐39 推荐41 推荐43 推荐45 推荐47 推荐49 关键词1 关键词101 关键词201 关键词301 关键词401 关键词501 关键词601 关键词701 关键词801 关键词901 关键词1001 关键词1101 关键词1201 关键词1301 关键词1401 关键词1501 关键词1601 关键词1701 关键词1801 关键词1901 视频扩展1 视频扩展6 视频扩展11 视频扩展16 文章1 文章201 文章401 文章601 文章801 文章1001 资讯1 资讯501 资讯1001 资讯1501 标签1 标签501 标签1001 关键词1 关键词501 关键词1001 关键词1501 专题2001
python字符编码文件方法介绍
2020-11-27 14:15:15 责编:小采
文档
 字符编码发展

ASCII 255 只支持英文字母和数字,特殊字符 1bytes

Unicode 中文和英文 统一2bytes

utf-8 中文>3bytes 英文>1bytes

bytes类型

文本数据总是unicode由str类型表示,二进制数据则由bytes类型表示

二进制数据用在视频,音频文件以及发送socket网络传输数据等

字符串转成二进制 str.encode("encoding=utf-8")

二进制转成字符串 b'\xe2\x82'.decode("encoding=utf-8")

文件句柄 就是 文件对象的内存地址

字符编码和转码

ASCII码表中不能存中文,windows默认的系统字符编码是GBK.

Unicode 字符编码能存储世界上所有的字符,但所有字符都占用了两个字节,原来一个2M

的英文文件使用Unicode后需要占用4M的存储空间

utf-8字符串转换成gbk字符

任何两种编码的字符串进行转换都必须通过先转成Unicode编码来实现

Unicode(统一码、万国码、单一码)是一种在计算机上使用的字符编码。Unicode 是为了解决传统的字符编码方案的局限而产生的,它为每种语言中的每个字符设定了统一并且唯一的二进制编码.

乱码的出现基本上就两种情况:

1、字符编码没有

2、字符编码冲突了,人家在写这个程序的时候指定的字符集和咱们使用的字符集的位置不对

在2.x版本的Python中Pyton在解释.py文件的时候,默认是给他一个编码的就是ASCII码

Python3中默认就是Unicode编码

因为在python2.X中默认是ASCII编码,你在文件中指定编码为UTF-8,但是UTF-8如果你想转GBK的话是不能直接转的,的需要Unicode做一个转接站点。

str ="你好" //这个字符串采用utf-8编码

new_str=str.decode('utf-8') //把str原来的编码格式传递到decode函数转码成Unicode编码

ret = new_str.encode('GBK') //把unicode编码转换成GBK编码字符串

str= u"你好" 在字符串前面加个u字母表示此字符串设置成Unicode编码

编码

python解释器在加载 .py 文件中的代码时,会对内容进行编码(默认ascill)所以如果不指定编码类型,

如果有中文就会报错。

Python的工作过程

python 把代码读到内存 2、词法语法分析 3、放到编译器 ---》 生成字节码 4、执行字节码 ---》生成机器码 CPU执行

变量

字符串的值是不能被修改的,他在内存里是连续的,如果想改的话必须在后面预留所以不支持修改!
字符串特性,一旦修改,重新创建

下载本文
显示全文
专题