python 编码问题 u'汉字'

2017-09-21

python内部使用的是unicode编码,

1、要让python知道文件中使用的是什么编码形式,只需在代码文件的最前端添加如下:
# -*- coding: utf-8 -*-
python就会依照utf-8的编码形式解读其中的字符,然后转换成unicode编码内部处理使用。

2、另一种方法是保持源码文件的utf-8不变,而是在’哈’前面加个u字,也就是:
s1=u’哈’
print s1

3、这里的这个u表示将后面跟的字符串以unicode格式存储。python会根据代码第一行标称的utf-8编码识别代码中的汉字’哈’,然后转换成unicode对象。如果我们用type查看一下’哈’的数据类型type(‘哈’),会得到,而type(u’哈’),则会得到,也就是在字符前面加u就表明这是一个unicode对象,这个字会以unicode格式存在于内存中,而如果不加u,表明这仅仅是一个使用某种编码的字符串,编码格式取决于python对源码文件编码的识别,这里就是utf-8。

4、s1=unicode(‘哈’, ‘utf-8′)
print s1
用decode函数也可以将一个普通字符串转换为unicode对象。很多人都搞不明白python字符串的decode和encode函数都是什么意思。这里简要说明一下。
decode是将普通字符串按照参数中的编码格式进行解析,然后生成对应的unicode对象,比如在这里我们代码用的是utf-8,那么把一个字符串转换为unicode就是如下形式:
s2=’哈’.decode(‘utf-8′)

这时,s2就是一个存储了’哈’字的unicode对象,其实就和unicode(‘哈’, ‘utf-8′)以及u’哈’是相同的。
那么encode正好就是相反的功能,是将一个unicode对象转换为参数中编码格式的普通字符,比如下面代码:
s3=unicode(‘哈’, ‘utf-8′).encode(‘utf-8′)
s3现在又变回了utf-8的’哈’。

分类:Linux | 标签: |

相关日志

评论被关闭!