python 编码问题 u'汉字'

2017-09-21

python内部使用的是unicode编码，

1、要让python知道文件中使用的是什么编码形式，只需在代码文件的最前端添加如下：
# -*- coding: utf-8 -*-
python就会依照utf-8的编码形式解读其中的字符，然后转换成unicode编码内部处理使用。

2、另一种方法是保持源码文件的utf-8不变，而是在’哈’前面加个u字，也就是:
s1=u’哈’
print s1

3、这里的这个u表示将后面跟的字符串以unicode格式存储。python会根据代码第一行标称的utf-8编码识别代码中的汉字’哈’，然后转换成unicode对象。如果我们用type查看一下’哈’的数据类型type(‘哈’)，会得到，而type(u’哈’)，则会得到，也就是在字符前面加u就表明这是一个unicode对象，这个字会以unicode格式存在于内存中，而如果不加u，表明这仅仅是一个使用某种编码的字符串，编码格式取决于python对源码文件编码的识别，这里就是utf-8。

4、s1=unicode(‘哈’, ‘utf-8′)
print s1
用decode函数也可以将一个普通字符串转换为unicode对象。很多人都搞不明白python字符串的decode和encode函数都是什么意思。这里简要说明一下。
decode是将普通字符串按照参数中的编码格式进行解析，然后生成对应的unicode对象，比如在这里我们代码用的是utf-8，那么把一个字符串转换为unicode就是如下形式：
s2=’哈’.decode(‘utf-8′)

这时，s2就是一个存储了’哈’字的unicode对象，其实就和unicode(‘哈’, ‘utf-8′)以及u’哈’是相同的。
那么encode正好就是相反的功能，是将一个unicode对象转换为参数中编码格式的普通字符，比如下面代码：
s3=unicode(‘哈’, ‘utf-8′).encode(‘utf-8′)
s3现在又变回了utf-8的’哈’。

分类：Linux | 标签： |

等闲之辈莫等闲

点滴知识就能获得长久的应用。

python 编码问题 u'汉字'

相关日志