Python中的open和codecs.open-白红宇

Python中的open和codecs.open

阅读量：4518 次

发布时间：2019-06-08

本文共 406 字，大约阅读时间需要 1 分钟。

最近老被编码困扰，多次折腾之后，感觉python的编解码做得挺好的，只要了解下边的流程，一般都能解决

input文件(gbk, utf-8...) ----decode-----> unicode -------encode------> output文件(gbk, utf-8...)

很多文本挖掘的package是在unicode上边做事的，比如nltk. 所以开始读入文件后要decode为unicode格式，可以通过下边两步：

f=open('XXXXX', 'r')content=f.read().decode('utf-8')

更好的方法是使用codecs.open读入时直接解码：

f=codecs.open(XXX, encoding='utf-8')content=f.read()

转自:

转载于:https://www.cnblogs.com/Akkuman/p/6959243.html

你可能感兴趣的文章

python3 爬取百合网的女人们和男人们

查看>>

kubernetes源码阅读笔记——Kubelet（之三）

查看>>

如何利用jQuery post传递含特殊字符的数据

查看>>

中国剩余定理

查看>>

Codeforces 543.B Destroying Roads

查看>>

noip模拟赛寻宝之后

查看>>

洛谷P1461 海明码 Hamming Codes

opencv源代码之中的一个：cvboost.cpp

查看>>

Android通过泛型简化findViewById类型转换

查看>>

swift

查看>>

eclipse maven 插件的安装和配置