关于python读写文件那点事

2月 24

读写文件前，我们先必须了解一下IO编程，因为读写文件是最常见的IO操作。

IO编程

IO在计算机中指Input/Output，也就是输入和输出。由于程序运行时数据是在内存中驻留，由CPU这个超快的计算核心来执行，涉及到数据交换的地方，通常是磁盘、网络等，就需要IO接口。

IO编程中，Stream（流）是一个很重要的概念，可以把流想象成一个水管，数据就是水管里的水，但是只能单向流动。Input Stream就是数据从外面（磁盘、网络）流进内存，Output Stream就是数据从内存流到外面去。对于浏览网页来说，浏览器和新浪服务器之间至少需要建立两根水管，才可以既能发数据，又能收数据。

由于CPU和内存的速度远远高于外设的速度，所以，在IO编程中，就存在速度严重不匹配的问题。举个例子来说，比如要把100M的数据写入磁盘，CPU输出100M的数据只需要0.01秒，可是磁盘要接收这100M数据可能需要10秒，怎么办呢？有两种办法：

CPU等着，也就是程序暂停执行后续代码，等100M的数据在10秒后写入磁盘，再接着往下执行，这种模式称为同步IO。
CPU不等待，只是告诉磁盘，“您老慢慢写，不着急，我接着干别的事去了”，于是，后续代码可以立刻接着执行，这种模式称为异步IO。

同步和异步的区别就在于是否等待IO执行的结果。如果遇到面试就可以这么回答。一个形象的比喻好比你去麦当劳点餐，你说“来个汉堡”，服务员告诉你，对不起，汉堡要现做，需要等5分钟，于是你站在收银台前面等了5分钟，拿到汉堡再去逛商场，这是同步IO。

你说“来个汉堡”，服务员告诉你，汉堡需要等5分钟，你可以先去逛商场，等做好了，我们再通知你，这样你可以立刻去干别的事情（逛商场），这是异步IO。

操作IO的能力都是由操作系统提供的，每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用，Python也不例外。

文件读写

小团子千人成像核心就涉及到文件的读写，读写文件是最常见的IO操作。Python内置了读写文件的函数，用法和C是兼容的。

在磁盘上读写文件的功能都是由操作系统提供的，现代操作系统不允许普通的程序直接操作磁盘，其实读写文件就是请求操作系统打开一个文件对象（称为文件描述符），然后，通过操作系统提供的接口从这个文件对象中读取数据（读文件），或者把数据写入这个文件对象（写文件）。

读文件

1.读取普通文件

要以读文件的模式打开一个文件对象，使用Python内置的open()函数，传入文件名和标示符：

f = open('/Users/python/test.txt', 'r')

注：标示符’r’表示读，这样，我们就成功地打开了一个文件。

如果文件不存在，open()函数就会抛出一个IOError的错误，并给出错误提示FileNotFoundError，告诉你文件不存在。

确保文件存在，调用read()方法可以一次读取文件的全部内容，Python把内容读到内存，用一个str对象表示，如：

我们也可以用pycharm（跟Android Studio类似界面，属于一个团队开发的集成环境）读取自己。

文件使用完毕后必须关闭，因为文件对象会占用操作系统的资源，并且操作系统同一时间能打开的文件数量也是有限的，调用close()方法关闭文件。

f.close()

由于文件读写时都有可能产生IOError，一旦出错，后面的f.close()就不会调用。所以，为了保证无论是否出错都能正确地关闭文件，我们可以使用try ... finally来实现：

try:
    f = open('/path/to/file', 'r')
    print(f.read())
finally:
    if f:
        f.close()

但是每次都这么写实在太繁琐，所以，Python引入了with语句来自动帮我们调用close()方法：

with open('/path/to/file', 'r') as f:
    print(f.read())

这和前面的try ... finally是一样的，代码更佳简洁，并且不必调用f.close()方法。

如果文件很小，read()一次性读取最方便；如果不能确定文件大小，反复调用read(size)比较保险；如果是配置文件，调用readlines()最方便：

for line in f.readlines():
    print(line.strip())  # 把末尾的'\n'删掉

2.二进制文件读取

前面讲的默认都是读取文本文件，并且是UTF-8编码的文本文件。要读取二进制文件，比如图片、视频等等，用'rb'模式打开文件即可：

f = open('/Users/python/test.mp4', 'rb')
f.read()
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节

读取文件时可以指定读取文件的编码和接收一个读取非法编码错误error参数

>>> f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
>>> f.read()
'测试'

使用with读取文件注意点

这里讲一个操作文件IO错误的列子，以下这段代码导致压缩包内的图片不完整，重新解压后发现文件大小比原文件小一点点。产生的问题是图片无法打开，而原因正是文件流没有关闭导致。

for d in tableData:
    imageFile = urllib2.urlopen(d["image"])##网络中打开一个图片文件
    img_name=str(partId)+"_"+str(d["id"])+getFilePostfix(d["image"])
    img_path=rootDir+img_name##路径
    with open(img_path, "wb") as f
        f.write(imageFile.read())
        zf.write(img_path, img_name)
zf.close()

上面这样写是没有关闭流的，因为代码zf.write(img_path, img_name)还在with语句块里！！！！

而只有with语句结束，流才会关闭，java中的try是一样的道理。

//Java定义在try的流会自己关闭
try (FileOutputStream fis=new FileOutputStream(new File("/users/qy/test.py"));
     FileInputStream fos=new FileInputStream(new File("/users/qy/test.py"))){
     fis.write("superdata".getBytes());
     fos.read();//这里不一定能读取到“superdata”内容，因为此时fis还没关闭也没有flush。
} catch (Exception e) {
     e.printStackTrace();
}

正确的写法：

for d in tableData:
    imageFile = urllib2.urlopen(d["image"])
    img_name=str(partId)+"_"+str(d["id"])+getFilePostfix(d["image"])
    img_path=rootDir+img_name
    with open(img_path, "wb") as f
        f.write(imageFile.read())
    zf.write(img_path, img_name)
zf.close()

写文件

写文件和读文件是一样的，唯一区别是调用open()函数时，传入标识符'w'或者'wb'表示写文本文件或写二进制文件：

f = open('sunst_writedata.py', 'w', encoding='gbk', errors='ignore')
print(f.write('xiaotaunziwoaini'))
f.close()

运行结果

打印16表示我们写入‘xiaotuanziwoaini’16个字节的文件，那么在哪儿呢？就在我们的当前目录下面文件里面，你可以检查一下。

你可以反复调用write()来写入文件，但是务必要调用f.close()来关闭文件。当我们写文件时，操作系统往往不会立刻把数据写入磁盘，而是放到内存缓存起来，空闲的时候再慢慢写入。只有调用close()方法时，操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘，剩下的丢失了，这也是造成上面我们压缩包内的图片不完整，比原来的图片小的原因。所以，还是用with语句来得保险：

with open('/Users/sunst/test.txt', 'w') as f:
    f.write('xiaotuanziwoaini')

同样要写入特定编码的文本文件，请给open()函数传入encoding参数，将字符串自动转换成指定编码。

细心的童鞋会发现，以'w'模式写入文件时，如果文件已存在，会直接覆盖（相当于删掉后新写入一个文件）。如果我们希望追加到文件末尾怎么办？可以传入'a'以追加（append）模式写入。

所有模式的定义及含义可以参考Python的官方文档。

最后

以上便是【关于python读写文件那点事】的全部内容。通过本文你了解并学习了

IO编程概念
文件读写实际操作
with读取文件注意点

之前的一文中介绍了【Windows下Python Tensorflow安装，使用教程】，遗留了一个‘关于mac环境tensorflow的安装，使用，会在后面结合人脸识别或手写数字识别继续’的内容，手写数字我们已经学会了初级内容，所以，下一篇文章准备回过头来完成Mac环境下tensorflow的相关内容，大致会包含mac下tensorflow的安装和更新，人脸识别。

python, 关于, 文件, 读写

一	二	三	四	五	六	日
« 12月
		1	2	3	4	5
6	7	8	9	10	11	12
13	14	15	16	17	18	19
20	21	22	23	24	25	26
27	28	29	30	31

博客水木