读写文件前,我们先必须了解一下IO编程,因为读写文件是最常见的IO操作。

IO编程

IO在计算机中指Input/Output,也就是输入和输出。由于程序运行时数据是在内存中驻留,由CPU这个超快的计算核心来执行,涉及到数据交换的地方,通常是磁盘、网络等,就需要IO接口。

IO编程中,Stream(流)是一个很重要的概念,可以把流想象成一个水管,数据就是水管里的水,但是只能单向流动。Input Stream就是数据从外面(磁盘、网络)流进内存,Output Stream就是数据从内存流到外面去。对于浏览网页来说,浏览器和新浪服务器之间至少需要建立两根水管,才可以既能发数据,又能收数据。

由于CPU和内存的速度远远高于外设的速度,所以,在IO编程中,就存在速度严重不匹配的问题。举个例子来说,比如要把100M的数据写入磁盘,CPU输出100M的数据只需要0.01秒,可是磁盘要接收这100M数据可能需要10秒,怎么办呢?有两种办法:

  1. CPU等着,也就是程序暂停执行后续代码,等100M的数据在10秒后写入磁盘,再接着往下执行,这种模式称为同步IO
  2. CPU不等待,只是告诉磁盘,“您老慢慢写,不着急,我接着干别的事去了”,于是,后续代码可以立刻接着执行,这种模式称为异步IO

同步和异步的区别就在于是否等待IO执行的结果。如果遇到面试就可以这么回答。一个形象的比喻好比你去麦当劳点餐,你说“来个汉堡”,服务员告诉你,对不起,汉堡要现做,需要等5分钟,于是你站在收银台前面等了5分钟,拿到汉堡再去逛商场,这是同步IO。

你说“来个汉堡”,服务员告诉你,汉堡需要等5分钟,你可以先去逛商场,等做好了,我们再通知你,这样你可以立刻去干别的事情(逛商场),这是异步IO。

操作IO的能力都是由操作系统提供的,每一种编程语言都会把操作系统提供的低级C接口封装起来方便使用,Python也不例外。

文件读写

小团子千人成像核心就涉及到文件的读写,读写文件是最常见的IO操作。Python内置了读写文件的函数,用法和C是兼容的。

在磁盘上读写文件的功能都是由操作系统提供的,现代操作系统不允许普通的程序直接操作磁盘,其实读写文件就是请求操作系统打开一个文件对象(称为文件描述符),然后,通过操作系统提供的接口从这个文件对象中读取数据(读文件),或者把数据写入这个文件对象(写文件)。

读文件

1.读取普通文件

要以读文件的模式打开一个文件对象,使用Python内置的open()函数,传入文件名和标示符:

f = open('/Users/python/test.txt', 'r')

注:标示符’r’表示读,这样,我们就成功地打开了一个文件。

如果文件不存在,open()函数就会抛出一个IOError的错误,并给出错误提示FileNotFoundError,告诉你文件不存在。

确保文件存在,调用read()方法可以一次读取文件的全部内容,Python把内容读到内存,用一个str对象表示,如:

读取本地read_data.txt内容图

我们也可以用pycharm(跟Android Studio类似界面,属于一个团队开发的集成环境)读取自己。

文件使用完毕后必须关闭,因为文件对象会占用操作系统的资源,并且操作系统同一时间能打开的文件数量也是有限的,调用close()方法关闭文件。

f.close()

由于文件读写时都有可能产生IOError,一旦出错,后面的f.close()就不会调用。所以,为了保证无论是否出错都能正确地关闭文件,我们可以使用try ... finally来实现:

try:
    f = open('/path/to/file', 'r')
    print(f.read())
finally:
    if f:
        f.close()

但是每次都这么写实在太繁琐,所以,Python引入了with语句来自动帮我们调用close()方法:

with open('/path/to/file', 'r') as f:
    print(f.read())

这和前面的try ... finally是一样的,代码更佳简洁,并且不必调用f.close()方法。

如果文件很小,read()一次性读取最方便;如果不能确定文件大小,反复调用read(size)比较保险;如果是配置文件,调用readlines()最方便:

for line in f.readlines():
    print(line.strip())  # 把末尾的'\n'删掉

2.二进制文件读取

前面讲的默认都是读取文本文件,并且是UTF-8编码的文本文件。要读取二进制文件,比如图片、视频等等,用'rb'模式打开文件即可:

f = open('/Users/python/test.mp4', 'rb')
f.read()
b'\xff\xd8\xff\xe1\x00\x18Exif\x00\x00...' # 十六进制表示的字节

读取文件时可以指定读取文件的编码和接收一个读取非法编码错误error参数

>>> f = open('/Users/michael/gbk.txt', 'r', encoding='gbk')
>>> f.read()
'测试'

使用with读取文件注意点

这里讲一个操作文件IO错误的列子,以下这段代码导致压缩包内的图片不完整,重新解压后发现文件大小比原文件小一点点。产生的问题是图片无法打开,而原因正是文件流没有关闭导致。

for d in tableData:
    imageFile = urllib2.urlopen(d["image"])##网络中打开一个图片文件
    img_name=str(partId)+"_"+str(d["id"])+getFilePostfix(d["image"])
    img_path=rootDir+img_name##路径
    with open(img_path, "wb") as f
        f.write(imageFile.read())
        zf.write(img_path, img_name)
zf.close()

上面这样写是没有关闭流的,因为代码zf.write(img_path, img_name)还在with语句块里!!!!

而只有with语句结束,流才会关闭,java中的try是一样的道理。

//Java定义在try的流会自己关闭
try (FileOutputStream fis=new FileOutputStream(new File("/users/qy/test.py"));
     FileInputStream fos=new FileInputStream(new File("/users/qy/test.py"))){
     fis.write("superdata".getBytes());
     fos.read();//这里不一定能读取到“superdata”内容,因为此时fis还没关闭也没有flush。
} catch (Exception e) {
     e.printStackTrace();
}

正确的写法:

for d in tableData:
    imageFile = urllib2.urlopen(d["image"])
    img_name=str(partId)+"_"+str(d["id"])+getFilePostfix(d["image"])
    img_path=rootDir+img_name
    with open(img_path, "wb") as f
        f.write(imageFile.read())
    zf.write(img_path, img_name)
zf.close()

写文件

写文件和读文件是一样的,唯一区别是调用open()函数时,传入标识符'w'或者'wb'表示写文本文件或写二进制文件:

f = open('sunst_writedata.py', 'w', encoding='gbk', errors='ignore')
print(f.write('xiaotaunziwoaini'))
f.close()

运行结果

16

打印16表示我们写入‘xiaotuanziwoaini’16个字节的文件,那么在哪儿呢?就在我们的当前目录下面文件里面,你可以检查一下。

你可以反复调用write()来写入文件,但是务必要调用f.close()来关闭文件。当我们写文件时,操作系统往往不会立刻把数据写入磁盘,而是放到内存缓存起来,空闲的时候再慢慢写入。只有调用close()方法时,操作系统才保证把没有写入的数据全部写入磁盘。忘记调用close()的后果是数据可能只写了一部分到磁盘,剩下的丢失了,这也是造成上面我们压缩包内的图片不完整,比原来的图片小的原因。所以,还是用with语句来得保险:

with open('/Users/sunst/test.txt', 'w') as f:
    f.write('xiaotuanziwoaini')

同样要写入特定编码的文本文件,请给open()函数传入encoding参数,将字符串自动转换成指定编码。

细心的童鞋会发现,以'w'模式写入文件时,如果文件已存在,会直接覆盖(相当于删掉后新写入一个文件)。如果我们希望追加到文件末尾怎么办?可以传入'a'以追加(append)模式写入。

所有模式的定义及含义可以参考Python的官方文档

最后

以上便是【关于python读写文件那点事】的全部内容。通过本文你了解并学习了

IO编程概念
文件读写实际操作
with读取文件注意点

之前的一文中介绍了【Windows下Python Tensorflow安装,使用教程】,遗留了一个‘关于mac环境tensorflow的安装,使用,会在后面结合人脸识别或手写数字识别继续’的内容,手写数字我们已经学会了初级内容,所以,下一篇文章准备回过头来完成Mac环境下tensorflow的相关内容,大致会包含mac下tensorflow的安装和更新,人脸识别。