《深入理解计算机系统》| 系统级IO
Input是指从设备拷贝数据到内存,而Output是从内存拷贝数据到外部设备的过程,我们平时使用的都是语言提供的标准IO库,如printf和scanf,这些是通过内核提供的系统级IO函数来实现的。我们学习系统级的IO,有助于我们理解其他概念,在读取元数据的时候也需要用到系统级的IO。这一章的内容很简单,来不及解释了,开车了:
1.1 什么是Unix文件
一个Unix文件是一个m个字节的序列,所有的IO设备(网络、磁盘、终端)都被映射为文件,内核提供一个简单的接口,使得对所有这些设备的访问都是以文件的方式的进行。
1.2 操作文件的一般过程
打开文件:一个应用程序通过要求内核打开相应的文件,内核将返回一个非负整数,称为描述符,记录打开文件的所有信息:标准输入(描述符0)、标准输出(描述符1)、标准错误(描述符2)
改变当前文件位置:内核保持一个文件的位置k,初始为0,表示从文件开始处偏移的字节数。通过seek操作。
读写文件:读操作就是从文件拷贝n个字节到存储器,如果是从k处开始,就是拷贝k+n为止。文件的大小为m,如果k≥m就会触发(EOF),所有就不需要明确的EOF字符了。写操作就是从存储器拷贝n个字节到文件当前位置k处。
关闭文件:内核释放打开文件时创建的数据结构,释放所有的存储器资源。
1.3 文件操作函数
打开文件
filename:是文件名
flags:O_RDONLY|O_WRONLY|O_RDWR;(O_CREAT\O_TRUNC\O_APPEND);
mode:访问权限
返回值:成功为描述符,失败为-1。
关闭文件:
读写文件:
fd:描述符fd的当前位置;buf:存储器位置;n:拷贝大小
(注:当读取时遇到EOF、从终端读取文本行或者读写网络套接字的时候返回不足值)
1.4 对文件操作函数的封装:RIO(Robust健壮的)
RIO之所以称之为健壮的IO包,是因为他提供了方便高效的IO访问,你可以从一个描述符中读一些文本行,然后读二进制,最后再读文本行。有两类输入输出函数:
① 无缓冲输入输出:二进制与网络的直接读写
对于同一个描述表,可以任意的交错调用rio_readn和rio_wiriten
这是如何实现的呢:
从上面的代码不难看出,如果程序的信号处理程序返回中断,这个函数会手动重启read或者write。
② 带缓冲的输入函数
这个函数有一个好处是,它从内部读缓冲区拷贝的一行,当缓冲区为空的时候,自动调用read填满缓冲区,效率很高。
在调用这两个函数以前,是通过rio_readinitb函数来完成一些初始化的,主要是将fd与一块缓冲区联系起来:
有了数据上的这个结构,我们来看看readnb和readlineb函数的具体实现:
这里面都用到了一个带缓冲的读函数,rio_read,如下:
我们再来看一个应用:从标准输入中读取一行并显示
运行结果如下:
1.4 读取文件元数据
文件元数据是指文件本身的一些信息,包含:访问模式、大小和创建时间:
我们只讲解其中的st_mode和st_size字段,其中模式设定中包含三种文件类型:
我们来写一个应用程序,展示文件的读取模式:
运行结果如下,我们读取根目录元信息:
1.5 共享文件
不理解文件是如何打开的,理解共享都是耍流氓。内核通过三个数据结构表示打开的文件:
描述符表:每个独立的进程1张,指向一打开的文件表;
文件表:包括打开文件位置,引用数量,以及一个指向元数据的v-node指针;
v-node表:包含stat结构的大部分信息;
共享文件:
同一个进程的不同表项,通过文件表指向了同一个位置
理解父子进程共享文件:
子进程只需要将它的描述符表指向,文件表中同样的位置就行了。
1.6 IO重定向
重定向允许我们把本来输出到终端的内容,从新定位到磁盘文本中去,效果如下图:
将当前目录列表,从终端重定位到foo.txt文本中,这个过程使用的是dup2函数
将新的fd加到老的fd上面,删除掉newfd以前的内容,如果newfd已打开还会被关闭。
1.7 总结:什么时候用什么
我们这一章讨论了标准IO函数、各种IO包,以及系统级的IO。他们之间的关系可以用下图来表示:
建议:
Unix IO 读取文件元信息
标准IO :在磁盘和终端中输入输出
RIO:网络套接字首选,如果要格式化先调用sprintf再调用rio
2017年5月2日 完