操作系统《深入理解计算机系统》程序员

《深入理解计算机系统》| 系统级IO

2017-05-02  本文已影响116人  唐鱼的学习探索
目  录

Input是指从设备拷贝数据到内存,而Output是从内存拷贝数据到外部设备的过程,我们平时使用的都是语言提供的标准IO库,如printf和scanf,这些是通过内核提供的系统级IO函数来实现的。我们学习系统级的IO,有助于我们理解其他概念,在读取元数据的时候也需要用到系统级的IO。这一章的内容很简单,来不及解释了,开车了:

1.1 什么是Unix文件


一个Unix文件是一个m个字节的序列,所有的IO设备(网络、磁盘、终端)都被映射为文件,内核提供一个简单的接口,使得对所有这些设备的访问都是以文件的方式的进行。

1.2 操作文件的一般过程


打开文件:一个应用程序通过要求内核打开相应的文件,内核将返回一个非负整数,称为描述符,记录打开文件的所有信息:标准输入(描述符0)、标准输出(描述符1)、标准错误(描述符2)

改变当前文件位置:内核保持一个文件的位置k,初始为0,表示从文件开始处偏移的字节数。通过seek操作。

读写文件:读操作就是从文件拷贝n个字节到存储器,如果是从k处开始,就是拷贝k+n为止。文件的大小为m,如果k≥m就会触发(EOF),所有就不需要明确的EOF字符了。写操作就是从存储器拷贝n个字节到文件当前位置k处。

关闭文件:内核释放打开文件时创建的数据结构,释放所有的存储器资源。

1.3 文件操作函数


打开文件

filename:是文件名

flags:O_RDONLY|O_WRONLY|O_RDWR;(O_CREAT\O_TRUNC\O_APPEND);

mode:访问权限

返回值:成功为描述符,失败为-1。

关闭文件:

读写文件:

fd:描述符fd的当前位置;buf:存储器位置;n:拷贝大小

(注:当读取时遇到EOF、从终端读取文本行或者读写网络套接字的时候返回不足值)

1.4 对文件操作函数的封装:RIO(Robust健壮的)


RIO之所以称之为健壮的IO包,是因为他提供了方便高效的IO访问,你可以从一个描述符中读一些文本行,然后读二进制,最后再读文本行。有两类输入输出函数:

① 无缓冲输入输出:二进制与网络的直接读写

对于同一个描述表,可以任意的交错调用rio_readn和rio_wiriten

这是如何实现的呢:

从上面的代码不难看出,如果程序的信号处理程序返回中断,这个函数会手动重启read或者write。

② 带缓冲的输入函数

这个函数有一个好处是,它从内部读缓冲区拷贝的一行,当缓冲区为空的时候,自动调用read填满缓冲区,效率很高。

在调用这两个函数以前,是通过rio_readinitb函数来完成一些初始化的,主要是将fd与一块缓冲区联系起来:

有了数据上的这个结构,我们来看看readnb和readlineb函数的具体实现:

这里面都用到了一个带缓冲的读函数,rio_read,如下:

我们再来看一个应用:从标准输入中读取一行并显示

运行结果如下:

1.4 读取文件元数据


文件元数据是指文件本身的一些信息,包含:访问模式、大小和创建时间:

我们只讲解其中的st_mode和st_size字段,其中模式设定中包含三种文件类型:

我们来写一个应用程序,展示文件的读取模式:

运行结果如下,我们读取根目录元信息:

1.5 共享文件


不理解文件是如何打开的,理解共享都是耍流氓。内核通过三个数据结构表示打开的文件:

描述符表:每个独立的进程1张,指向一打开的文件表;

文件表:包括打开文件位置,引用数量,以及一个指向元数据的v-node指针;

v-node表:包含stat结构的大部分信息;

共享文件:

同一个进程的不同表项,通过文件表指向了同一个位置

理解父子进程共享文件:

子进程只需要将它的描述符表指向,文件表中同样的位置就行了。

1.6 IO重定向


重定向允许我们把本来输出到终端的内容,从新定位到磁盘文本中去,效果如下图:

将当前目录列表,从终端重定位到foo.txt文本中,这个过程使用的是dup2函数

将新的fd加到老的fd上面,删除掉newfd以前的内容,如果newfd已打开还会被关闭。

1.7  总结:什么时候用什么


我们这一章讨论了标准IO函数、各种IO包,以及系统级的IO。他们之间的关系可以用下图来表示:

建议:

Unix IO 读取文件元信息

标准IO :在磁盘和终端中输入输出

RIO:网络套接字首选,如果要格式化先调用sprintf再调用rio

2017年5月2日 完

上一篇下一篇

猜你喜欢

热点阅读