Linux文件系统基本概念记录
真是一个无情的搬运工
前言
本文同样更新在私人公众号上,在此推广一下欢迎大家关注:
公众号会定期更新一些计算机系统的底层知识,争取以最细节、最简洁的方式帮助读者理解系统的一些知识。
inode
文件储存在硬盘上,硬盘的最小存储单位叫做"扇区"(Sector)。每个扇区储存512字节(相当于0.5KB)。
操作系统读取硬盘的时候,不会一个个扇区地读取,这样效率太低,而是一次性连续读取多个扇区,即一次性读取一个"块"(block)。这种由多个扇区组成的"块",是文件存取的最小单位。"块"的大小,最常见的是4KB,即连续八个 sector组成一个 block。
- inode内容
inode包含文件的元信息,具体来说有以下内容:
* 文件的字节数
* 文件拥有者的User ID
* 文件的Group ID
* 文件的读、写、执行权限
* 文件的时间戳,共有三个:ctime指inode上一次变动的时间,mtime指文件内容上一次变动的时间,atime指文件上一次打开的时间。
* 链接数,即有多少文件名指向这个inode
* 文件数据block的位置
- inode大小
inode也会消耗硬盘空间,所以硬盘格式化的时候,操作系统自动将硬盘分成两个区域。一个是数据区,存放文件数据;另一个是inode区(inode table),存放inode所包含的信息。
每个inode节点的大小,一般是128字节或256字节。inode节点的总数,在格式化时就给定,一般是每1KB或每2KB就设置一个inode。假定在一块1GB的硬盘中,每个inode节点的大小为128字节,每1KB就设置一个inode,那么inode table的大小就会达到128MB,占整块硬盘的12.8%。
读取文件的过程
- 首先,系统找到这个文件名对应的inode号码;
- 其次,通过inode号码,获取inode信息;
- 最后,根据inode信息,找到文件数据所在的block,读出数据。
硬链接
一般情况下,文件名和inode号码是"一一对应"关系,每个inode号码对应一个文件名。但是,Unix/Linux系统允许,多个文件名指向同一个inode号码。
这意味着,可以用不同的文件名访问同样的内容;对文件内容进行修改,会影响到所有文件名;但是,删除一个文件名,不影响另一个文件名的访问。这种情况就被称为"硬链接"(hard link)。
ln命令可以创建硬链接: ln 源文件 目标文件
软链接
文件A和文件B的inode号码虽然不一样,但是文件A的内容是文件B的路径。读取文件A时,系统会自动将访问者导向文件B。因此,无论打开哪一个文件,最终读取的都是文件B。这时,文件A就称为文件B的"软链接"(soft link)或者"符号链接(symbolic link)。
这意味着,文件A依赖于文件B而存在,如果删除了文件B,打开文件A就会报错:"No such file or directory"。这是软链接与硬链接最大的不同:文件A指向文件B的文件名,而不是文件B的inode号码,文件B的inode"链接数"不会因此发生变化。
一个数据块大小4KB,则一个位图块可以表示410248个数据块的使用情况,所以一个块组中可存储数据的大小是128MB(4 * 1024 * 8 * 4KB)
EXT-x文件系统中数据块映射
Ext2/Ext3中数据块映射方式:
image.png image.png
于是inode
1024+ 1024^2 +1024^3+12=1,074,791,436
Extent学习记录
Ext4中用extent树代替了逻辑块映射。使用extents,用一个struct ext4_extent结构就可以映射多个数据块,减少元数据块的使用。
extent结构是12个字节,所以你可以在每个inode中最多试用5个extent。然后,前12个字节是extent区(40到51字节),被一个extent头结构占用,所以一个inode中实际上可以包含4个extent。
每个extent结构中只有16个bit用来保存块号,实际上,最高位被保存了下来(最高位用来表示这个externt是“保存?预分?”还是已经初始化, 部分用于EXT4的预分配功能)。这意味着,一个extent最大只能包含2的15次方个块,当一个block为4k大小的时候,即128MB。
128MB看起来足够大了,但是当你的文件大于0.5G的时候,这个文件就需要大于4个extent来保存整个block的索引。或者,当你的文件很小,但是由很多不连续的片段组成。这些情况下,就需要用大于4个extent来组织文件。
Extent并没有非常详细的了解,后期有需要补充
Ext4中目录项
Ext4文件系统中,一个目录差不多是一个平面文件,映射任意长度的字符串到文件系统中的一个inode。文件系统中存在多个目录项引用同一个inode——硬链接,这也是硬链接不能链接其他文件系统中的文件的原因。
在目录中并没有存储文件的数据信息,而只是存储了一个类似C语言指针的东东,这个东东就是文件的inode id。而目录中的子目录数据和文件数据仍然是平铺在磁盘上的。这样,在目录中通过这个指针就可以轻易的找到文件的数据,而且目录的数据和文件的数据组织也变得非常简单。
image.png目录本质上也是一个文件,只不过其中存储的数据是关于子目录和文件的名称信息
那么这个大数组中的元素是什么呢?就是图6所示的这个结构体。从该结构体可以看出,每一项内容包括inode的id、该结构体的大小、文件(子目录)名大小和文件名等信息。在检索目录内容的时候,其实就是根据文件名获得inode的id,然后在根据该id从inode表中获得inode(文件)的详细信息。
image.png目录查询加速
在Ext4文件系统中这个索引是通过一个成为哈希树(多叉树)的方式实现的,其中Key为文件名的哈希值,而Value则是具体的数据位置(磁盘块位置)。由于Key是有序的,因此查找非常方便,也就是可以通过文件名快速的找到ext4_dir_entry_2,然后可以找到inode信息。
image.png image.png超级块
在Linux操作系统的文件系统中,超级块相当于文件系统的地图。在超级块中保存着文件系统的属性信息、磁盘布局和资源使用情况等信息。文件系统通过超级块了解磁盘的布局,查找已用和可用资源等。超级块又相当于入口,文件系统的操作通常从超级块开始
struct super_block {
746 struct list_head s_list; /* Keep this first */
747 kdev_t s_dev;
748 unsigned long s_blocksize;
749 unsigned char s_blocksize_bits;
750 unsigned char s_dirt;
751 unsigned long long s_maxbytes; /* Max file size */
752 struct file_system_type *s_type;
753 struct super_operations *s_op;
754 struct dquot_operations *dq_op;
755 struct quotactl_ops *s_qcop;
756 unsigned long s_flags;
757 unsigned long s_magic;
758 struct dentry *s_root;
759 struct rw_semaphore s_umount;
760 struct semaphore s_lock;
761 int s_count;
762 atomic_t s_active;
763
764 struct list_head s_dirty; /* dirty inodes */
765 struct list_head s_locked_inodes;/* inodes being synced */
766 struct list_head s_files;
767
768 struct block_device *s_bdev;
769 struct list_head s_instances;
770 struct quota_info s_dquot; /* Diskquota specific options */
771
772 union {
773 struct minix_sb_info minix_sb;
774 struct ext2_sb_info ext2_sb;
775 struct ext3_sb_info ext3_sb;
776 struct hpfs_sb_info hpfs_sb;
777 struct ntfs_sb_info ntfs_sb;
778 struct msdos_sb_info msdos_sb;
779 struct isofs_sb_info isofs_sb;
780 struct nfs_sb_info nfs_sb;
781 struct sysv_sb_info sysv_sb;
782 struct affs_sb_info affs_sb;
783 struct ufs_sb_info ufs_sb;
784 struct efs_sb_info efs_sb;
785 struct shmem_sb_info shmem_sb;
786 struct romfs_sb_info romfs_sb;
787 struct smb_sb_info smbfs_sb;
788 struct hfs_sb_info hfs_sb;
789 struct adfs_sb_info adfs_sb;
790 struct qnx4_sb_info qnx4_sb;
791 struct reiserfs_sb_info reiserfs_sb;
792 struct bfs_sb_info bfs_sb;
793 struct udf_sb_info udf_sb;
794 struct ncp_sb_info ncpfs_sb;
795 struct usbdev_sb_info usbdevfs_sb;
796 struct jffs2_sb_info jffs2_sb;
797 struct cramfs_sb_info cramfs_sb;
798 void *generic_sbp;
799 } u;
800 /*
801 * The next field is for VFS *only*. No filesystems have any business
802 * even looking at it. You had been warned.
803 */
804 struct semaphore s_vfs_rename_sem; /* Kludge */
805
806 /* The next field is used by knfsd when converting a (inode number based)
807 * file handle into a dentry. As it builds a path in the dcache tree from
808 * the bottom up, there may for a time be a subpath of dentrys which is not
809 * connected to the main tree. This semaphore ensure that there is only ever
810 * one such free path per filesystem. Note that unconnected files (or other
811 * non-directories) are allowed, but not unconnected diretories.
812 */
813 struct semaphore s_nfsd_free_path_sem;
814 }
s_list:指向超级块链表的指针,这个struct list_head是很熟悉的结构了,里面其实就是用于连接关系的prev和next字段。
内核中的结构处理都是有讲究的(内核协议栈中也说过),内核单独使用一个简单的结构体将所有的super_block都链接起来,但是这个结构不是super_block本身,因为本身数据结构太大,效率不高,所有仅仅使用
struct
{
list_head prev;
list_head next;
}
这样的结构来将super_block中的s_list链接起来,那么遍历到s_list之后,直接读取super_block这么长的一个内存块,就可以将这个
super_block直接读进来!这样就很快捷方便!这也是为什么s_list必须放在第一个字段的原因。
s_dev:包含该具体文件系统的块设备标识符。例如,对于 /dev/hda1,其设备标识符为 0x301
s_blocksize:文件系统中数据块大小,以字节单位
s_blocksize_bits:上面的size大小占用位数,例如512字节就是9 bits
s_dirt:脏位,标识是否超级块被修改
s_maxbytes:允许的最大的文件大小(字节数)
struct file_system_type *s_type:文件系统类型(也就是当前这个文件系统属于哪个类型?ext2还是fat32)
要区分“文件系统”和“文件系统类型”不一样!一个文件系统类型下可以包括很多文件系统即很多的super_block,后面会说!
struct super_operations *s_op:指向某个特定的具体文件系统的用于超级块操作的函数集合
struct dquot_operations *dq_op:指向某个特定的具体文件系统用于限额操作的函数集合
struct quotactl_ops *s_qcop:用于配置磁盘限额的的方法,处理来自用户空间的请求
s_flags:安装标识
s_magic:区别于其他文件系统的标识
s_root:指向该具体文件系统安装目录的目录项
s_umount:对超级块读写时进行同步
s_lock:锁标志位,若置该位,则其它进程不能对该超级块操作
s_count:对超级块的使用计数
s_active:引用计数
s_dirty:已修改的索引节点inode形成的链表,一个文件系统中有很多的inode,有些inode节点的内容会被修改,那么会先被记录,然后写回磁盘。
s_locked_inodes:要进行同步的索引节点形成的链表
s_files:所有的已经打开文件的链表,这个file和实实在在的进程相关的
s_bdev:指向文件系统被安装的块设备
u:u 联合体域包括属于具体文件系统的超级块信息
s_instances:具体的意义后来会说的!(同一类型的文件系统通过这个子墩将所有的super_block连接起来)
s_dquot:磁盘限额相关选项
文件系统中的各个数据结构源码:
https://www.cnblogs.com/linux-xin/p/8126999.html