Linux进程通信之mmap
Linux进程通信实现机制有很多,也有各自优缺点和适用场景,关于她们之间的对比,等各种通信机制一一介绍后,再来一个汇总,俗话说“没有对比就没有伤害”,通过“伤害”让大家彻底了解正确使用姿势。
背景:
原由一:对内存的管理。
大家熟悉的Glibc库提供的有:malloc、realloc、calloc(三者各自区别是什么,后续专题解说);
可能熟悉的有:Google的Tcmalloc、FaceBook的Jemalloc,以及优化升级版的Ptmalloc;
brk、sbrk(用户和内核均可用来“申请内存”,这块后续专题介绍);
mmap,今天的主咖,一起看下她的前世今生,来龙去脉。
Slab缓存机制、Buddy伙伴算法(这块后续专题介绍);
内核申请内存:kmalloc(内核空间,物理连续)、vmalloc(内核空间,物理不连续,虚拟连续。思考malloc单次调用申请的内存在物理上连续不);
内核管理页表:pgd_offset(mm, addr)得到一级页表入口、pmd_offset(pgd, addr)得到二级页表入口
、通过pte_offset_map(pmd, addr)得到目标页表项;
get_zeroed_page(unsigned int flags);指向一个清零的新page、 __get_free_page(unsigned int flags);指向新页但不清零,实际上是用了order为0的下一个函数、__get_free_pages(unsigned int flags, unsigned int order);获取多个pages数量是2^order,不清零;
virt_to_phys()实现内核虚拟向物理地址的转化(感兴趣可以自行查看)。
原由二:进程高效通信和文件读写
无名知道对于像有名/无名管道和消息队列等通信方式,需要在内核和用户空间进行两次运行级别切换(系统调用导致保护和恢复进程上下文环境)+四次数据拷贝,而共享内存则只拷贝两次数据: 一次从输入文件到共享内存区,另一次从共享内存区到输出文件。实际上,进程之间在共享内存时,并不总是读写少量数据后就解除映射,有新的通信时,不用再重新建立共享内存区域,而是保持共享区域,直到通信完毕为止,这样,数据内容一直保存在共享内存中,并没有写回文件(内核通过一定策略刷盘,后续专题介绍)。共享内存中的数据往往是在解除映射时才写回文件的。因此,采用共享内存的通信方式效率是非常高的。
一起细数mmap
1.共享内存的概念
共享内存可以说是最有用的进程间通信方式,也是最快的IPC形式。两个不同进程A、B共享内存的意思是,同一块物理内存被映射到进程A、B各自的进程地址空间。进程A可以(通过flag设置)即时看到进程B对共享内存中数据的更新,反之亦然。
2.mmap工作原理
mmap是一种内存映射文件的方法,即将一个文件或者其它对象映射到进程的地址空间,实现文件磁盘地址和进程虚拟地址空间中一段虚拟地址的一一对映关系。实现这样的映射关系后,进程就可以采用指针的方式读写操作这一段内存,而系统会自动回写脏页面到对应的文件磁盘上,即完成了对文件的操作而不必再调用read,write等系统调用函数。相反,内核空间对这段区域的修改也直接反映用户空间,从而可以实现不同进程间的文件共享。如下图所示:
mmap映射概貌.pngmmap内存映射的实现过程,总的来说可以分为三个阶段:
①进程启动映射过程,并在虚拟地址空间中为映射创建虚拟映射区域
进程在用户空间调用mmap函数。
在当前进程的虚拟地址空间中,寻找一段空闲的满足要求的连续的虚拟地址。
为此虚拟去分配一个vm_area_struct结构,并对该结构各个域进行初始化。
将新建的vm_area_struct插入到进程的虚拟地址区域链表或树中。
②调用内核空间的系统调用函数mmap(不同于用户空间函数),实现文件物理地址和进程虚拟地址的一一映射关系
为映射分配了新的虚拟地址区域后,通过待映射的文件指针,在文件描述符表中找到对应的文件描述符,通过文件描述符,连接到内核“已打开文集”中该文件的文件结构体struct file,每个文件结构体维护着和这个已打开文件的相关信息(从open函数调用到内核返回文件描述符这块隶属于文件系统的知识,后续专题补充)。
通过该文件的文件结构体,连接到file_operations模块,调用 内核函数mmap,int mmap(struct file *filep,struct vm_area_struct *vma)。
内核mmap函数通过虚拟文件系统inode模块定位到文件磁盘物理地址。
通过remap_pfn_range函数建立页表,即实现了文件地址和虚拟地址区域的映射,此时这片虚拟地址区域没有任何数据关联到主存中
③进程发起对这片映射空间的访问,引发缺页异常,实现文件内容到物理内存(主存)的拷贝
进程的读写操作访问虚拟地址空间的这一段映射地址,通过查询页表,发现这一段地址不在物理页面上,因为只是建立了地址映射,真正的磁盘数据还没有拷贝到内存中,因此引发缺页异常缺页异常进行一系列判断,确定无非法操作后,内核发起请求调页过程调页过程先在交换缓存空间中寻找需要访问的内存页,如果没有则调用nopage函数把所缺的页面从磁盘装入主存中之后进程可对这片主存进行读或写操作,如果写操作改变了内容,一定时间后系统会自动回写脏页面到对应的磁盘地址,也就是完成了写入到文件的过程修改过的脏页面不会立即更新到文件中,而是有一段时间的延迟,可以调用msync来强制同步,这样所写的内容就立即保存到文件里了。
对于共享内存映射情况,缺页异常处理程序首先在swap cache中寻找目标页(符address_space以及偏移量的物理页),如果找到,则直接返回地址;如果没有找到,则判断该页是否在交换区(swap area),如果在,则执行一个换入操作;如果上述两种情况都不满足,处理程序将分配新的物理页面,并把它插入到page cache中。进程最终将更新进程页表。
注:对于映射普通文件情况(非共享映射),缺页异常处理程序首先会在page cache中根据address_space以及数据偏移量寻找相应的页面。如果没有找到,则说明文件数据还没有读入内存,处理程序会从磁盘读入相应的页面,并返回相应地址,同时,进程页表也会更新。 所有进程在映射同一个共享内存区域时,情况都一样,在建立线性地址与物理地址之间的映射之后,不论进程各自的返回地址如何,实际访问的必然是同一个共享内存区域对应的物理页面。
函数原型:
mmap函数
void *mmap(void *start, size_t length, int prot, int flags, int fd, off_t offset);
使用mmap目的有三:
使用普通文件以提供内存映射IO;
使用特殊文件以提供匿名内存映射;
使用shm_open以提供无亲缘关系的进程间的Poxis共享内存区;
mmap的作用是映射文件描述符fd指定文件的 [offset,offset + length]区域至调用进程的[start, start + length]的内存区域。
函数返回成功时指向目标内存区域的指针,失败返回MAP_FAILED((void*)-1)并设置错误码errorno的值。
参数介绍:
start:映射区开始地址,用户可以给定。建议设定NULL,有内核给定起始地址。
length:映射区的长度。
prot:期望的内存保护标志,不能与文件打开模式冲突
PROT_EXEC :页内容可以被执行
PROT_READ :页内容可以被读取
PROT_WRITE :页可以被写入
PROT_NONE :页不可访问
fd:有效的文件描述符。参数fd为即将映射到进程空间的文件描述字,一般由open()返回,同时,fd可以指定为-1,此时须指定flags参数中的MAP_ANON,表明进行的是匿名映射(不涉及具体的文件名,避免了文件的创建及打开,很显然只能用于具有亲缘关系的进程间通信,即用于通过fork/vfork/clone系统调用创建的子进程之间的匿名映射通信。这里要强调的是虽说子进程继承父进程的Address Space孵化自己,但是任何一方对共享变量发生写操作,就会产生COW。所以为了有助于大家理解,可以说是父子进程“公用”调用fork/vfork/clone函数之前所定义的变量对象,而不是共享。)
offset:设置文件从何处开始映射(对于不需要读入整个文件的情况)。
flags:指定映射对象的类型,映射选项和映射页是否可以共享。它的值可以是一个或者多个以下位的组合体,具体如下:
MAP_FIXED使用指定的映射起始地址,如果由start和length参数指定的内存区重叠于现存的映射空间,重叠部分将会被丢弃。如果指定的起始地址不可用,操作将会失败。并且起始地址必须落在页的边界上。
MAP_SHARED,与其它所有映射这个对象的进程共享映射空间。对共享区的写入,相当于输出到文件。直到msync()或者munmap()被调用,文件实际上不会被更新。
MAP_PRIVATE建立一个写入时拷贝的私有映射。内存区域的写入不会影响到原文件。这个标志和以上标志是互斥的,只能使用其中一个。
MAP_DENYWRITE这个标志被忽略。
MAP_EXECUTABLE同上。
MAP_NORESERVE不要为这个映射保留交换空间。当交换空间被保留,对映射区修改的可能会得到保证。当交换空间不被保留,同时内存不足,对映射区的修改会引起段违例信号。
MAP_LOCKED锁定映射区的页面,从而防止页面被交换出内存。
MAP_GROWSDOWN用于堆栈,告诉内核VM系统,映射区可以向下扩展。
MAP_ANONYMOUS匿名映射,映射区不与任何文件关联。
MAP_ANON,MAP_ANONYMOUS的别称,不再被使用。
MAP_FILE兼容标志,被忽略。
MAP_32BIT将映射区放在进程地址空间的低2GB,MAP_FIXED指定时会被忽略。当前这个标志只在x86-64平台上得到支持。
MAP_POPULATE为文件映射通过预读的方式准备好页表。随后对映射区的访问不会被页违例阻塞。
MAP_NONBLOCK仅和MAP_POPULATE一起使用时才有意义。不执行预读,只为已存在于内存中的页面建立页表。
munmap函数
int munmap(void *addr, size_t len);
从某个进程的地址空间删除一个映射关系。再次访问这些地址会导致调用产生一个SIGSEGV信号(这里假设后续mmap调用没有恰巧重用这部分地址空间)。如果被映射去是使用MAP_PRIVATE标示映射的,那么调用进程对她所作的变动都被丢弃。如果是MAP_SHARED映射,内核的虚拟内存算法保障内存映射文件(一般在磁盘上)与内存映射区(在用户态内存中)的同步。然而有时候在业务上需要确保硬盘上的文件内容和内存映射区中内容一致,可以调用masync函数来“手动”执行同步。 参数介绍 addr参数是由mmap函数返回的地址,len是映射区大小。
msync函数
int msync( void *addr, size_t len, int flags )。
一般说来,进程在映射空间的对共享内容的改变并不直接写回到磁盘文件中,往往在调用munmap()后才执行该操作。可以通过调用msync()实现磁盘上文件内容与共享内存区的内容一致。
3.mmap和常规文件操作的区别
常规文件系统操作(调用read/fread等类函数)中,函数的调用过程:
1.进程发起读文件请求。
2.内核通过查找进程文件符表,定位到内核已打开文件集上的文件信息,从而找到此文件的inode(这块后续有专题去介绍)。一个具体的文件在打开后,内核会在内存中为之建立一个struct inode结构,其中的i_mapping域指向一个address_space结构。
3.inode在address_space上查找要请求的文件页是否已经缓存在页缓存中。如果存在,则直接返回这片文件页的内容。一个文件对应一个address_space结构,一个address_space与一个偏移量能够确定一个page cache 或swap cache中的一个页面 。因此,当要寻址某个数据时,很容易根据给定的文件及数据在文件内的偏移量而找到相应的页面。
4.如果不存在,则通过inode定位到文件磁盘地址,将数据从磁盘复制到页缓存。之后再次发起读页面过程,进而将页缓存中的数据通过copy_to_user把数据copy到用户进程cache。
总结来说,常规文件操作为了提高读写效率和保护磁盘,使用了页缓存机制。这样造成读文件时需要先将文件页从磁盘拷贝到页缓存中,由于页缓存处在内核空间,不能被用户进程直接寻址,所以还需要将页缓存中数据页再次拷贝到内存对应的用户空间中。这样,通过两次数据拷贝过程,才能完成进程对文件内容的获取任务。写操作也是一样,待写入的buffer在内核空间不能直接访问,必须要先拷贝至内核空间对应的主存,再写回磁盘中(延迟写回),也是需要两次数据拷贝。
而使用mmap操作文件中,创建新的虚拟内存区域和建立文件磁盘地址和虚拟内存区域映射这两步,没有任何文件拷贝操作。而之后访问数据时发现内存中并无数据而发起的缺页异常过程,可以通过已经建立好的映射关系,只使用一次数据拷贝,就从磁盘中将数据传入内存的用户空间中,供进程使用。
mmap优点总结
1.对文件的读取操作跨过了页缓存,减少了数据的拷贝次数。用内存读写取代I/O读写,提高了文件读取效率。两空间的各自修改操作可以直接反映在映射的区域内,从而被对方空间及时捕捉。
2.实现了用户空间和内核空间的高效交互方式。
3.提供进程间共享内存以及相互通信的方式。两个进程将自身的用户空间映射到同一片区域,从而达到通信或者共享的目的。(进程A和进程B都映射了区域C,当A第一次读取C时通过缺页异常从磁盘复制文件页到内存中,但当B再去读取C的时候,虽然会产生缺页异常,但是不需要再从磁盘复制文件,而是可以直接使用保存在内存中的文件数据)。
4、可用于实现高效的大规模数据传输。内存空间不足,是制约大数据操作的一个方面,解决方案往往是借助硬盘空间协助操作,补充内存的不足。但是进一步会造成大量的文件I/O操作,极大影响效率。这个问题可以通过mmap映射很好的解决。换句话说,但凡是需要用磁盘空间代替内存的时候,mmap都可以发挥其功效。
总而言之,常规文件操作需要从磁盘到页缓存再到用户主存的两次数据拷贝。而mmap操控文件,只需要从磁盘到用户主存的一次数据拷贝过程。说白了,mmap的关键点是实现了用户空间和内核空间的数据直接交互而省去了空间不同数据不通的繁琐过程。因此mmap效率更高。
4.mmap细节及使用举例
1、使用mmap需要注意的一个关键点是,mmap映射区域大小必须是物理页大小(page_size)的整倍数(32位系统中通常是4k字节)。原因是,内存的最小粒度是页,而进程虚拟地址空间和内存的映射也是以页为单位。为了匹配内存的操作,mmap从磁盘到虚拟地址空间的映射也必须是页。
再啰嗦几句:
linux采用的是页式管理机制。对于用mmap()映射普通文件来说,进程会在自己的地址空间新增一块空间,空间大小由mmap()的len参数指定,注意,进程并不一定能够对全部新增空间都能进行有效访问。进程能够访问的有效地址大小取决于文件被映射部分的大小。简单的说,能够容纳文件被映射部分大小的最少页面个数决定了进程从mmap()返回的地址开始,能够有效访问的地址空间大小。超过这个空间大小,内核会根据超过的严重程度返回发送不同的信号给进程。
2、内核可以跟踪被内存映射的底层对象(文件)的大小,进程可以合法的访问在当前文件大小以内又在内存映射区以内的那些字节。也就是说,如果文件的大小一直在扩张,只要在映射区域范围内的数据,进程都可以合法得到,这和映射建立时文件的大小无关。具体情形参见“情形三”。
3、映射建立之后,即使文件关闭,映射依然存在。因为映射的是磁盘的地址,不是文件本身,和文件句柄无关。同时可用于进程间通信的有效地址空间不完全受限于被映射文件的大小,因为是按页映射。
在上面的知识前提下,我们下面看看如果大小不是页的整倍数的具体情况:
情形一:一个文件的大小是5000字节,mmap函数从一个文件的起始位置开始,映射5000字节到虚拟内存中。
分析:因为单位物理页面的大小是4096字节,虽然被映射的文件只有5000字节,但是对应到进程虚拟地址区域的大小需要满足整页大小,因此mmap函数执行后,实际映射到虚拟内存区域8192个 字节,5000~8191的字节部分用零填充。映射后的对应关系如下图所示:
消耗两个内存页.png
此时:
(1)读/写前5000个字节(0~4999),会返回操作文件内容。
(2)读字节5000~8191时,结果全为0。写5000~8191时,进程不会报错,但是所写的内容不会写入原文件中 。
(3)读/写8192以外的磁盘部分,会返回一个SIGSECV错误。
情形二:一个文件的大小是5000字节,mmap函数从一个文件的起始位置开始,映射15000字节到虚拟内存中,即映射大小超过了原始文件的大小。
分析:由于文件的大小是5000字节,和情形一一样,其对应的两个物理页。那么这两个物理页都是合法可以读写的,只是超出5000的部分不会体现在原文件中。由于程序要求映射15000字节,而文件只占两个物理页,因此8192字节~15000字节都不能读写,操作时会返回异常。如下图所示:
映射大于物理文件大小将发生异常.png此时:
(1)进程可以正常读/写被映射的前5000字节(0~4999),写操作的改动会在一定时间后反映在原文件中。
(2)对于5000~8191字节,进程可以进行读写过程,不会报错。但是内容在写入前均为0,另外,写入后不会反映在文件中。
(3)对于8192~14999字节,进程不能对其进行读写,会报SIGBUS错误。
(4)对于15000以外的字节,进程不能对其读写,会引发SIGSEGV错误。
情形三:一个文件初始大小为0,使用mmap操作映射了1000*4K的大小,即1000个物理页大约4M字节空间,mmap返回指针ptr。
分析:如果在映射建立之初,就对文件进行读写操作,由于文件大小为0,并没有合法的物理页对应,如同情形二一样,会返回SIGBUS错误。
但是如果,每次操作ptr读写前,先增加文件的大小,那么ptr在文件大小内部的操作就是合法的。例如,文件扩充4096字节,ptr就能操作ptr到 [ (char)ptr + 4095]的空间。只要文件扩充的范围在1000个物理页(映射范围)内,ptr都可以对应操作相同的大小。这样,方便随时扩充文件空间,随时写入文件,不造成空间浪费。
其他实战实例,我会补充在GitHub。