Linux 系统调用

2017-11-01 本文已影响0人 xuluqxulu

与内核通信

为了和用户空间上运行的进程进行交互，内核提供了一组接口。透过该接口，应用程序可以访问硬件设备和其他操作系统资源。这组接口在应用程序和内核之间扮演了使者的角色，应用程序发送各种请求，而内核负责满足这些需求（或者让应用程序暂时搁置）。实际上提供这组接口主要是为了保证系统稳定可靠，避免应用程序恣意妄行，惹出大麻烦。

系统调用在用户空间进程和硬件设备之间添加了一个中间层，该层的主要作用有三个。第一，它为用户空间提供了一种硬件的抽象接口。第二，系统调用保证了系统的稳定和安全。作为硬件设备和应用程序之间的中间人，内核可以基于权限和其他一些规则对需要的访问进行裁决。第三，每个进程都运行在虚拟系统中，而在用户空间和系统的其余部分提欧共这样的一层公共接口，也是出于这种考虑，如果应用程序可以随意访问硬件尔内核又对此一无所知的话，几乎就没法实现多任务和虚拟内存，当然也不可能实现良好的稳定性和安全性。

API、POSIX和C库

1、一般情况下，应用程序通过在用户空间实现的应用编程接口（API）而不是直接通过系统调用来编程。一个API定义了一组应用程序使用的编程接口。它可以实现成一个系统调用，也可以通过调用多个系统调用来实现，而完全不使用任何系统调用也不存在任何问题。

2、在Unix系统中，最流行的应用程序编程接口是基于POSIX标准的。

3、Linux的系统调用作为C库的一部分提供。C库实现了Unix系统主要API，包括标准C库函数和系统调用接口。

4、应用编程与系统调用无关紧要，但内核只跟系统调用打交道；库函数及应用程序是怎么使用系统调用的，不是内核所关心的。

5、Unix接口设计有一句格言：“提供机制而不提供策略”，换句话说，Unix系统调用抽象出了用于完成某种确定目的的函数。至于这些函数怎么使用完全不用内核关心。

系统调用

系统调用（在Linux种常称作syscalls）通常通过函数进行调用。它们通常都需要定义一个或者多个参数，而且可能产生一些副作用，例如写某个文件或向给定的指针拷贝数据等等。系统调用还会通过一个long类型的返回值来表示成功或者错误。通常，用一个负的返回值来表示错误。返回一个0值表示成功。Unix系统调用在出现错误的时候，C库会把错误码写入errno全局变量，通过调用perror()库函数，可以把变量翻译成用户可以理解的错误字符串。

当然，系统调用最终具有一种明确的操作：例如getpid() 系统调用，根据定义它会返回当前进程的PID，内核中他的实现非常简单：

/**
 * sys_getpid - return the thread group id of the current process
 *
 * Note, despite the name, this returns the tgid not the pid.  The tgid and
 * the pid are identical unless CLONE_THREAD was specified on clone() in
 * which case the tgid is the same in all threads of the same group.
 *
 * This is SMP safe as current->tgid does not change.
 */
SYSCALL_DEFINE0(getpid)
{
    return task_tgid_vnr(current);
}

SYSCALL_DEFINE0只是一个宏，它定义了一个无参数的系统调用（这里数字为0），展开后的代码如下：

asmlinkage long sys_getpid(void);

首先，必须在声明中使用asmlinkage限定词，这是一个编译指令，通知编译器仅从栈中提取该函数的参数，所有的系统调用都需要这个词。

其次，函数返回值。为了保证32位和64位系统的兼容，系统调用在用户空间和内核空间有不同的返回值类型，用户空间为int，内核空间为long。

最后，系统调用应该被定义与sys_XX的形式。这是Linux种所有系统调用都应该遵守的命名规则。
（1）系统调用号
1、在Linux中，每个系统调用被赋予一个系统调用号。通过这个系统调用号可以关联系统调用。

2、系统调用号非常重要，一旦分配就不能再有任何变更，否则编译好的应用程序就会崩溃。

3、如果一个系统调用被删除，它所占用的系统调用号也不允许被回收利用，否则，以前编译过的代码会调用此系统调用，但事实上却调用另一个系统调用。

4、Linux中有一个“未实现”系统调用 sys_ni_syscall()，它除了返回-ENOSYS外不做任何事，此错误号就是专门针对无效的系统调用而设的。

5、内核记录了系统调用表中的所有已注册过的系统调用的列表，存储在sys_call_tabe中。

（2）系统调用性能
Linux系统调用比其他许多操作系统执行的要快。

系统调用处理函数

1、应用程序通知内核的机制是靠软中断实现的：通过引发一个异常来促使系统切换到内核态去执行异常处理程序。此时的异常处理程序实际上就是系统调用处理程序。

2、指定恰当的系统调用
1）、仅仅陷入内核空间是不够的。必须把系统调用号一并传给内核。
2）、在X86上，系统调用号是通过eax寄存器传递给内核的。在陷入内核之前，用户空间就把相应系统调用所对应的号放入eax中。
3）、system_call函数通过将给定的系统调用号与NR_syscalls作比较来检查其有效性。如果它大于或等于NR_syscalls，该函数就返回-ENOSYS。否则，就执行相应的系统调用。

call  *sys_call_table( , %rax,  8);

3、参数传递
1）、除了系统调用号之外，大部分系统调用还需要一些外部参数的输入。再发生陷入的时候，应该把这些参数从用户空间中传给内核。
2）、用寄存器传递系统调用。在X86系统上，ebx、ecx、edx、esi和edi按顺序存放前五个参数。留个或留个以上参数不常见。此外，应该用一个单独的寄存器存放指向所有这些参数在用户空间地址的指针。

系统调用的实现

1）、实现一个新的系统调用的第一步是决定它的用途，它要做些什么？每个系统调用应该有一个明确的用途，Linux中不提倡多用途的系统调用（一个系统调用通过传递不同的参数值来完成不同的工作），ioctl 就是一个典型的反例。

2）、系统调用必须仔细检查它们所有的参数是否合法有效。最重要的一种检查就是检查用户提供的指针是否有效，在接收一个用户空间的指针之前，内核必须保证：
I、指针指向的内存区域属于用户空间。
II、指针指向的内存区域在进程的地址空间里。
III、如果是读，改内核应被标记为可读；如果是写，改内核应被标记为可写；如果是可执行，改内核应被标记为可执行。
3）、内核提供了两个方法来完成必须的检查和内核空间与用户空间之间数据的来回拷贝。
I、copy_to_user();
II、copy_from_user();
III、如果执行失败，这两个函数返回的都是没能完成拷贝的数据的字节数。如果成功，则返回0.当出现上述错误时，系统调用返回标准-EEAULT。
4）、检查针对是否有合法权限。
系统允许检查针对特定资源的特殊权限，调用者可以使用ns_capable（）函数来检查是否有权能对特定的资源进行操作。
例如：下面reboot的系统调用，第一步是判断是否具有CAP_SYS_BOOT的权能？

SYSCALL_DEFINE4(reboot, int, magic1, int, magic2, unsigned int, cmd,
        void __user *, arg)
{
    struct pid_namespace *pid_ns = task_active_pid_ns(current);
    char buffer[256];
    int ret = 0;

    /* We only trust the superuser with rebooting the system. */
    if (!ns_capable(pid_ns->user_ns, CAP_SYS_BOOT))
        return -EPERM;

    /* For safety, we require "magic" arguments. */
    if (magic1 != LINUX_REBOOT_MAGIC1 ||
            (magic2 != LINUX_REBOOT_MAGIC2 &&
            magic2 != LINUX_REBOOT_MAGIC2A &&
            magic2 != LINUX_REBOOT_MAGIC2B &&
            magic2 != LINUX_REBOOT_MAGIC2C))
        return -EINVAL;

    /*
     * If pid namespaces are enabled and the current task is in a child
     * pid_namespace, the command is handled by reboot_pid_ns() which will
     * call do_exit().
     */
    ret = reboot_pid_ns(pid_ns, cmd);
    if (ret)
        return ret;

    /* Instead of trying to make the power_off code look like
     * halt when pm_power_off is not set do it the easy way.
     */
    if ((cmd == LINUX_REBOOT_CMD_POWER_OFF) && !pm_power_off)
        cmd = LINUX_REBOOT_CMD_HALT;

    mutex_lock(&reboot_mutex);
    switch (cmd) {
    case LINUX_REBOOT_CMD_RESTART:
        kernel_restart(NULL);
        break;

    case LINUX_REBOOT_CMD_CAD_ON:
        C_A_D = 1;
        break;

    case LINUX_REBOOT_CMD_CAD_OFF:
        C_A_D = 0;
        break;

    case LINUX_REBOOT_CMD_HALT:
        kernel_halt();
        do_exit(0);
        panic("cannot halt");

    case LINUX_REBOOT_CMD_POWER_OFF:
        kernel_power_off();
        do_exit(0);
        break;

    case LINUX_REBOOT_CMD_RESTART2:
        ret = strncpy_from_user(&buffer[0], arg, sizeof(buffer) - 1);
        if (ret < 0) {
            ret = -EFAULT;
            break;
        }
        buffer[sizeof(buffer) - 1] = '\0';

        kernel_restart(buffer);
        break;

#ifdef CONFIG_KEXEC
    case LINUX_REBOOT_CMD_KEXEC:
        ret = kernel_kexec();
        break;
#endif

#ifdef CONFIG_HIBERNATION
    case LINUX_REBOOT_CMD_SW_SUSPEND:
        ret = hibernate();
        break;
#endif

    default:
        ret = -EINVAL;
        break;
    }
    mutex_unlock(&reboot_mutex);
    return ret;
}

系统调用上下文

系统调用运行在进程上下文，所以可以休眠，可以被抢占，所以要保证该系统调用时可重入的。
1、绑定一个系统调用的最后步骤
1）、把系统调用注册成一个正式的系统调用：
I、首先，在系统调用表的最后加入一个表项。
II、对于所支持的各种体系结构，系统调用号都必须定义于<asm/unistd.h>中。
III、系统调用必须被编译进内核映像（不能编译成模块）。

2、从用户空间访问系统调用
1）、用户程序通过包含标准头文件和C库连接，就可以使用系统调用。
2）、Linux本身提供一个宏，用于直接对系统调用进行访问。
以Android系统一个reboot系统调用为例，应用程序调用reboot系统调用的方法如下：

ret = syscall(__NR_reboot, LINUX_REBOOT_MAGIC1, LINUX_REBOOT_MAGIC2,
                           LINUX_REBOOT_CMD_RESTART2, arg);

系统调用号的宏定义：位于文件/bionic/libc/kernel/uapi/asm-arm/asm/unistd.h
其中：

#define __NR_reboot 142

汇编定义相关函数的中断调用过程：syscall位于文件/bionic/libc/arch-arm64/bionic/syscall.S，内容如下：

ENTRY(syscall)
    /* Move syscall No. from x0 to x8 */
    mov     x8, x0
    /* Move syscall parameters from x1 thru x6 to x0 thru x5 */
    mov     x0, x1
    mov     x1, x2
    mov     x2, x3
    mov     x3, x4
    mov     x4, x5
    mov     x5, x6
    svc     #0

    /* check if syscall returned successfully */
    cmn     x0, #(MAX_ERRNO + 1)
    cneg    x0, x0, hi
    b.hi    __set_errno_internal

    ret
END(syscall)

3、不通过系统调用的方式实现的原因。
尽量不要自己添加系统调用，有很多其他方法可以替代：
1)实现一个设备节点，对设备进行read,write操作，使用ioctl对特定的设置进行操作。
2)把增加的信息作为一个文件放在sysfs中。