bsauce读论文:DEADLINE-Precise and S
总结
目标:挖掘Double-Fetch漏洞。操作系统内核代码中,可能出现两次读取用户空间数据的情况,如果两次读取之间,用户数据遭到篡改,而内核代码第二次读取没有对所读数据进行验证,就会可能导致Double-Fetch漏洞。
以往工作:由于错误的假定和不准确的漏洞定义,导致误报和漏报率过高。例如,不支持设备模拟、过程间分析、循环处理。
解决方法:形式化精确定义DF,提出DEADLINE—静态分析工具。首先采用静态程序分析寻找multi-read,再采用定制的符号化检查来检测multi-read是否导致DF。
结果:找到Linux和FreeBSD中24个漏洞;提出四种打补丁方法。
贡献:
a.形式化精确定义DF,自动确认DF
b.实现端到端系统DEADLINE,裁剪版符号执行自动确认DF
c.发现24个漏洞
d.提出四种通用补丁方法
1.简介
(1)multi-read定义
Wang[10]定义:根据第一次读的作用可分为 a.size checking—申请空间取决于size变量;b.type selection—申请空间取决于opcode值;c.shallow copy—头中包含指针,指向用户空间中第二段缓冲区。
本文定义:a.依赖查询—根据请求头的信息查询对应的handler,再拷贝整个请求;b.协议/签名检查—根据协议号采取对应处理方式;c.信息推测—当有信息缺失时,内核通过选择性读取来推测缺失信息,最后拷贝所有数据。
(2)现有的DF漏洞检测技术
Wang[10]:静态模式匹配,产生误报和漏报,且忽略了跨循环或函数调用的DF(缺乏过程间分析);模式匹配引擎Coccinelle[16]不支持宏扩展,设置某些配置如CONFIG_COMPAT时,与兼容性有关的函数才会生效,它们可能含有漏洞。需手动验证DF。
Bochspwn[9]:动态方法,难扩展到全内核分析,只有部分驱动能模拟;代码覆盖率低,只覆盖热点路径。需手动验证DF。
(3)DF条件及形式化定义
DF条件:
a.两次从用户空间读,multi-read。
b.读空间重叠,overlapped-fetch。
c.有依赖关系,控制/数据依赖。
d.用户线程可修改重叠区域的内容。
形式化定义:
double-fetch形式化定义2.DEADLINE Overview
选择符号执行原因:a.求解约束判定可满足性;b.可扩展性,不依赖硬件;c.能从任意点开始路径探索,类似UC-KLEE[17]。
选择LLVM IR原因:a.信息丰富,类型、函数名、参数;b.指令属于单一静态赋值形式,类似SE;c.可重用LLVM分析,如调用图构建、函数内联等。
总体步骤:
见Algorithm1。
Algorithm1-DEADLINE总体步骤2-收集所有fetch;4-对每个fetch,前向后向搜索控制流程图,查找另一个fetch,构成multi-read;6-对每对fetch构造可能的路径;8-调用符号执行引擎检查multi-read是否为DF漏洞。
3.具体步骤
3.1搜索multi-read
(1)fetch对搜集
方法:见Algorithm2。
a.识别所有fetch
b.对给定的1个fetch,收集附近(前后)的fetch与之配对,嵌入函数内也要搜索。
c.找到包含两个fetch的闭合函数Fn,<F0,F1,Fn>表示1个multi-read。
Algorithm2-搜集multi-read(2)执行路径构建
方法:
a.遍历Fn的CFG,找F0->F1的执行路径。
b.只保留相关指令,对该fetch有影响(fetch的地址和长度从该指令得来),或者被fetch影响(用到fetch-in值)。
执行路径线性化,即生成IR指令序列。Loop只展开1次(假定循环是为了递增读取输入,展开多次没必要)
3.2识别DF漏洞
见Figure4。
Fig4-DF示例及识别流程(1)案例解读
漏洞:存在size区域读重叠,第二次读入的attr->size没有进行检查,可被篡改attr->size=0xffffffff,触发竞争漏洞。
符号执行:见4c。$S—符号值,@X—$X指向的内存,<i,j,L>内存对象(L:K/U权限),循环处理/指针解决—见附录A。
(2)IR转化为SR
符号表示:PARM—参数/全局变量(没被定义过,看作roots),KMEM/UMEM—内存blob。
SE三种指令处理:
a.分支指令,不同于传统SE,只沿具体路径走,不探索新路径,搜集所走路径的分支条件。最后用求解器求解约束条件。
b.库函数,类型包括内存分配/内存操作/字符串操作/同步操作/调试和错误报告,方法是作函数摘要,linux中45个FreeBSD中12个。
c.内联汇编,一般忽略,对常见的作摘要。
(3)内存模型
现有内存模型:KLEE[14]/SAGE[15],内存由bit/byte线性数组表示,用select(a,i)/store(a,i)从数组a的位置i处读取和存入。
问题:未考虑到两次读取之间,数据被其他线程修改,找不到DF漏洞。
改进:
a.给用户空间读标注,以区分不同时间的读。
b.__user标注指针指向用户空间,否则指向内核空间。
c.内存模型,全内存字节组改为,1个指针对应1个字节数组。不同的函数参数和全局变量;新分配的指针如kmalloc;指针赋值是例外,新旧指针指向同一内存;不能证明指向同一内存对象的指针。
(4)形式化检查
a.是否有空间重叠
b.检测是否有控制/数据依赖
3.3实现
基于LLVM+Z3。
(1)增大代码覆盖率:编译更多内核代码,设置所有编译选项参数(#ifdef声明),如CONFIG_COMPAT。
(2)源码编译为LLVM IR: 所有bitcode文件整合为1个模块。
4.实验评估与讨论
实验结果:Linux和FreeBSD中发现23个和1个漏洞。
double-fetch利用方法:泄露信息;绕过检查;拒绝服务
不能自动判断可利用性原因:没有crash信号,需手动判断exploit是否成功;很难构造exploit。
打补丁方法:
a.采用第一次fetch的size;
b.判断两次fetch的size是否相等;
c.避免重复读取用户空间,增量读取;
d.重构代码,一次fetch所有用户数据。
DEADLINE优势:
(1)路径探索策略:离线探索,对特定路径进行符号执行,不执行无关路径。
(2)内存模型:对不同的用户空间读进行标记,抓住DF漏洞本质;现有符号执行技术中,指针可以指向任意区域,Deadline中,1个指针指向1个内存对象,从multi-read中筛选出不相关的fetch。
局限性:
(1)源码覆盖:a.LLVM编译不成功,3个文件系统4个驱动;b.没展开的宏代码。
(2)路径构造:a.路径构造数有限(最多4096条);b.循环需多次展开或跨循环才会触发的漏洞;c.循环中有分支,分支需先满足后不满足才会触发。
(3)符号化检查:a.漏报,忽略了很多内联汇编,且有些汇编总结不精确;b.漏报,没分析指针别名,可能访问了同一用户空间;c.误报,若第二次fetch正确性检查发生在闭函数之外,可能误判定为满足DF漏洞条件。