用python一步步解剖dex文件（三）

2018-02-14 本文已影响251人虎七

请勿转载，谢谢！！！

全解析框架和信息篡改

引

用python一步步解剖dex文件（一）

用python一步步解剖dex文件（二）

前两篇主要在已有的项目dexparser基础上，做的研究和补充；但是想对dex做修改的话，这个就不够了。

所以我自己做了一个解析框架，这个框架将dex分解为层级对象，并且可以将层级对象重新还原回dex格式中。

框架代码地址： https://github.com/callmejacob/dexfactory

android dex文件格式：

https://source.android.google.cn/devices/tech/dalvik/dex-format

android源码中对dex格式的解析和校验：

http://androidxref.com/8.0.0_r4/xref/dalvik/libdex/

框架结构

dex文件可以看成是一个section的列表，每个section里包含一个item列表，而每个item中又可能嵌套某个数据结构data。

其中，section列表的信息（类型，子项数目，文件偏移量）最终会记录在叫MAP_LIST的section段中。

基于此，首先抽象出一个字节数组对象类（BytesObject），它包含一个字节数组和解码编码的方法，解码用于从该字节数组中获取一个对象信息，编码用于将对象信息重新压缩回字节数组中。

上面提到的data使用BaseData抽象，item使用BaseItem抽象，section使用BaseSection抽象。

继承关系如下：

基类图

每个section都是有类型的：（按官方文档，这里缺失一些类型，需要继续补充）

类型定义

基于抽象基类和类型，我们定义基于BaseItem的各个类型的子类，并做item类的映射表：

item类映射表

并且定义基于BaseSection的各个类型的子类，并做section类的映射表：

section类映射表

为了能够跨越section获取信息，定义一个上下文的类Context，它包含了section的映射表：

Context类

最后定义一个Dex文件的信息类DexInfo，它负责打开dex文件，解码，编码，保存，打印等等。

DexInfo

最主要的流程还是解码和编码的过程：

解码过程

编码过程

这里面的难点主要是文件偏移量和排序问题。

dex的数据结构中，很多是直接用文件偏移量表示的，可是该文件偏移量对应的项信息发生了更改（特别是文件偏移量需要调整的时候），就会出现混乱；还有android的libdex在解析dex时会做很多顺序的校验，比如string_ids列表的数字必须从低到高等。

为此，我做了两重映射： off <> id <> item

其中off是指文件偏移量，id是指对应的子项在section中的索引编号，而item就是对应的子项。

在解码过程中，从Dex里解析到的是off，然后使用[ off ---> id ]转换，再做[ id ---> item ]转换，这样子项item里的信息，就包含了其它section中相应的id和item信息。

在编码过程中，因为section里的子项列表可能做了调整，所以先做[ item ---> id ]转换（同时按照新的id进行排序），再做[ id ---> off ]转换，这样最后的偏移量就是准确的偏移量了。

测试程序和字符串修改

Demo

其中修改函数如下：

修改字符串

运行结果：

result

使用dexdump可以立即检测下新的dex文件是否有问题：

dexdump classes_new.dex

如果发现错误信息，可以到android源码中的dalvik/libdex中，找寻相应的提示来定位问题。

最后，将新的dex文件替换掉原有apk中的dex文件，重新用zip压缩为apk，并重新签名。

这里提供一个mac上的签名工具：

地址：链接: https://pan.baidu.com/s/1kXiUgFt 密码: xy6j

使用： signapk.sh xxx.apk xxx_signed.apk

需要完善的地方

1. 类型不完全

2. 排序功能不完全

3. 字节码反编译框架

4. 数据使用需要优化

用python一步步解剖dex文件（三）

请勿转载，谢谢！！！

全解析框架和信息篡改

引

框架结构

测试程序和字符串修改

需要完善的地方

【待续】

猜你喜欢

热点阅读