用python一步步解剖dex文件(三)
请勿转载,谢谢!!!
全解析框架和信息篡改
引
前两篇主要在已有的项目dexparser基础上,做的研究和补充;但是想对dex做修改的话,这个就不够了。
所以我自己做了一个解析框架,这个框架将dex分解为层级对象,并且可以将层级对象重新还原回dex格式中。
框架代码地址: https://github.com/callmejacob/dexfactory
android dex文件格式:
https://source.android.google.cn/devices/tech/dalvik/dex-format
android源码中对dex格式的解析和校验:
http://androidxref.com/8.0.0_r4/xref/dalvik/libdex/
框架结构
dex文件可以看成是一个section的列表,每个section里包含一个item列表,而每个item中又可能嵌套某个数据结构data。
其中,section列表的信息(类型,子项数目,文件偏移量)最终会记录在叫MAP_LIST的section段中。
基于此,首先抽象出一个字节数组对象类(BytesObject),它包含一个字节数组和解码编码的方法,解码用于从该字节数组中获取一个对象信息,编码用于将对象信息重新压缩回字节数组中。
上面提到的data使用BaseData抽象,item使用BaseItem抽象,section使用BaseSection抽象。
继承关系如下:
基类图每个section都是有类型的:(按官方文档,这里缺失一些类型,需要继续补充)
类型定义基于抽象基类和类型,我们定义基于BaseItem的各个类型的子类,并做item类的映射表:
item类映射表并且定义基于BaseSection的各个类型的子类,并做section类的映射表:
section类映射表为了能够跨越section获取信息,定义一个上下文的类Context,它包含了section的映射表:
Context类最后定义一个Dex文件的信息类DexInfo,它负责打开dex文件,解码,编码,保存,打印等等。
DexInfo最主要的流程还是解码和编码的过程:
解码过程 编码过程这里面的难点主要是文件偏移量和排序问题。
dex的数据结构中,很多是直接用文件偏移量表示的,可是该文件偏移量对应的项信息发生了更改(特别是文件偏移量需要调整的时候),就会出现混乱;还有android的libdex在解析dex时会做很多顺序的校验,比如string_ids列表的数字必须从低到高等。
为此,我做了两重映射: off <> id <> item
其中off是指文件偏移量,id是指对应的子项在section中的索引编号,而item就是对应的子项。
在解码过程中,从Dex里解析到的是off,然后使用[ off ---> id ]转换,再做[ id ---> item ]转换,这样子项item里的信息,就包含了其它section中相应的id和item信息。
在编码过程中,因为section里的子项列表可能做了调整,所以先做[ item ---> id ]转换(同时按照新的id进行排序),再做[ id ---> off ]转换,这样最后的偏移量就是准确的偏移量了。
测试程序和字符串修改
Demo其中修改函数如下:
修改字符串运行结果:
result使用dexdump可以立即检测下新的dex文件是否有问题:
dexdump classes_new.dex
如果发现错误信息,可以到android源码中的dalvik/libdex中,找寻相应的提示来定位问题。
最后,将新的dex文件替换掉原有apk中的dex文件,重新用zip压缩为apk,并重新签名。
这里提供一个mac上的签名工具:
地址: 链接: https://pan.baidu.com/s/1kXiUgFt 密码: xy6j
使用: signapk.sh xxx.apk xxx_signed.apk
需要完善的地方
1. 类型不完全
2. 排序功能不完全
3. 字节码反编译框架
4. 数据使用需要优化