使用Python下载某个Android模块源码
个人感觉Android源码是学习Android开发的最好资料,在这里首先推荐两个看Android源码的网站:
androidos
androidxref
两个网站的内容都差不多,其中androidos的排版比较舒服,还进行了热门模块的索引,可以很方便的下载某些文件,但是下载整个模块时候就比较坑了,比如下载Music模块时,如图
只有8kb,明显这个网站自带的下载只是下载了一级目录下的内容,没有递归下载深层次目录的内容,这不是闹着玩么....
办法总是有的,我手动一级一级下载不就好了么( ̄▽ ̄)/。开个玩笑,正好最近在学Python,于是就试着写一个程序,来下载整个模块的内容。
主要思路是,利用栈,使用类似深度遍历的方法开始遍历:
1.访问模块根目录的地址,进入第2步
2.解析HTML文档,得到该级目录下的内容,将各个内容的地址进栈,进入第3步
3.如果栈不为空,从栈顶弹出一个地址,访问该地址,如果是文件,执行第4步,如果是文件夹,执行第5步。如果栈为空,执行第6步
4.下载该文件,进入第3步
5.在本地创建该文件夹,保持路径嵌套正确,并且访问该地址,回到第2步
6.程序结束
程序并不复杂,关键点在于解析HTML,获取到我们需要的东西,具体做法可以把我的代码和网页的源代码联合起来看,这里解析HTML我使用了BeautifulSoup模块,这里顺便提供一下该模块的官方中文文档
Beautiful Soup 中文文档
代码比较短我就直接贴出来,大部分地方会有注释:
from urllib import request
from bs4 import BeautifulSoup
from retrying import retry #一个比较不错的出错重试库,没用的朋友可以尝试一下
import os
import time
import random
class Utils(object):
SUCCESS_CODE = 200
ERROR = "err"
BaseUrl = "https://www.androidos.net.cn"
Size = '-'
DEBUG = True
#打开地址,失败时最多重试3次,每次重试前等待3s
@retry(stop_max_attempt_number = 3,wait_fixed = 3000)
def opneUrl(self,url):
with request.urlopen(url,None,10) as response:
if response.getcode() == self.SUCCESS_CODE:
return [True, url, response.read().decode('utf-8')]
else:
raise Exception("connect error")
#主要用于捕获异常
def getHtml(self,url):
try:
return self.opneUrl(url)
except Exception as e:
self.err += 1
self.log("Error! url = " + url + str(e))
return [False, url, self.ERROR]
#解析HTML文档
def parase(self,html):
if html[0]:
try:
soup = BeautifulSoup(html[2],"lxml") #此处使用lxml作为解析器,有可能需要另行安装,该解析器需要c语言库支持
table = soup.find(self.getFileList)#找到文件列表所在的table
trs = table.find('tbody').find_all('tr')#每个条目都是一个tr,拿到全部条目
for tr in trs:
if len(tr.find_all('td')) > 2:#过滤掉那个返回上一级的条目
info = [True, tr.find(self.getName).a.string, tr.find(self.getSize).string != self.Size, self.BaseUrl+tr.find(self.getName).a['href']]#存储解析到的信息
if info[2]:
info[3] = info[3].replace("xref","download")#如果是文件的话替换为下载地址
self.stack.append(info)#进栈
except Exception as e:
self.err += 1
self.log("Error! Parase fail ,url = " + html[1])
self.stack.append([False,html[1]])
else:
self.stack.append([False,html[1]])
#下载或者创建目录
def mkDirOrDownload(self):
while len(self.stack) != 0:#循环出栈
s = self.stack.pop()
if s[0]:
if s[2]:#如果是文件,则下载
filename = s[3].partition(self.module)[2]#通过地址解析出文件名及相对路径
self.log("download file : " + filename)
try:
self.download(s[3],filename)
except Exception as e:
self.err += 1
self.log("Error! download fail : url = " + s[3] + " " + str(e))
else:#如果是目录则创建目录
dirname = s[3].partition(self.module)[2]#通过地址解析出目录的相对路径
self.log("mkdir : " + dirname)
os.mkdir(self.downDir + dirname)
self.parase(self.getHtml(s[3]))
self.log("end!!! error = "+ str(self.err) + " time = " + str(time.time() - self.startTime))
#下载文件的方法,同样失败时重试3次,每次重试前等待3s
@retry(stop_max_attempt_number = 3,wait_fixed = 3000)
def download(self,url,filename):
with request.urlopen(url,None,10) as file:
data = file.read()
with open(self.downDir + filename, 'wb') as down:
down.write(data)
def getFileList(self,tag):
return tag.name == 'table' and 'table' in tag['class'] and 'filelist' in tag['class'] and 'table-hover' in tag['class']
def getName(self,tag):
return tag.name == 'td' and 'content' in tag['class']
def getSize(self,tag):
return tag.name == 'td' and 'size' in tag['class']
#输出日志的方法
def log(self,info):
if self.DEBUG:
print(info)
with open(self.downDir + self.logName, 'a') as log:
log.write(info)
log.write('\n')
#运行入口
def run(self):
self.parase(self.getHtml(self.url))
self.mkDirOrDownload()
#类初始化
def __init__(self,url,directory):
self.startTime = time.time() #记录开始时间
self.err = 0 #记录错误数
self.stack = [] #初始化栈
self.url = url #存储传入的模块地址
self.module = url.split('/').pop() + "/" #解析出模块名
self.downDir = directory + self.module #构建下载目录
self.logName = "log"+ str(random.uniform(10,20))[3:] #随机生成一个日志文件
try:
os.mkdir(self.downDir) #创建下载目录
except Exception as e:
print(e)
exit(0)
以下载Music模块为例
from Utils import Utils
desktop = "C:/Users/mpc/Desktop/"
url = "https://www.androidos.net.cn/android/8.0.0_r4/xref/packages/apps/Music"
utils = Utils(url,desktop)
utils.run()
这基本属于Python比较简单基础的应用,由于初学Python,还写不出比较厉害的程序,还有许多不足点需要补充,另外本程序没有采用多线程方法,会导致下载速度比较慢。如果有什么建议或者补充欢迎提出ヾ(๑╹◡╹)ノ"
实测下来,下载整个apps下面的48个模块 用时如下
其中有7个错误,都是网站没有该文件