使用Python下载某个Android模块源码

2018-01-12  本文已影响0人  留给时光吧

个人感觉Android源码是学习Android开发的最好资料,在这里首先推荐两个看Android源码的网站:
androidos
androidxref
两个网站的内容都差不多,其中androidos的排版比较舒服,还进行了热门模块的索引,可以很方便的下载某些文件,但是下载整个模块时候就比较坑了,比如下载Music模块时,如图

只有8kb,明显这个网站自带的下载只是下载了一级目录下的内容,没有递归下载深层次目录的内容,这不是闹着玩么....

办法总是有的,我手动一级一级下载不就好了么( ̄▽ ̄)/。开个玩笑,正好最近在学Python,于是就试着写一个程序,来下载整个模块的内容。

主要思路是,利用栈,使用类似深度遍历的方法开始遍历:
1.访问模块根目录的地址,进入第2步
2.解析HTML文档,得到该级目录下的内容,将各个内容的地址进栈,进入第3步
3.如果栈不为空,从栈顶弹出一个地址,访问该地址,如果是文件,执行第4步,如果是文件夹,执行第5步。如果栈为空,执行第6步
4.下载该文件,进入第3步
5.在本地创建该文件夹,保持路径嵌套正确,并且访问该地址,回到第2步
6.程序结束

程序并不复杂,关键点在于解析HTML,获取到我们需要的东西,具体做法可以把我的代码和网页的源代码联合起来看,这里解析HTML我使用了BeautifulSoup模块,这里顺便提供一下该模块的官方中文文档
Beautiful Soup 中文文档

代码比较短我就直接贴出来,大部分地方会有注释:

from urllib import request
from bs4 import BeautifulSoup
from retrying import retry  #一个比较不错的出错重试库,没用的朋友可以尝试一下
import os
import time
import random
class Utils(object):
    SUCCESS_CODE = 200
    ERROR = "err"
    BaseUrl = "https://www.androidos.net.cn"
    Size = '-'
    DEBUG = True
    
    #打开地址,失败时最多重试3次,每次重试前等待3s
    @retry(stop_max_attempt_number = 3,wait_fixed = 3000)
    def opneUrl(self,url):
        with request.urlopen(url,None,10) as response:
            if response.getcode() == self.SUCCESS_CODE:
                return [True, url, response.read().decode('utf-8')]
            else:
                raise Exception("connect error")
    #主要用于捕获异常
    def getHtml(self,url):
        try:
            return self.opneUrl(url)
        except Exception as e:
            self.err += 1
            self.log("Error! url = " + url + str(e))
            return [False, url, self.ERROR]
    
    #解析HTML文档
    def parase(self,html):
        if html[0]:
            try:
                soup = BeautifulSoup(html[2],"lxml")  #此处使用lxml作为解析器,有可能需要另行安装,该解析器需要c语言库支持
                table = soup.find(self.getFileList)#找到文件列表所在的table
                trs = table.find('tbody').find_all('tr')#每个条目都是一个tr,拿到全部条目
                for tr in trs:
                    if len(tr.find_all('td')) > 2:#过滤掉那个返回上一级的条目
                        info = [True, tr.find(self.getName).a.string, tr.find(self.getSize).string != self.Size, self.BaseUrl+tr.find(self.getName).a['href']]#存储解析到的信息
                        if info[2]:
                            info[3] = info[3].replace("xref","download")#如果是文件的话替换为下载地址
                        self.stack.append(info)#进栈
            except Exception as e:
                self.err += 1
                self.log("Error! Parase fail ,url = " + html[1])
                self.stack.append([False,html[1]])
        else:
            self.stack.append([False,html[1]])
  
    #下载或者创建目录
    def mkDirOrDownload(self):
        while len(self.stack) != 0:#循环出栈
            s = self.stack.pop()
            if s[0]:
                if s[2]:#如果是文件,则下载
                    filename = s[3].partition(self.module)[2]#通过地址解析出文件名及相对路径
                    self.log("download file : " + filename)
                    try:
                        self.download(s[3],filename)
                    except Exception as e:
                        self.err += 1
                        self.log("Error! download fail : url = " + s[3] + " " + str(e))
                else:#如果是目录则创建目录
                    dirname = s[3].partition(self.module)[2]#通过地址解析出目录的相对路径
                    self.log("mkdir : " + dirname)
                    os.mkdir(self.downDir + dirname)
                    self.parase(self.getHtml(s[3]))
        self.log("end!!! error = "+ str(self.err) + " time = " + str(time.time() - self.startTime))
  
    #下载文件的方法,同样失败时重试3次,每次重试前等待3s
    @retry(stop_max_attempt_number = 3,wait_fixed = 3000)
    def download(self,url,filename):
        with request.urlopen(url,None,10) as file:
            data = file.read()
            with open(self.downDir + filename, 'wb') as down:
                down.write(data)

    def getFileList(self,tag):
        return tag.name == 'table' and 'table' in tag['class'] and 'filelist' in tag['class'] and 'table-hover' in tag['class']

    def getName(self,tag):
        return tag.name == 'td' and 'content' in tag['class']

    def getSize(self,tag):
        return tag.name == 'td' and 'size' in tag['class']
   
    #输出日志的方法
    def log(self,info):
        if self.DEBUG:
            print(info)
            with open(self.downDir + self.logName, 'a') as log:
                log.write(info)
                log.write('\n')

    #运行入口
    def run(self):
        self.parase(self.getHtml(self.url))
        self.mkDirOrDownload()
  
    #类初始化
    def __init__(self,url,directory):
        self.startTime = time.time()  #记录开始时间
        self.err = 0 #记录错误数
        self.stack = []  #初始化栈
        self.url = url  #存储传入的模块地址
        self.module = url.split('/').pop() + "/"  #解析出模块名
        self.downDir = directory + self.module  #构建下载目录
        self.logName = "log"+ str(random.uniform(10,20))[3:]  #随机生成一个日志文件
        try:
            os.mkdir(self.downDir)  #创建下载目录
        except Exception as e:
            print(e)
            exit(0)

以下载Music模块为例

from Utils import Utils
desktop = "C:/Users/mpc/Desktop/"
url = "https://www.androidos.net.cn/android/8.0.0_r4/xref/packages/apps/Music"

utils = Utils(url,desktop)
utils.run()

这基本属于Python比较简单基础的应用,由于初学Python,还写不出比较厉害的程序,还有许多不足点需要补充,另外本程序没有采用多线程方法,会导致下载速度比较慢。如果有什么建议或者补充欢迎提出ヾ(๑╹◡╹)ノ"


实测下来,下载整个apps下面的48个模块 用时如下

其中有7个错误,都是网站没有该文件



上一篇下一篇

猜你喜欢

热点阅读