Python 3 爬虫 实战(1)

2019-07-03  本文已影响0人  blaze冰叔

Python学完基本的东西有段时间了,从今天开始,进行实战开发。

实战参考书籍 图灵原创 崔庆才 《Python3 网络爬虫开发实战》

开此记录实战过程中遇到的问题及解决方案,顺序依照上述书记的章节目录顺序

开战!!

1.1 python3安装(Mac上默认的是python2.7,自己再装了个3.7.3,安装步骤简单不赘述了)

1.2.1 Requests 的安装

       遇到的问题如下:

        默认mac上已经安装了 python2.7 而我又安装了 python3,并主要使用 python3;

        pip安装的包安装在了 python2.7

        所以我使用pip无法将requests库安装到python3上

PS:这个问题解决方案详见 https://www.jianshu.com/p/180fdd35bac4

     解决方案:

      1 使用virtualenv 虚拟环境来处理这个问题,可参考https://blog.csdn.net/weixin_38264564/article/details/80024025

      2 使用源码安装 git clone git://github.com/kennethreitz/requests.git 执行命令 cd requests 和 python3 setup.py install

       方案一,后续的操作需要再虚拟环境下操作需要activate和deactivate,我个人嫌麻烦,没有采用。使用了源码安装

    验证是否安装成功,如下,如报错即可

    $ python3

    > > import requests

1.2.2. Selenium 的安装

    有了上面的问题,selenium我就直接选择了源码安装 地址 

    https://pypi.org/project/selenium/#files 下载类型为source的文件(后缀名为tar.gz)

    cd 到 Selenium目录下 然后执行  python3 setup.py instal

    验证是否安装成功,如下,如报错即可

    $ python3

    > > import selenium

1.2.3 ChromeDriver的安装

    根据自己安装的chrome版本来选择驱动版本,对应关系以及下载地址参考

    https://blog.csdn.net/BinGISer/article/details/88559532

    找到对应版本后将可执行文件移动到指定目录下

    sudo mv /Users/****/Desktop/chromedriver  /usr/local/bin  

    配置环境变量

    export PATH="$PATH:/usr/local/bin/chromedriver"

    source ~./profile

    查看配置是否ok执行 echo $PATH

    检查chromedriver是否安装成功

    命令行执行如下

    python3

    >>> from selenium import Webdriver

    >>> web = Webdriver.Chrome()

    >>> web.get("www.baidu.com")

    如果chrome自己打开并进入了百度首页就万事大吉,如果打开又闪退,那就是chromedriver版本不对

1.2.4 GeckoDriver 的安装(自己没装火狐,这里就先略过)、

1.2.5 PhantomJS

    原书中提到了无界面爬数据使用了phantomjs,但是最新版本的selenium已经不再支持phantomjs,并且phantomjs下载列表中的已经无法打开,就放弃这个了

    替代方案(chrome & firefox 新版本都支持了无头模式)

    >>>fromselenium.webdriver.chrome.options

    >>>importOptionsoptions = Options()

    >>>options.add_argument('-headless')#无头参数

    >>>browser = webdriver.Chrome(chrome_options=options)

1.2.6 aiohttp 的安装

    依然采用源码安装

    地址:https://pypi.org/project/aiohttp/#files,方法如Requests源码安装一样

    验证是否安装成功,如下,如报错即可    

        $ python3

        > > import aiohttp

上一篇下一篇

猜你喜欢

热点阅读