我爱编程

记录 ghost.py 设置proxy的过程

2018-02-05  本文已影响126人  腿长袖子短

这是一个自己测试用的python文件,这个url需要FQ才能使用,所以用到了SSR Client

from ghost import Ghost,Session
url = 'https://doub.io/dbrj-4/'
g = Ghost()
se = Session(g, display=False, wait_timeout=60)
se.set_proxy(type_='https', host='127.0.0.1', port=1083)
se.open(url)
data = se.content
with open('doub_2.html', 'wb+') as f:
    content = data.encode('UTF-8')
    f.write(content)
    f.close()
print('---done---')
g.exit()

然而尝试之后html文件里边没有获取到任何内容,一番排查之后发现了问题,将se.set(type_='http')改为se.set(type_='https'),再次测试.ok,html文件里边有了完整的源码
所以在ghost中设置代理时需要根据目标的url来设置type_http/https(一般咱们做爬虫发送get请求也就这两个了)
至此,在不懈的努力之下终于又解决了使用代理后爬虫无法使用phantomjs解析动态页面的问题,遇到各种反爬措施的站也有更好的应对策略了,妈妈再也不用担心我崩溃了,-!!!

上一篇下一篇

猜你喜欢

热点阅读