爬虫url 拼接的坑

2018-11-22 本文已影响0人 chliar

前端设置根目录

<head>
<base href="http://www.w3school.com.cn/i/" />
<base target="_blank" />
</head>

<body>
<img src="eg_smile.gif" />
<a href="http://www.w3school.com.cn">W3School</a>
</body>

scrapy
可利用urllib 和scrapy中的response.urljoin(url) 去拼接

from urllib import parse
 url = response.urljoin(u)
 url_path = parse.urlparse(url).path
 url_basename = os.path.basename(url)

热点阅读

早餐里见世界
谏言：全国的扫黑反腐

08-22浅谈对“天津爆炸事故”的看法和感想
07-04元芳你怎么看下一句
07-03陪伴是最长情的告白下一句
01-21你知道fighting是什么意思？告诉你fighting的意思
06-23深度好文：生命的意义不单是幸福
06-20深度好文：人最怕深交后的陌生

爬虫url 拼接的坑

猜你喜欢

热点阅读