shell爬虫批量下载豆瓣相册图片

2018-03-18  本文已影响143人  uuspider

不久前家里装修,想搞个书架,看到豆瓣上有这么一个相册收集了一些书房书架的图片,简单写了个shell全部抓回来参考。

shell爬取豆瓣相册中的图片

分析该相册首页的源码,可以看到相册总页数含有关键字data-total-page,每一页有18张图片,次页到最后一页的url,只要在首页url后加?start=PAGENUMBER,其中PAGENUMBER18*页码,通过字符串拼接即得到相册每一页完整的url。

get_page_url(){
  num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
  for ((i=0; i<=num_pages; i++))
  do
    page_no=$(( 18 * i))
    page_url="${base_url}"?start=${page_no}
    get_img_no ${page_url}
  done
}

这里定义了一个函数get_page_url用于获取相册每一页的url,并将该url传递给另一个函数get_img_no,这是一种shell中常用的参数传递方法。

需要注意,在(())中引用的变量不需要加前缀$

函数get_img_no用于获取相册每一页中目标图片的编号,只要搜索关键词photolst_photo即可。

get_img_no() {
  curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
}

$1就是从get_page_url传递过来的网址,从该网址中提取图片的编号,存储到文件/tmp/img_no.txt中。

通过函数get_page_url中的for循环,反复调用get_img_no,就把相册每一页中的图片编号全部提取出来了。

图片的url可以通过简单的字符串拼接得到,但是该页面所展示的图片只是一个缩略图,为了得到原图,需要解析“查看大图”的链接。

get_img() {
  while read line
  do
    if !(grep $line img_done.txt)
    then
      img_s_url="https://www.douban.com/photos/photo/""$line""/large"
      img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
      curl -A "${user_agent}" -O "$img_url"
      echo $line >> img_done.txt
      sleep 20
    fi
  done < /tmp/img_no.txt
  rm /tmp/img_no.txt
}

函数get_img用于解析大图链接并下载图片。while循环按行提取图片编号,拼接为图片所在网页的链接img_s_url,该网页中的“查看大图”含有关键词/large/,很容易解析出大图链接img_url,下载完大图后,将该图编号追加到文件img_done.txt中,也就是说img_done.txt中存储了所有已下载图片的编号。

这里的if用于确认某一张图片是否已经下载过,如果下载过则直接跳过,不再重复下载。如果每隔一段时间运行一次该脚本,就可以保证只下载最新图片。

豆瓣的反爬措施相对而言是比较完善的,不过只要稍微控制一下访问频率,爬取少量图片还不足以触发反爬程序,因此加入了一个延时sleep 20

完整的代码如下。

#!/usr/bin/env bash

base_url='https://www.douban.com/photos/album/84338335/'
user_agent='Mozilla/5.0 (X11; Linux x86_64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/43.0.2357.130 Safari/537.36'

touch img_done.txt

get_img() {
  while read line
  do
    if !(grep $line img_done.txt)
    then
      img_s_url="https://www.douban.com/photos/photo/""$line""/large"
      img_url=$(curl -A "${user_agent}" "$img_s_url" | grep '/large/' | awk -F\" '{print $6}')
      curl -A "${user_agent}" -O "$img_url"
      echo $line >> img_done.txt
      sleep 20
    fi
  done < /tmp/img_no.txt
  rm /tmp/img_no.txt
}

get_img_no() {
  curl -A "${user_agent}" "$1" | grep "photolst_photo" | awk -F\/ '{print $6}' >> /tmp/img_no.txt
}

get_page_url(){
  num_pages=$(curl -A "${user_agent}" "${base_url}" | grep 'data-total-page' | head -n 1 | awk -F\" '{print $4}')
  for ((i=0; i<=num_pages; i++))
  do
    page_no=$(( 18 * i))
    page_url="${base_url}"?start=${page_no}
    get_img_no ${page_url}
  done
}

get_page_url
get_img

exit 0

由于首次运行时还没有img_done.txt文件,因此使用touch新建一个文件,如果该文件已经存在,touch只更新文件的属性信息。

将该文件存储为get_img.sh,通过bash -x可在终端中实时看到脚本运行的情况:

$ bash -x get_img.sh

如果把脚本扔到crontab中定时运行,就可以追踪该相册的更新情况,并自动下载最新图片了。(不过这个相册貌似很久都不更新了。)

搞明白这个简单的例子,抓取豆瓣上其它类似内容都易如反掌了。

这个脚本充分体现了shell“糙、猛、快”的特点,对于一次性的自用需求,简直不能再合适了。

豆瓣上有个“害羞组”,是很多python爬虫初学者的试验目标,何不试试shell呢?

上一篇下一篇

猜你喜欢

热点阅读