Python数据采集与爬虫爬虫Python 爬虫专栏

爬取今日头条街拍图片

2017-03-13  本文已影响305人  小白猿

前言

本博客主要记录跟随崔庆才老师的分析Ajax抓取今日头条街拍美图学习的整个过程,更多精品文章,请参阅崔老师的博客,再次感谢崔老师教导。

3月15日更新,14日代码敲完了,今天主要总结整个过程

啰嗦心得

开始爬取

索引页面

简单来说此次抓取氛围两部分,一部分是图片的索引页面,另外一部分是通过点击索引进入详情页面,抓取具体的图片的地址,并将其存储,最后下载图片资源

跟随视频学习,打开谷歌的工具查看索引页面的源代码,没有看到和素材相关的资源,这里略总结一下,以目前自己所学的这点知识,想要的链接信息主要存在于一下三方面的元素中

详情页面

经过分析,在图片的详情页面图片数据是存储在页面的 var gallery变量中,这变量后面也是一个json数据,所以我们经过正则匹配来或者这个变量后边的json数据

存储到数据库

下载图片

将以上代码整体串接调用

def main(offset):
    html = get_page_index(offset, KEYWORD)
    for url in parse_page_index(html):
        detail = get_page_detail(url)
        # 这里进行一下判断,如果能正常返回在进行解析
        if detail and parse_page_detail(detail, url):
            result = parse_page_detail(detail, url)
            if result:
                save_to_db(result)

if __name__ == "__main__":
       main()

代码地址

最后

无论从接触爬虫还是博客的编写都显得匆忙和粗糙,以后随着知识的完善,博客也会进行相应的更新,希望大家不吝赐教,提出问题指正,谢谢

上一篇 下一篇

猜你喜欢

热点阅读