Python_kad爬虫学习笔记（一）

2015-03-21 本文已影响135人瓦力求索

为了对爬虫有更深的理解，我决定在网上随意找个小网站进行抓取，实践出真知。也是像豆瓣爬虫学习一样，分阶段进行，分阶段更新。也算是备份，方便日后查看。第一阶段成功如下：

# -*- coding: cp936 -*-

import urllib2

import re

f=urllib2.urlopen(‘http://www.360kad.com/dymhh/allclass.shtml’).read()

n1=f.find(‘http://www.360kad.com/Category_45/Index.aspx’)

n2=f.find(‘Category_4057/Index.aspx” target=”_blank”>’)

f1=f[n1:(n2)+54]#在豆瓣爬虫学习笔记（五）提到学到的技巧，总看别人写的优秀源代码确实很有帮助。

f2=re.findall(‘http://www.360kad.com/Category_\d{1,}/Index.aspx’,f1)

r=0

for n in f2:

tagpag=urllib2.urlopen(n).read()

r=r+1

e=file(‘tagpag_%d.txt’%r,’w')#批量新建文件，抓到的原始tag代码批量保存到文件中，方便日后编辑

e.write(tagpag)

e.close()

运行结果如下：

学习过程中碰到的问题：我本想讲tag的url和name以dic形式保存，结果没有弄明白，对dic还不熟，就先简单的只保存url吧