Python_kad爬虫学习笔记(一)

2015-03-21  本文已影响135人  瓦力求索

为了对爬虫有更深的理解,我决定在网上随意找个小网站进行抓取,实践出真知。也是像豆瓣爬虫学习一样,分阶段进行,分阶段更新。也算是备份,方便日后查看。第一阶段成功如下:

# -*- coding: cp936 -*-

import urllib2

import re

f=urllib2.urlopen(‘http://www.360kad.com/dymhh/allclass.shtml’).read()

n1=f.find(‘http://www.360kad.com/Category_45/Index.aspx’)

n2=f.find(‘Category_4057/Index.aspx” target=”_blank”>’)

f1=f[n1:(n2)+54]#在豆瓣爬虫学习笔记(五)提到学到的技巧,总看别人写的优秀源代码确实很有帮助。

f2=re.findall(‘http://www.360kad.com/Category_\d{1,}/Index.aspx’,f1)

r=0

for n in f2:

tagpag=urllib2.urlopen(n).read()

r=r+1

e=file(‘tagpag_%d.txt’%r,’w')#批量新建文件,抓到的原始tag代码批量保存到文件中,方便日后编辑

e.write(tagpag)

e.close()

运行结果如下:

学习过程中碰到的问题:我本想讲tag的url和name以dic形式保存,结果没有弄明白,对dic还不熟,就先简单的只保存url吧

上一篇 下一篇

猜你喜欢

热点阅读