【python爬虫】-第十一、十二次
2018-01-19 本文已影响4人
急躁的假汉子
第十一次
一、简单叙述爬虫原理
整体逻辑 url请求----下载源码(数据)====解析====存储数据(文件 数据库)
1:发送url请求 常用的get post方法 对应requests包请求url的方法,get post headers
2:网站服务器web程序接收请求 渲染数据到页面 返回给请求对象数据
3:解析渲染后的页面 获取数据 (谷歌浏览器常使用的一些用法 解析器的使用 Beautifulsoup4 Xpath json)
4:存储文件(数据库) 对应的方法 编写代码
第十二次
一、定义一个类storeCsv
类的功能,对csv模块进行再次封装,要求:
1、判断您要创建的csv文件判断文件是否存在,存在则给予提示(可以是输出:文件已存在等语句)
2、将数据不换行写入csv文件
3、数据包含:姓名 年龄 城市 地址 职业 (数据自定义,至少写五行)
示例:class storeCsv():
def 函数():
代码
def 函数():
代码
....
test = storeCsv()
.....
import os
import csv
class storeCsv():
def is_file(self,file_name):
if os.path.exists(file_name):
print('该文件已存在')
else:
csvfile = open(file_name,'w',encoding='utf-8')
writer = csv.writer(csvfile)
writer.writerow(['姓名','年龄','城市','地址','职位'])
csvfile.close()
def write_file(self,file_name,data):
csvfile = open(file_name, 'a',encoding='utf-8')
writer = csv.writer(csvfile)
writer.writerows(data)
csvfile.close()
if __name__ == '__main__':
test = storeCsv()
file_name = 'write_file.csv'
test.is_file(file_name)
data = [('张三','26',u'北京',u'北京胡同',u'要饭'),(u'李四','28',u'上海',u'外滩',u'乞丐')]
test.write_file(file_name,data)