麻瓜编程·python实战·1-5作业：爬58转转

2016-08-10 本文已影响0人 bbjoe

我的成果

运行结果

我的代码

from bs4 import  BeautifulSoup
import requests, time, random, json

# 换代理，参考现成的：https://mugglecoding.gitbooks.io/qa/content/ru_he_huo_qu_dai_li_ip.html
resp = requests.get("http://tor1024.com/static/proxy_pool.txt")
ips_txt = resp.text.strip().split("\n")
ips = []
for i in ips_txt:
    try:
        k = json.loads(i)
        ips.append(k)
    except Exception as e:
        print(e)

# 58搜索页面
urls = ['http://bj.58.com/pbdn/0/pn{}/'.format(str(i)) for i in range(1,4)]
headers = {'headers':'Mozilla/5.0 (Windows NT 6.1; WOW64) \ '
                     'AppleWebKit/537.36 (KHTML, like Gecko) Chrome/52.0.2743.116 Safari/537.36'}

# 从转转页面爬取二手商品信息
def zhuanzhuan_data(url):
    # 列表用来整理商品标签（商品vs标签：1对多）
    total_tags = []
    try:
        web_data = requests.get(url, headers=headers, proxies=random.choice(ips),timeout=6)
        soup = BeautifulSoup(web_data.text, 'lxml')
        category = soup.select('div[class="breadCrumb f12"] \> \ '
                               'span:nth-of-type(4) > a')[0].get_text().lstrip()
        subject = soup.select('h1[class="info_titile"]')[0].get_text()
        page_view = soup.select('span[class="look_time"]')[0].get_text()
        price = soup.select('span[class="price_now"] > i')[0].get_text()
        region = soup.select('div[class="palce_li"] > span > i')[0].get_text()
        tags = soup.select('div[class="biaoqian_li"] > span')

        # 标签需要单独整理一下
        for tag in tags:
            tag = tag.get_text()
            total_tags.append(tag)

        # 汇总信息到一个词典
        data = {
            'category':category,
            'title':subject,
            'view':page_view,
            'price':price,
            'region':region,
            'tags':total_tags
        }

        # 打印词典，把词典传入“写入txt”的函数
        print(data)
        create_txt(data)

    except Exception as e:
        print(e)

def create_txt(data):
    f = open(r'c:/users/administrator/desktop/zz.txt', 'a')
    f.write(str(data) + '\n' + '-'*70 + '\n')
    f.close()

# 从58搜索页面获取二手商品链接
def get_zz(url):
    web_data = requests.get(url)
    soup = BeautifulSoup(web_data.text, 'lxml')
    zz_urls = soup.select('tr.zzinfo > td.img > a')

    for zz_url in zz_urls:
        print('这是第',zz_urls.index(zz_url) + 1,'条转转')
        zz_url = zz_url.get('href')
        zhuanzhuan_data(zz_url)

# 【#####起点#####】
for url in urls:
    print('#####第',urls.index(url) + 1,'页#####')
    print('-'*60)
    get_zz(url)
    print('-'*60)

我的感想：

这个作业做完了，但感觉有点勉强，而且满是疑惑，没有清爽的感觉，可能是“困难”带来的挫败感还没消失吧
这个作业花了很久：

其实实现爬虫功能的大部分代码我中午就写了得差不多了（大约花了40分钟），但是午休起来之后我怎么都爬不出完整的3页150条数据，因为老是报错：
报错
从request.get()什么参数都没加，到试headers，试proxies……花了很久，其中包含了自我怀疑的放空时间。<a>换代理的代码以后可以随便抄了呃</a>
总体来说应该是花了<a>四个半小时</a>左右的时间吧（太恐怖了）。

写入到 txt 的时候，用 'w+' 就只能写1条数据，直到用了 'a' ，问题解决了。

麻瓜编程·python实战·1-5作业：爬58转转

我的成果

我的代码

我的感想：

猜你喜欢

热点阅读