LA1 Requests库实验

2019-02-11  本文已影响0人  icey_J

Request库实战

[TOC]

实例1:京东商品页面爬取

例如我们爬取最新的荣耀V20信息,目前仅仅是将HTML内容爬取下来

V20京东地址为:https://item.jd.com/39167157921.html

导入requests库 - 输入url - 爬取html

import requests
try:
    r = requests.get('https://item.jd.com/39167157921.html')
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[:1000])
except:
    print('爬取失败')

结果为

'<!DOCTYPE HTML>\n<html lang="zh-CN">\n<head>\n    <!-- shouji -->\n    <meta http-equiv="Content-Type" content="text/html; charset=gbk" />\n    <title>华为(HUAWEI) 荣耀v20手机 魅海蓝 8+128G 全网通【图片 价格 品牌 报价】-京东</title>\n    <meta name="keywords" content="华为(HUAWEI) 荣耀v20手机 魅海蓝 8+128G 全网通,华为(HUAWEI),,京东,网上购物"/>\n    <meta name="description" content="华为(HUAWEI) 荣耀v20手机 魅海蓝 8+128G 全网通图片、价格、品牌样样齐全!【京东正品行货,全国配送,心动不如行动,立即购买享受更多优惠哦!】" />\n    <meta name="format-detection" content="telephone=no">\n    <meta http-equiv="mobile-agent" content="format=xhtml; url=//item.m.jd.com/product/39167157921.html">\n    <meta http-equiv="mobile-agent" content="format=html5; url=//item.m.jd.com/product/39167157921.html">\n    <meta http-equiv="X-UA-Compatible" content="IE=Edge">\n    <link rel="canonical" href="//item.jd.com/39167157921.html"/>\n        <link rel="dns-prefetch" href="//misc.360buyimg.com"/>\n    <link rel="dns-prefetch" href="//static.360buyimg.com"/>\n    <link rel="dns-prefetch" href="//img10.360buyimg.com"/>\n    '

实例2:亚马逊商品页面爬取

​ 为什么要用Amazon呢,因为它的网站加入了反扒机制,会检测用户域,如果是爬虫则会拒绝访问,因此需要修改user-agent域来伪装成浏览器

选择一个商品网页,kindle泡面器https://www.amazon.cn/dp/B07746N2J9/ref=br_bsl_pdt-1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-bestsellers-1&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_t=36701&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_i=desktop

import requests
url = 'https://www.amazon.cn/dp/B07746N2J9/ref=br_bsl_pdt-1?pf_rd_m=A1AJ19PSB66TGU&pf_rd_s=desktop-bestsellers-1&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_r=3XP0DWDNGYDFH219T9HY&pf_rd_t=36701&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_p=546d17f0-7c03-421a-b79c-845e0ff4f521&pf_rd_i=desktop'
try:
    kv = {'user-agent':'Mozilla/5.0'} #Chrome works too
    r = requests.get(url, headers = kv)
    r.raise_for_status()
    r.encoding = r.apparent_encoding
    print(r.text[1000:2000])
except:
    print('爬取失败')

实例3:百度关键字提交

百度关键字url接口:

https://www.baidu.com/s?wd=keyword

这是一个关键字的情况,前面提到params参数可以添加参数到url,所以通过添加参数params来添加搜索关键词,而关键词的键值对是以wd=value出现

import requests
keyword = 'Python'
try:
    kv = {'wd':keyword}
    r = requests.get('baidu.com/s',params=kv)
    print(r.request.url)
    r.raise_for_status()
    print(len(t.text))
except:
    print('Failed')

实例4:网络图片的爬取和存储

​ 网络图片的爬取首先要取得图片链接的格式,使用get取得二进制数据后,使用write函数wb二进制写入

国家地理图片爬取

试一试中国国家地理的图片http://img0.dili360.com/ga/M01/34/17/wKgBy1SzO_SAeNc3AA6kjU76gRY482.tub.jpg

url最后的一段是文件的名称和格式

import requests
import os
url = 'http://img0.dili360.com/ga/M01/34/17/wKgBy1SzO_SAeNc3AA6kjU76gRY482.tub.jpg'
root = 'D://pics//'
path = root + url.split('/')[-1]
try:
    if not os.path.exists(root):
        os.mkdir(root)    #创建文件夹
    if not os.path.exists(path):
        r = requests.get(url)
        with open(path, 'wb') as f:
            f.write(r.content)    #二进制文件,用content返回信息
            print('File Saved')
    else:
        print('File existed')
except:
    print('Download Faild')

漂亮~

img
上一篇 下一篇

猜你喜欢

热点阅读