2019-10-09 笑话网爬虫（练习requests）

2019-10-09 本文已影响0人小楼主

import requests
import re
def get_one_page(url):
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/76.0.3809.100 Safari/537.36'}
    res = requests.get(url, headers=headers)
    return res.text

def parse_one_page(html):
    pattern=re.compile('<div class="one-cont".*?<i>(.*?)</i>.*?<a href=.*?>(.*?)</a>.*?</div>',re.S)
    items=re.findall(pattern,html)
    for item in items:
        yield {
            'author':item[0],
            'content':item[1]
        }

def main():
    url = 'https://www.xiaohua.com/duanzi?page=1'
    html=get_one_page(url)
    for item in parse_one_page(html):
        print(item)


if __name__=='__main__':
    main()

2019-10-09 笑话网爬虫（练习requests）

猜你喜欢

热点阅读