爬虫程序(获取新闻网站的URL)2018-11-03

2018-11-03  本文已影响0人  画奴

import pymysql

import requests as re

from bs4 import BeautifulSoup

try:

    for i in range(1,389):#389

        url="http://by.cuc.edu.cn/zcyw/"+str(i)

        r=re.get(url)

        #print(r.text)

        soup = BeautifulSoup(r.text,'html.parser')

        title=soup.find_all('h3',attrs={'class','tit'})

        print(i)

        for t in title:

            newsurl=t.find_all('a')

            urllen=str(newsurl[0]).find('target')

            print(str(newsurl[0])[9:urllen-2])

            print(t.get_text())

except:

    print("error") 

上一篇 下一篇

猜你喜欢

热点阅读