Jupiter的技术整理

爬虫句子迷

2019-05-22  本文已影响1人  Jupiter_19

句子迷网站(www.juzimi.com/)是提供高品质句子的专业句子网站,是一个美句佳句的分享社区。但它有个缺点,就是里面的文字没法直接复制。因而就想到了能否使用网页爬虫的方式摘录句子。试了之后发现,这个网站的爬虫还是比较容易实现的。

一些爬虫结果

爬虫鲁迅
爬虫三体
爬虫魔戒

句子迷口号

爱写字,爱摘抄,不爱平庸;
爱阅读,爱收藏,不爱遗忘。
迷恋文字,崇尚共鸣,
有那么一点点执着,有那么一点点个性,
不是什么小众,也不是什么大流,
我们只为那一行行跳动的文字着迷。
我们是自己精神世界的主人,
我们是句子迷。

爬虫代码

import re,requests

fo = open("爬虫三体.txt", "w")
pagecount = 15

url = 'https://www.juzimi.com/search/node/%E4%B8%89%E4%BD%93%20type%3Asentence'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
    "Referer": url,
}

start = r'class="xlistju">'
end = r'</a></div><div'

def mywrite(params):
    data = requests.get(url, params =params,headers = headers)
    data.encoding = data.apparent_encoding
    
    fir = str(re.findall(start+'.*?'+end,data.text))
    fir = fir.replace(start,'\n')
    fir = fir.replace(end,'\n')
    fir = fir.replace('\', \'','')
    fir = fir.replace('[\'','')
    fir = fir.replace('\']','')
    fir = fir.replace('\\r<br/>','\n')

    fo.write(fir)
    print(fir)

for i in range(pagecount):
    if i:
        params = {"page":i}
    else:
        params ={}
    mywrite(params)

fo.close()
上一篇 下一篇

猜你喜欢

热点阅读