爬虫句子迷

2019-05-22 本文已影响1人 Jupiter_19

句子迷网站（www.juzimi.com/）是提供高品质句子的专业句子网站，是一个美句佳句的分享社区。但它有个缺点，就是里面的文字没法直接复制。因而就想到了能否使用网页爬虫的方式摘录句子。试了之后发现，这个网站的爬虫还是比较容易实现的。

一些爬虫结果

爬虫鲁迅

爬虫三体

爬虫魔戒

句子迷口号

爱写字，爱摘抄，不爱平庸；
爱阅读，爱收藏，不爱遗忘。
迷恋文字，崇尚共鸣，
有那么一点点执着，有那么一点点个性，
不是什么小众，也不是什么大流，
我们只为那一行行跳动的文字着迷。
我们是自己精神世界的主人，
我们是句子迷。

爬虫代码

import re,requests

fo = open("爬虫三体.txt", "w")
pagecount = 15

url = 'https://www.juzimi.com/search/node/%E4%B8%89%E4%BD%93%20type%3Asentence'

headers = {
    "User-Agent": "Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/66.0.3359.139 Safari/537.36",
    "Referer": url,
}

start = r'class="xlistju">'
end = r'</a></div><div'

def mywrite(params):
    data = requests.get(url, params =params,headers = headers)
    data.encoding = data.apparent_encoding
    
    fir = str(re.findall(start+'.*?'+end,data.text))
    fir = fir.replace(start,'\n')
    fir = fir.replace(end,'\n')
    fir = fir.replace('\', \'','')
    fir = fir.replace('[\'','')
    fir = fir.replace('\']','')
    fir = fir.replace('\\r<br/>','\n')

    fo.write(fir)
    print(fir)

for i in range(pagecount):
    if i:
        params = {"page":i}
    else:
        params ={}
    mywrite(params)

fo.close()

爬虫句子迷

一些爬虫结果

句子迷口号

爬虫代码

猜你喜欢

热点阅读