Python Webscraping

2016-12-17  本文已影响31人  sleepyjoker

Python作为强大的脚本语言,非常适合编写网络爬虫。
在实际开始编写爬虫获取某一个网站数据的时候,应当对某一个网站有着充分的了解,方便后续程序的编写。

www.zhihu.com/robots.txt

(知乎的robot.txt真是简单粗暴。。)
User-agent定义了使用的用户代理,*表示对于所有的用户代理;
Crawl-delay规定了两次抓取间的延时应为10s;
Disallow表示不允许爬取的页面。

whois

可以看到域名归属于godaddy。

上一篇下一篇

猜你喜欢

热点阅读