爬虫|一只忙里偷闲的小蜘蛛
应该有3个月没有碰爬虫了,原因:该死的工作!๑乛◡乛๑
闲话,最近状态
昨天又加班啦,晚上很开心地去大哥大嫂那蹭饭,提及为什么周六都要加班,对这个问题,我后来在回来的路上还是认真地思考了一下,具体过程本想用一个思维导图来说明,毕竟在下的原则是能用画的说明白的就不用写的,能用写的描述清楚的就不用说的。大概过程是这样的,我是谁?我在哪?……最后结论就是,这块宝地与在下八字不合,嗯!
此处是一张非常惊奇的思维导图。。。囧rz(ーー;)(ーー;)(ーー;)(ーー;)
加班 的问题想明白了之后顿时就觉得神清气爽,正是突破魂师进阶魂斗罗,啊不,好好学习知识的大好时候啊!
趁着兴致,把更新的几部国漫刷完,已是凌晨两点,time to sleep。醒来已是中午10点,几缕阳光在窗前跳跃,嗯,好天气!吃饱喝足回来,擦了擦电脑上厚厚的灰尘,嗯,正常开机。
正题了
前几天马爷给我发了个楼盘,想网上看看吧,这房产网,看起来有点费劲啊,嗯,爬了吧!
写着写着,忽然想起来,这机子刚装的Py3.6啊,其他啥都没有呢,嗯,有点裸。于是重新装各种库,其中pandas花费的时间有点出乎意料,不过还是成功了,贴个图
由于主要想看下各地区的楼盘分布,所以定下主要抓取数据:楼盘名称,地址,开发商,价格
网页结构很好爬,但是还是走了点弯路,因为刚开始没有很好的观察网页结构,以至于用BeautifuSoup来解析,总是抓不到想要的数据。后来,仔细向度娘了解了各种标签,把整个网页爬下来贴到notepad++里,XML格式下,仔细分析了下,终于拿到了想要的数据。
最后用DataFrame格式化一下数据,pandas写入到excel(因为本机无任何数据库(╥╯^╰╥),真不像话!还搞啥数据),最后数据如下:
好贵啊嗯,数据拿到了,但是格式还是不是很标准,价格那块比较明显,还是不利于分析,有待处理,后续分析部分待续。。。今天就到这吧,time for dinner
哦,粗糙的代码贴一下吧
嗯,好糙待续。。。