2019-07-12 1小时入门爬虫

2019-07-12  本文已影响0人  年画儿

爬虫难点:
页面的访问 反爬
数据库mongodb

对个人的发展,聚焦点应该聚焦在数据分析 而不是爬虫上面

网页 标签 元素和属性颜色不同
<a> 超链接标签 href
img scr 图片
div 大块 span小块
功能 js脚本实现的

div = soup.find(‘div’, id = ‘info’)
span = div.find(‘span’, class_ = ‘pl’)
span.text  #字
div.find(‘a’)[‘href’] #属性
div.find(‘a’).attrs[‘href’] #属性

dataframe 转换数据格式和排序

df['点评数量'] = df['点评数量'].astype(np.int)
df.sort_values(by = '点评数量', inplace = True, ascending=False)
屏幕快照 2019-07-12 上午11.31.49.png
屏幕快照 2019-07-12 上午10.46.08.png
上一篇下一篇

猜你喜欢

热点阅读