程序员

抓取智联招聘

2018-11-21  本文已影响0人  去角落里种蘑菇

网页屏蔽,服务器屏蔽

模拟用户进行数据抓取

基于selenium库和selenium.webdriver

抓取数据和网络速度等有关

视频链接 https://www.bilibili.com/video/av31369828/?p=6

主要代码如下

import selenium #测试框架
import selennium.webdriver #模拟浏览器
import re

mystr = """<span class \"search_yx_t j\">
  共<em>5830</em>个职位满足条件
  <span>"""

restr = "<em>(\\d+)</em>"#d+表示和数字有关;():只要里面的对象
regex = re.compile(restr, re. IGNORECASE)
mylist = regex.findall(pagesource)
def getnumberbyname(searchname):
  url = "https://sou.zhaopin.com/?jl=613&kw=" + searchname + "&kt=3"
  driver = selenium.webdriver.Firefox() #调用火狐浏览器
  driver.get(url) #访问链接
  pagesource = driver.page_source #抓取网页源代码
  driver.close()#关闭
  return mylist[0]

# print getnumberbyname("python") 这是测试函数

pythonlist = ["python", "python 运维", "python 测试", "python 数据", "python web"]
for oystr in pythonlist:
  print pystr, getnumberbyname(pystr)
上一篇 下一篇

猜你喜欢

热点阅读