网站信息抓取实践

2017-07-27  本文已影响0人  loloxiaoz

导语:

成绩抓取主要涉及到三块技术:web、数字图像处理与机器学习

目标


从目标官网上,根据数据库中已有的身份证和姓名,抓取其所有成绩,并存入数据库中。

步骤


获取验证码

原始验证码如下,是一个数学表达式。图中的数字是经过旋转和扭曲处理的,还随机分布着点和线。破解难度中等。


识别验证码

  void procBinary(Mat image,Mat& threshold_image,int index)
  {
      float range[] = {float(min_grey),float(max_grey)} ;
      const float* hist_range = {range};
      bool uniform = true;
      bool accumulate = false;
      Mat hist;
      //计算灰度直方图
      calcHist(&image,1,0,Mat(),hist,1,&max_grey,&hist_range,uniform,accumulate);
      //归一化
      normalize(hist,hist,0,image.rows,NORM_MINMAX,-1,Mat());
      int threhold = 0;
      for(int j = 0; j < hist.size().height; j++){
          if(abs(hist.at<float>(0,j)-image.rows)<precision){
              threhold = j;
          }
      }
      //根据阈值二值化
      threshold(image,threshold_image,threhold+1,max_grey,THRESH_BINARY);
  }

预处理后的效果如下:


破解验证码的重点和难点就在于能否成功分割字符,这一点也是机器视觉里的一道难题,对物件的识别能力。对于颜色相同又完全粘连的字符,比如google的验证码,目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率

官网上的验证码,字符有一定几率会粘连,因此会一定程度上影响验证码识别的准确率。
使用扫描线法,从最左侧开始从左到右扫描,如果没有遇到任何文字的像素,就则往右一个像素然后再扫描,如果遇到有文字像素存在,就记录当前横坐标,继续向右扫,突然没有文字像素的时候,就说明到了两个字符直接的空白部分。再根据记录的位置分割字符。

生成训练数据

如果手动对几千张图片分类,需要大量的人工操作了,至少得好几个小时。观察接口发现,官网上是使用securimage开源库生成的验证码,使用的是SI_CAPTCHA_MATHEMATIC模式。


既然能够拿到验证码生成程序,那么训练数据就很容易得到。在生成验证码时,不生成随机干扰点与线,将验证码对应的值作为图像名的一部分保存。
//验证码数据生成
do {
       $signs = array('+', '-', 'x');
       $left  = mt_rand(1, 10);
       $right = mt_rand(1, 10);
       $sign  = $signs[mt_rand(0, 2)];
       $equal = '=';
       $out   = '?';

       switch($sign) {
             case 'x': $c = $left * $right; break;
             case '-': $c = $left - $right; break;
             default:  $c = $left + $right; break;
        }
} while ($c <= 0); // no negative #'s or 0
$this->code         = "$c";
$this->code_display = "$left $sign $right $equal $out"
//将验证码对应的值作为图像名的一部分保存
$filename = "data/".uniqid()."_".$this->code_display.".png";
imagepng($this->im,$filename);
imagedestroy($this->im);

将securimage生成验证码,并自动归类到相应的文件夹中


训练

卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
CNN可以用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习。

代码实现参照nladuo,使用LeNet5卷积神经网络,以32x32的图片作为输入,对于字符的变形、旋转、干扰线等扭曲都可以很好的识别,可以实现以下效果。


卷积神经网络会自己不断的对训练集进行学习迭代,每次迭代都会对识别率有所改进。
具体步骤如下:
std::string label_strs[13] = {
    "-", "x", "+", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9"
};
  //进度轴
  progress_display disp(train_images.size());
  timer t;
  //最小批处理尺寸
  int minibatch_size = 100;
  //迭代次数
  int num_epochs = 50;
  //一轮训练后的回调函数
  auto on_enumerate_epoch = [&](){
  std::cout << t.elapsed() << "s elapsed." << std::endl;
  tiny_cnn::result res = nn.test(test_images, test_labels);
  std::cout << res.num_success << "/" << res.num_total << std::endl;
  disp.restart(train_images.size());
  t.restart();
  };
  auto on_enumerate_minibatch = [&](){
  disp += minibatch_size;
  };
  // 开始训练
  nn.train<mse>(optimizer, train_images, train_labels, minibatch_size, num_epochs, on_enumerate_minibatch, on_enumerate_epoch);

将神经网络的权重输出到"weights"中。
训练结束后,根据输出可以看到单个字符有1806/1870=97%的识别率,假设验证码有4个字符,那么有0.97^4=0.88左右的识别率。考虑到验证码分割大概有20%概率不会成功,整体验证码识别率应该在0.88*0.8= 70%左右。


之前验证码的识别结果如下

查询成绩

官网将cookie中的PHPSESSID值作为用户的身份标识,因此在获取验证码和查询成绩时设置同样的PHPSESSID即可。

$content    = $this->curlHelper->request($this->config["captchaUrl"]);
file_put_contents("bin/captcha$index.png",$content);
exec("cd bin;./recognizer captcha$index.png",$ret);

需要注意的是,如果网站有反爬虫机制,对访问频次和ip有限制,则需要使用ip池,通过代理访问。最大重试次数的设置,由于150000pow((1-0.7),10)=0.885*,因此将最大重试次数设置为10时,循环15万个身份证,基本都能识别出来

成绩入库

数据库中有15万个有身份证,最终从官网上能查到成绩的有41836选手,188077条记录

上一篇下一篇

猜你喜欢

热点阅读