网站信息抓取实践
导语:
成绩抓取主要涉及到三块技术:web、数字图像处理与机器学习
目标
从目标官网上,根据数据库中已有的身份证和姓名,抓取其所有成绩,并存入数据库中。
步骤
- 1 获取验证码
- 2 识别验证码
- 3 查询成绩
- 4 成绩入库
获取验证码
原始验证码如下,是一个数学表达式。图中的数字是经过旋转和扭曲处理的,还随机分布着点和线。破解难度中等。
识别验证码
- 1 图像二值化
干扰点和干扰线的灰度值,比字符的灰度值小,因此可以利用这个特征,通过图像二值化,去除干扰点和干扰线。使用opencv库,首先计算图像的灰度直方图,并归一化,根据灰度直方图的分布找到二值化的阈值后,再二值化。
void procBinary(Mat image,Mat& threshold_image,int index)
{
float range[] = {float(min_grey),float(max_grey)} ;
const float* hist_range = {range};
bool uniform = true;
bool accumulate = false;
Mat hist;
//计算灰度直方图
calcHist(&image,1,0,Mat(),hist,1,&max_grey,&hist_range,uniform,accumulate);
//归一化
normalize(hist,hist,0,image.rows,NORM_MINMAX,-1,Mat());
int threhold = 0;
for(int j = 0; j < hist.size().height; j++){
if(abs(hist.at<float>(0,j)-image.rows)<precision){
threhold = j;
}
}
//根据阈值二值化
threshold(image,threshold_image,threhold+1,max_grey,THRESH_BINARY);
}
预处理后的效果如下:
- 2 字符分割
破解验证码的重点和难点就在于能否成功分割字符,这一点也是机器视觉里的一道难题,对物件的识别能力。对于颜色相同又完全粘连的字符,比如google的验证码,目前是没法做到5%以上的识别率的。不过google的验证码基本上人类也只有30%的识别率
官网上的验证码,字符有一定几率会粘连,因此会一定程度上影响验证码识别的准确率。
使用扫描线法,从最左侧开始从左到右扫描,如果没有遇到任何文字的像素,就则往右一个像素然后再扫描,如果遇到有文字像素存在,就记录当前横坐标,继续向右扫,突然没有文字像素的时候,就说明到了两个字符直接的空白部分。再根据记录的位置分割字符。
-
3 标准化
主要是对字符进行缩放,使之成为32x32的图片。
这里并没有使用算法对旋转扭曲的字符进行处理,原因有两点1、训练数据中的字符也是旋转的,不处理对识别率的影响不大,2、如果每次都对旋转、扭曲的算法进行处理,计算量也大。
- 4 使用卷积神经网络(CNN)
生成训练数据
如果手动对几千张图片分类,需要大量的人工操作了,至少得好几个小时。观察接口发现,官网上是使用securimage开源库生成的验证码,使用的是SI_CAPTCHA_MATHEMATIC模式。
既然能够拿到验证码生成程序,那么训练数据就很容易得到。在生成验证码时,不生成随机干扰点与线,将验证码对应的值作为图像名的一部分保存。
//验证码数据生成
do {
$signs = array('+', '-', 'x');
$left = mt_rand(1, 10);
$right = mt_rand(1, 10);
$sign = $signs[mt_rand(0, 2)];
$equal = '=';
$out = '?';
switch($sign) {
case 'x': $c = $left * $right; break;
case '-': $c = $left - $right; break;
default: $c = $left + $right; break;
}
} while ($c <= 0); // no negative #'s or 0
$this->code = "$c";
$this->code_display = "$left $sign $right $equal $out"
//将验证码对应的值作为图像名的一部分保存
$filename = "data/".uniqid()."_".$this->code_display.".png";
imagepng($this->im,$filename);
imagedestroy($this->im);
将securimage生成验证码,并自动归类到相应的文件夹中
训练
卷积神经网络(Convolutional Neural Network,CNN)是一种前馈神经网络,它的人工神经元可以响应一部分覆盖范围内的周围单元,对于大型图像处理有出色表现。
CNN可以用来识别位移、缩放及其他形式扭曲不变性的二维图形。由于CNN的特征检测层通过训练数据进行学习,所以在使用CNN时,避免了显示的特征抽取,而隐式地从训练数据中进行学习。
代码实现参照nladuo,使用LeNet5卷积神经网络,以32x32的图片作为输入,对于字符的变形、旋转、干扰线等扭曲都可以很好的识别,可以实现以下效果。
卷积神经网络会自己不断的对训练集进行学习迭代,每次迭代都会对识别率有所改进。
具体步骤如下:
- 1 将测试数据放到training_set目录下
- 2 设置字符集
std::string label_strs[13] = {
"-", "x", "+", "0", "1", "2", "3", "4", "5", "6", "7", "8", "9"
};
- 3 将4/5的数据作为训练集,将1/5的数据作为测试集
- 4 开始训练
//进度轴
progress_display disp(train_images.size());
timer t;
//最小批处理尺寸
int minibatch_size = 100;
//迭代次数
int num_epochs = 50;
//一轮训练后的回调函数
auto on_enumerate_epoch = [&](){
std::cout << t.elapsed() << "s elapsed." << std::endl;
tiny_cnn::result res = nn.test(test_images, test_labels);
std::cout << res.num_success << "/" << res.num_total << std::endl;
disp.restart(train_images.size());
t.restart();
};
auto on_enumerate_minibatch = [&](){
disp += minibatch_size;
};
// 开始训练
nn.train<mse>(optimizer, train_images, train_labels, minibatch_size, num_epochs, on_enumerate_minibatch, on_enumerate_epoch);
将神经网络的权重输出到"weights"中。
训练结束后,根据输出可以看到单个字符有1806/1870=97%的识别率,假设验证码有4个字符,那么有0.97^4=0.88左右的识别率。考虑到验证码分割大概有20%概率不会成功,整体验证码识别率应该在0.88*0.8= 70%左右。
之前验证码的识别结果如下
查询成绩
官网将cookie中的PHPSESSID值作为用户的身份标识,因此在获取验证码和查询成绩时设置同样的PHPSESSID即可。
$content = $this->curlHelper->request($this->config["captchaUrl"]);
file_put_contents("bin/captcha$index.png",$content);
exec("cd bin;./recognizer captcha$index.png",$ret);
需要注意的是,如果网站有反爬虫机制,对访问频次和ip有限制,则需要使用ip池,通过代理访问。最大重试次数的设置,由于150000pow((1-0.7),10)=0.885*,因此将最大重试次数设置为10时,循环15万个身份证,基本都能识别出来
成绩入库
数据库中有15万个有身份证,最终从官网上能查到成绩的有41836选手,188077条记录