IOS开发分享----爬虫技术
这段时间趁闲鱼时间,看到一段关于JAVA爬虫某知名网站的代码;试了试ios利用webview 及 AFNETWORKING网络请求 ;仿java思路 完成了一个成功的dome;
闲话不多说:
大致流程:
1、利用火狐、Google chrome浏览器 查看控制台 抓取 其网络请求(get、post)获取其请求头、请求体;
2、利用webview获取cookies (https请求需要自己配置info.list)
3、参考其请求模式,模拟请求 获取HTML响应体;
4、解析请求体、展示给用户; //获取有效信息
5、 保存数据提交自己的服务器;
1、利用火狐、Google chrome浏览器 查看控制台 抓取 其网络请求(get、post)获取其请求头、请求体;
注:以百度为例2、利用webview获取cookies
注:web设为(0,0,0,0)给自己的UI留位置3、参考其请求模式,模拟请求 获取HTML响应体
这个是关键,需要模拟请求
注:这个是HTTPS get请求遇到post的其实可以用ios原生post请求 获取 根据浏览器获取的请求方式进行:
NSURLSession*session = [NSURLSessionsharedSession];
// 设置请求路径
NSURL*URL=[NSURLURLWithString:@"https://www.baidu.com"];//不需要传递参数
// 创建请求对象
NSMutableURLRequest*request=[NSMutableURLRequestrequestWithURL:URL];//默认为get请求
request.timeoutInterval=5.0;//设置请求超时为5秒
request.HTTPMethod=@"POST";//设置请求方法
// 设置请求体
NSString*param=[NSStringstringWithFormat:@"reportformat=21&tradeCode=%@",uesr_name];
//把拼接后的字符串转换为data,设置请求体
[requestsetValue:@"max-age=0"forHTTPHeaderField:@"Cache-Control"];
[requestsetValue:cookies forHTTPHeaderField:@"Cookie"];
[requestsetValue:@"https://www.baidu.com"forHTTPHeaderField:@"Origin"];
request.HTTPBody=[paramdataUsingEncoding:NSUTF8StringEncoding];
// 发送请求
NSURLSessionDataTask*dataTask = [sessiondataTaskWithRequest:request completionHandler:^(NSData*_Nullabledata,NSURLResponse*_Nullableresponse,NSError*_Nullableerror) {
// 解析数据data流过来的html编码转换成NSString
NSStringEncodingenc =CFStringConvertEncodingToNSStringEncoding(kCFStringEncodingGB_18030_2000);//可以在流量器上获取解码的类型
NSString* str =[[NSStringalloc]initWithData:dataencoding:enc];
// 反馈给服务器
NSLog(@"=====>>>>>%@",str);
//[data writeToFile:@"/Users/lufeng1/Desktop/c.html" atomically:YES];//可以测试看看获取的数据正确与否
}];
// 执行任务
[dataTaskresume];
4、解析请求体、展示给用户
解析这里的responseObject即可 给的例子是用GB翻译的 可以用保存的方式 存储为HTML查看
给个福利吧,查看HTML有些时候获取不全body 可以试试这句话-----
//NSString * str= [webView stringByEvaluatingJavaScriptFromString:@"document.body.innerHTML"];
5、 保存数据提交自己的服务器
自己post回去有用信息即可
文章写的比较粗糙吧,过程之中可能会遇到HTTPS请求报错 那就需要配置相对应的HTTPS.cer文件放入工程:
~openssl s_client -connect www.baidu.com:443 /dev/null | openssl x509 -outform DER > https.cer
可把www.baidu.com替换直接获取证书。