ECommerceCrawlers

多种电商商品数据🐍爬虫，整理收集爬虫练习。通过实战项目练习解决一般爬虫中遇到的问题。

通过每个项目的readme，了解爬取过程分析。

对于精通爬虫的pyer，这将是一个很好的例子减少重复收集轮子的过程。项目经常更新维护，确保即下即用，减少爬取的时间。

对于小白通过✍️实战项目，了解爬虫的从无到有。爬虫过程的分析可以移步项目wiki。爬虫可能是一件非常复杂、技术门槛很高的事情，但掌握正确的方法，在短时间内做到能够爬取主流网站的数据，其实非常容易实现，但建议从一开始就要有一个具体的目标。

在目标的驱动下，你的学习才会更加精准和高效。那些所有你认为必须的前置知识，都是可以在完成目标的过程中学到的😁😁😁。

欢迎大家对本项目的不足加以指正，⭕️Issues或者🔔Pr

在之前上传的大文件贯穿了3/4的commits，发现每次clone达到100M，这与我们最初的想法违背，我们不能很有效的删除每一个文件（太懒），将重新进行初始化仓库的commit。并在今后不上传爬虫数据，优化仓库结构。

CrawlerDemo

[x] DianpingCrawler：大众点评爬取
[x] 📛TaobaoCrawler：淘宝商品爬取
[x] 📛XianyuCrawler：闲鱼商品爬取
[x] SohuNewCrawler：新闻网爬取
[ ] 📛WechatCrawler：微信公众号爬取
[x] cnblog：scrapy博客园爬取
[x] OtherCrawlers：一些有趣的爬虫例子
- [x] 0x01 百度贴吧
- [x] 0x02 豆瓣电影
- [x] 0x03 阿里任务
- [x] 0x04 包图网视频
- [ ] 0x05 全景网图片
- [x] 0x06 豆瓣音乐
- [x] 0x07 某省药监局
- [x] 0x08 fofa
- [ ] 0x09 汽车之家
- [ ] 0x010 国家统计局
- [x] 0x10 baidu
- [x] 0x11 蜘蛛泛目录

Contribution👏


<a href="https://github.com/Joynice"><img class="avatar" src="https://avatars0.githubusercontent.com/u/22851022?s=96&v=4" width="48" height="48" alt="@Joynice"></a>	<a href="https://github.com/liangweiyang"><img class="avatar" src="https://avatars0.githubusercontent.com/u/37971213?s=96&v=4" width="48" height="48" alt="@liangweiyang"></a>

wait for you

What You Learn ?

本项目使用了哪些有用的技术

数据分析
- [x] chrome Devtools
- [x] Fiddler
- [x] Firefox
- [ ] appnium
- [x] anyproxy
- [x] mitmproxy
数据采集
- [x] urllib
- [x] requests
- [x] scrapy
- [x] selenium
- [ ] pypputeer
数据解析
- [x] re
- [x] beautifulsoup
- [x] xpath
- [x] pyquery
- [x] css
数据保存
- [x] txt文本
- [x] csv
- [x] excel
- [ ] mysql
- [x] redis
- [x] mongodb
反爬验证
- [x] mitmproxy 绕过淘宝检测
- [x] js数据解密
- [x] js数据生成对应指纹库
- [x] 文字混淆
- [ ] 穿插脏数据
效率爬虫
- [x] 单线程
- [x] 多线程
- [x] 多进程
- [x] 异步协成
- [x] 生产者消费者多线程
- [ ] 分布式爬虫系统

链接标识官方文档或推荐例子

What`s Spider 🕷？

🙋0x01 爬虫简介

爬虫

爬虫是一种按照一定的规则，自动地抓取万维网信息的程序或者脚本。

爬虫作用

市场分析：电商分析、商圈分析、一二级市场分析等
市场监控：电商、新闻、房源监控等
商机发现：招投标情报发现、客户资料发掘、企业客户发现等

网页介绍

url
html
css
js

Roobots协议

无规矩不成方圆，Robots协议就是爬虫中的规矩，它告诉爬虫和搜索引擎哪些页面可以抓取，哪些不可以抓取。
通常是一个叫作robots.txt的文本文件，放在网站的根目录下。

🙋0x02爬取过程

获取数据

模拟获取数据

🙋0x03解析数据

beautifulsoup

xpath

yquery

css

🙋0x04 存储数据

小规模数据存储（文本）

txt文本
csv
excel

大规模数据存储（数据库）

mysql
redis
mongodb

🙋0x05 反爬措施

反爬

反反爬

🙋0x06 效率爬虫

多线程

多进程

异步协程

scrapy框架

Padding

…………

最新的爬虫项目集合，里面项目已经验证能用