java 爬虫 webmagic
2023-07-09 本文已影响0人
wuyuan0127
1. webmagic 官网地址: http://webmagic.io/
2. 引入依耐
<dependency>
<groupId>us.codecraft</groupId>
<artifactId>webmagic-core</artifactId>
<version>0.9.0</version>
<exclusions>
<exclusion>
<groupId>org.slf4j</groupId>
<artifactId>slf4j-log4j12</artifactId>
</exclusion>
</exclusions>
</dependency>
<dependency><groupId>us.codecraft</groupId>
<artifactId>webmagic-extension</artifactId>
<version>0.9.0</version>
</dependency>
3. 官网demo

4. 分布式爬虫

分布式爬虫架构:

分布式爬虫注意点 uuid 在多台机器要一致:
Spider.create(pageProcess)
.setScheduler(new RedisScheduler())
.setUUID(UUID.randomUUID().toString()).run();