java 爬虫 webmagic

2023-07-09  本文已影响0人  wuyuan0127

1.  webmagic   官网地址: http://webmagic.io/

2.  引入依耐

<dependency>

<groupId>us.codecraft</groupId>

<artifactId>webmagic-core</artifactId>

<version>0.9.0</version>

<exclusions>

            <exclusion>

                <groupId>org.slf4j</groupId>

                <artifactId>slf4j-log4j12</artifactId>

            </exclusion>

        </exclusions>

</dependency>

<dependency><groupId>us.codecraft</groupId>

<artifactId>webmagic-extension</artifactId>

<version>0.9.0</version>

</dependency>

3. 官网demo

4. 分布式爬虫

分布式爬虫架构:

分布式爬虫注意点  uuid 在多台机器要一致:

Spider.create(pageProcess)

.setScheduler(new RedisScheduler())

.setUUID(UUID.randomUUID().toString()).run();

上一篇下一篇

猜你喜欢

热点阅读