Zipkin介绍和使用

2020-04-03 本文已影响0人西5d

zipkin介绍

Zipkin是一个分布式链路跟踪系统，可以采集时序数据来协助定位延迟等相关问题。数据可以存储在cassandra,MySQL,ES,mem中。分布式链路跟踪是个老话题，国内也有类似的框架，比如阿里的skywalking。 zipkin目前和SpringCloud生态结合紧密，有相关的支持。

zipkin原理

架构

主要包括客户端和一个管理服务端。在客户端采集数据后，发送给服务端，用来展示数据。在每个instrumented的客户端，写入了traceId，然后统一收集数据在服务端存储。这里instrumented翻译过来是仪器化，设备化，为了简单我把他称作标识实体，代表一个接入了zipkin的客户端。

zipkin架构图

原理

结构和概念

zipkin包括四个组件，collector，storage，search，webUI。其中collector中重点有两个

Span 表示一个追踪节点，有唯一标识
Trace 表示一条调用链路，根据Span的parentId串联起来

跟踪web请求

zipkin可以跟踪多种请求，如async方法,schedule,rxjava等，都在org.springframework.cloud.sleuth.instrument包下，这里以web请求做介绍。在SpringCloud下用sleuth来做跟踪处理。具体通过一个拦截器 org.springframework.cloud.sleuth.instrument.web.TraceHandlerInterceptor实现，如下

    @Override
    public boolean preHandle(HttpServletRequest request, HttpServletResponse response,
            Object handler) throws Exception {
        String spanName = spanName(handler);
        boolean continueSpan = getRootSpanFromAttribute(request) != null;
        Span span = continueSpan ? getRootSpanFromAttribute(request) : getTracer().createSpan(spanName);
        getTracer().continueSpan(span);
        if (log.isDebugEnabled()) {
            log.debug("Handling span " + span);
        }
        addClassMethodTag(handler, span);
        addClassNameTag(handler, span);
        setSpanInAttribute(request, span);
        if (!continueSpan) {
            setNewSpanCreatedAttribute(request, span);
        }
        return true;
    }
    
        @Override
        public void afterCompletion(HttpServletRequest request, HttpServletResponse response,
                Object handler, Exception ex) throws Exception {
            if (isErrorControllerRelated(request)) {
                if (log.isDebugEnabled()) {
                    log.debug("Skipping closing of a span for error controller processing");
                }                       
                return;
            }
            Span span = getRootSpanFromAttribute(request);
            if (ex != null) {
                getErrorParser().parseErrorTags(span, ex);
            }
            if (getNewSpanFromAttribute(request) != null) {
                if (log.isDebugEnabled()) {
                    log.debug("Closing span " + span);
                }
                Span newSpan = getNewSpanFromAttribute(request);
                getTracer().continueSpan(newSpan);
                getTracer().close(newSpan);
                clearNewSpanCreatedAttribute(request);
            }           
        }

生成请求
将当前调用链的Trace信息记录到Http Headers中
记录当前调用的时间戳（timestamp）
发送http请求，并携带Trace相关的Header，如X-B3-TraceId:aa，X-B3-SpandId:6b
调用结束后，记录当次调用所花的时间（duration）
将步骤1-5，汇总成一个Span（最小的Trace单元），异步上报该Span信息给Zipkin Collector

发送跟踪数据

    @Override public Call<Void> sendSpans(List<byte[]> encodedSpans) {
        if (this.closeCalled)
            throw new IllegalStateException("close");
        return new HttpPostCall(this.messageEncoder.encode(encodedSpans));
    }

数据存储

zipkin支持mem，MySQL，ES存储方式，以io.zipkin.java:zipkin-server:2.6.1为例，可以通过配置实现。具体配置项可以在zipkin-server-shared.yaml中查看，如下：

    elasticsearch:
      # host is left unset intentionally, to defer the decision
      hosts: ${ES_HOSTS:}
      pipeline: ${ES_PIPELINE:}
      max-requests: ${ES_MAX_REQUESTS:64}
      timeout: ${ES_TIMEOUT:10000}
      aws:
        domain: ${ES_AWS_DOMAIN:}
        region: ${ES_AWS_REGION:}
      index: ${ES_INDEX:zipkin}
      date-separator: ${ES_DATE_SEPARATOR:-}
      index-shards: ${ES_INDEX_SHARDS:5}
      index-replicas: ${ES_INDEX_REPLICAS:1}
      username: ${ES_USERNAME:}
      password: ${ES_PASSWORD:}
      http-logging: ${ES_HTTP_LOGGING:}
      legacy-reads-enabled: ${ES_LEGACY_READS_ENABLED:true}
    mysql:
      host: ${MYSQL_HOST:localhost}
      port: ${MYSQL_TCP_PORT:3306}
      username: ${MYSQL_USER:}
      password: ${MYSQL_PASS:}
      db: ${MYSQL_DB:zipkin}
      max-active: ${MYSQL_MAX_CONNECTIONS:10}
      use-ssl: ${MYSQL_USE_SSL:false}

同时，举例用MySQL作为存储时的一张span对象表，如下：

CREATE TABLE IF NOT EXISTS zipkin_spans (
  `trace_id` BIGINT NOT NULL,
  `id` BIGINT NOT NULL,
  `name` VARCHAR(255) NOT NULL,
  `parent_id` BIGINT,
  `debug` BIT(1),
  `start_ts` BIGINT 
   COMMENT 'Span.timestamp(): epoch micros used for endTs query and to implement 
   TTL',
  `duration` BIGINT 
COMMENT 'Span.duration(): micros used for minDuration and maxDuration query'
) ENGINE=InnoDB ROW_FORMAT=COMPRESSED;

一般来说，分布式的链路跟踪数据是比较大量的，建议采用ES来存储，方便支持分区，以及后期的扩展等，比如使用某些字段来存储非结构化数据。

示例请求

以上就是所有内容，下面是一个请求和记录展示。

后台示例