Kubernetes Volume实践
我们知道容器和 pod 可能会被频繁地销毁和创建,在销毁的时候,容器内部的数据也会被清除掉。这对于需要读写容器内部数据的应用来说就是一个很大的问题。其次,有一些场景,可能一个 pod 里面的多个容器需要共享数据。怎么来解决呢?
volume 的生命周期与 pod 相同,当 volume 被 mount 到一个 pod 上时,pod 中的所有容器都可以访问这个 volume,容器的创建和销毁并不会影响 volume。但是,当 pod 被销毁时,volume 也就不复存在了。 那数据是不是也丢了吗?
其实 volume 只是一个目录,至于这个 volume 是如何创建的,它的内容是什么等等,实际上是取决于所使用的 volume 类型。常见的类型包括 emptyDir、hostPath、nfs、Ceph 等,完整列表可以参考官网说明:
https://kubernetes.io/docs/concepts/storage/volumes/#types-of-volumes
接下来我们来看看最简单的 emptyDir 类型。
emptyDir
emptyDir volume 类型,实际上是主机上的一个临时空目录。临时就是说当 pod 被删除时,这个空目录也会跟着被删除,里面的数据也就不存在了。但是对于容器来说,只要 pod 还在,即使容器被销毁,数据还是存在的。
常见的使用场景:
- 用于一个 pod 内多个容器共享临时数据(如日志收集)
下面通过例子来使用 emptyDir 模拟日志收集。
创建 app.yaml 文件:
apiVersion: v1
kind: Pod
metadata:
name: emptydir
spec:
containers:
- image: busybox
name: app
volumeMounts:
- mountPath: /logs
name: shared-dir
args:
- /bin/sh
- -c
- echo `date '+%H:%M:%S'` >> /logs/app.log; sleep 60000
- image: busybox
name: log-collector
volumeMounts:
- mountPath: /app_logs
name: shared-dir
args:
- /bin/sh
- -c
- cat /app_logs/app.log; sleep 60000
volumes:
- name: shared-dir
emptyDir: {}
创建 pod:
$ kubectl create -f app.yaml
pod "emptydir" created
pod 中有两个容器,一个是 app(对应实际场景中的应用),另一个是 log-collector(对应实际场景中的日志收集)。app负责把日志写到日志文件中,而 log-collector 则从日志文件中读取日志。
看看模拟的效果。
查看日志文件内容:
$ kubectl exec emptydir -c log-collector cat /app_logs/app.log
12:36:51
说明通过 emptyDir volume 可以实现 pod 内容器之间的数据共享。
接下来把 pod 删除再重新创建:
$ kubectl delete -f app.yaml
pod "emptydir" deleted
$ kubectl create -f app.yaml
pod "emptydir" created
再次查看日志文件内容:
$ kubectl exec emptydir -c log-collector cat /app_logs/app.log
12:38:45
可见当 pod 被删除之后,之前的数据已经被清除了。
所以记住一点,emptyDir volume 实际就是一个临时共享目录。
临时:指的是生命周期和pod一样,数据随pod的销毁而销毁。
共享:指的是同一个 pod 内,多个容器可以使用同一个目录进行数据的共享。
hostPath
hostPath 类型的 volume,是将主机上的目录 mount 给 pod 的容器。与 emptyDir 不同的是,即使 pod 被销毁了,hostPath 对应的目录数据也还会被保留。
常见的有两种场景:
- 用于同一主机上 pod 之间的数据共享;
- 某些固定在节点上,且需要数据持久化的应用(如使用 DaemonSet 的应用)。
大部分应用都不会直接使用 hostPath volume,因为这会增加了 pod 与节点的耦合,应用难以伸缩和调度,所以很少会使用第一种场景。
简单介绍完 emptyDir 和 hostPath,其他类型的 volume 可以参考
官网说明。大家根据实际的需要去选择,比如在公有云上,可以使用公有云提供的云盘。或者使用分布式存储,如Ceph、GlusterFS等。