加入收藏 | 设为首页 | 会员中心 | 我要投稿 汽车网 (https://www.0577qiche.cn/)- 科技、建站、经验、云计算、5G、大数据,站长网!
当前位置: 首页 > 综合聚焦 > 移动互联 > 通讯 > 正文

K8S的日志收集,没有我们想的那么简单

发布时间:2023-03-06 09:19:56 所属栏目:通讯 来源:
导读:相比传统的主机日志采集,在Kubernetes集群中,采集容器日志有一些差异,使用方式上也有所区别。因此我们罗列了一些常规的部署和使用方式以供参考。

1.从主机到容器

在传统的使用虚拟机/云主机/物理机的时代,
相比传统的主机日志采集,在Kubernetes集群中,采集容器日志有一些差异,使用方式上也有所区别。因此我们罗列了一些常规的部署和使用方式以供参考。

1.从主机到容器

在传统的使用虚拟机/云主机/物理机的时代,业务进程部署在固定的节点上,业务日志直接输出到宿主机上,运维只需要手动或者使用自动化工具把日志采集Agent部署在节点上,加一下Agent的配置,就可以开始采集日志了。而在Kubernetes环境中,就没这么简单了:

「动态迁移」:在Kubernetes集群中经常存在Pod主动或者被动的迁移,频繁的销毁、创建,我们无法和传统的方式一样人为的给每个服务下发日志采集配置。

「日志存储方式多样性」:容器的日志存储方式有很多不同的类型,例如stdout、hostPath、emptyDir、pv等。

「Kubernetes元信息」:由于日志数据采集后会被集中存储,所以查询日志时,需要根据namespace、pod、container、node,甚至包括容器的环境变量、label等维度来检索、过滤,此时要求Agent感知并默认在日志里注入这些元信息。

2. 在Kubernetes下的日志形态

为了采集容器日志,我们先来看一下市面上一般都有哪些解决方案。

2.1 采集的日志类型

首先,需要提及的是,在云原生的12要素里,推荐业务容器将日志输出到stdout中,而不是采用打印日志文件的方式。当然,实际情况是,我们很难这么做,原因大概有:

需要业务方修改日志配置,比较难以推广

有些复杂的业务对日志文件有分类,比如审计日志、访问日志等,一般会输出为独立的日志文件,日志采集需要根据不同的文件分类进行不同的处理

2.2 Agent部署方式

采集容器日志,Agent有两种部署方式:

「DaemonSet」:每个节点部署一个Agent

「Sidecar」:每个Pod增加一个Sidecar容器,运行日志Agent

两种部署方式的优劣都显而易见:

资源占用:DaemonSet每个节点上一个,而Sidecar每个Pod里一个,容器化形态下,往往一个Node上可能会跑很多的Pod,此时DaemonSet的方式远小于Sidecar,而且节点上Pod个数越多越明显

侵入性:Sidecar的方式,Agent需要注入到业务Pod中,不管是否有平台封装这一过程,还是采用Kubernetes webhook的方式默认注入,仍然改变了原本的部署方式

稳定性:日志采集在大部分的情况下,需要保障的是稳定性,最重要的是不能影响业务,如果采用Sidecar的方式,在Agent发生异常或者oom等情况下,很容易对业务容器造成影响。另外,Agent比较多的时候,在连接数等方面会对下游服务比如Kafka造成一定的隐患。

隔离性:DaemonSet情况下,节点所有的日志都共用同一个Agent,而Sidecar方式,只会采集同一个Pod内的业务日志,此时Sidecar的隔离性理论上会好一些

性能:Sidecar由于只会采集Pod里的日志,压力相对较小,极端情况下,达到Agent的性能瓶颈比DaemonSet方式概率也会小很多

如果使用容器运行的是docker,正常情况下我们可以在节点的docker路径中找到容器的stdout的日志,默认为/var/lib/docker/containers/{containerId}/{containerId}-json.log。在Kubernetes 1.14版本之前,kubelet会在/var/log/pods///.log建立一个链接到stdout文件中。类似如下所示:

所以,对于Agent采集标准输出日志来说,也就是采集节点上的这些日志文件。一种简单粗暴的采集方式是,使用DaemonSet部署日志Agent,挂载/var/log/pods目录,Agent的配置文件使用类似/var/log/pod.log去通配日志文件,采集节点上所有的容器标准输出。

但是这样的局限在于:

无法注入更多信息比如一些pod的label/env等,特别是在k8s1.14版本之前,甚至无法在采集的path里获取到namespace/pod等信息

很难针对单个服务配置特殊的配置,比如某个文件需要使用特殊的多行日志采集,需要配置适合服务自身的日志格式切分等

当然现在的一些日志Agent比如Filebeat/Fluentd都针对性的做了支持,比如可以将namespace/pod等信息注入日志中,但仍然没有解决大部分的问题。

如果Pod里不仅仅是输出stdout,还包括日志文件,就需要考虑到挂载日志文件到节点上,同时采用DaemonSet部署的Agent也需要挂载相同的目录,否则采用容器化部署的Agent无法查看到相应的文件,更无法采集。业务Pod挂载日志路径的方式有以下几种:

 hostPath 」

生命周期和Pod无关,Pod迁移或者销毁,日志文件还保留在现有磁盘上。

优点:生命周期和Pod无关,即使Pod销毁,日志文件依然在节点磁盘上,假设Agent没有采集日志,仍然可以找到日志文件

缺点:默认无隔离性,需要控制挂载的日志路径;另外,Pod迁移节点后,残留的日志文件长期积累容易占据磁盘,同时日志占据的磁盘无法控制使用的配额

为了解决隔离性,避免多个Pod打印日志到相同的路径和文件中,我们需要使用 subPathExpr 字段从 Downward API 环境变量构造 subPath 目录名。该 VolumeSubpathEnvExpansion 功能从 Kubernetes1.15 开始默认开启,在1.17 GA。

虽然同样可以在Node上找到使用Pv挂载的对应日志文件,但是Pv根据不同的底层实现,在Node上的路径会有一定的区别。目前市面上大部分日志Agent均对这些挂载方式没有感知,所以你能做的和上面使用stdout的方式类似,也就是简单粗暴的让Agent将路径都挂载,使用通配的方式采集所有的日志,使用上的局限和stdout的方式同样一致。

另外,鉴于一些Agent对采集docker stdout有一定的支持,所以还存在一些使用上变种,比如利用webhook注入一个sidecar,读取Pod里的日志文件,转换成sidecar的stdout,然后采集sidecar的stdout日志,这里不再详述。

(编辑:汽车网)

【声明】本站内容均来自网络,其相关言论仅代表作者个人观点,不代表本站立场。若无意侵犯到您的权利,请及时与联系站长删除相关内容!

    推荐文章