其他分类
-
调度器性能压测看过来
背景 源于一次线上 P0 故障,一个生产集群被误操作删除(不只是业务被删,是集群也被删了),集群规模较大,在集群恢复后 Pod 进行了重新、调度的过程,整个过程(从开始恢复集群到业…
-
k8s 集群容量 – kluster capacity
背景 容器平台的三个价值:稳定性、效率、成本,都离不开容量管理。容量管理是 Kubernetes 集群管理中非常重要的一部分。它可以确保系统中的资源得到合理的分配和使用,避免了因资…
-
High QPS for ConfigMap Get Requests
背景 线上 k8s 集群 kube-apiserver 的 ConfigMap Get 操作 QPS 较高,且同时间段 Etcd 中 ConfigMap 资源的 Get 操作 QP…
-
High QPS for ConfigMap Get Requests – 2
背景 线上 k8s 集群 kube-apiserver 的 ConfigMap Get 操作 QPS 较高,且同时间段 Etcd 中 ConfigMap 资源的 Get 操作 QP…
-
high QPS for configmap GET requests in kube-apiserver – 3
背景 线上 k8s 集群 kube-apiserver 的 ConfigMap Get 操作 QPS 较高,且同时间段 Etcd 中 ConfigMap 资源的 Get 操作 QP…
-
那些年,我们一起追过的绑核BUG
背景 上半年遇到了一些绑核相关的 bug,分析了其原因,但没有总结整理下来,现在又碰到了,补一下作业,同时也希望可以帮助大家快速从坑里爬出来。本篇会总结绑核相关的 bug,部分官网…
-
Kubernetes 陈年老 bug – 绑核
背景 最近遇到一个线上问题,使用了 lxcfs 的容器,跑在 cgroup v2 的机器上时,在容器内使用 top 或者 htop 看到的核数和 cpu 使用率有问题。虽然根本问题…
-
kubernetes 月光宝盒 – 时间回流
背景 碰到一个”诡异”的线上问题,已经定位到原因,虽然不是什么大问题,但感觉还是挺有意思的。在远古时期(k8s 1.7)中也有一个类似回溯的现象,不过从现象…
-
你真的搞懂 Informer 了吗?
由来 Informer 作为 client-go 的核心,网上有众多的源码分析,原理解析相关文章,可以教给大家如何”正确”的使用 Informer。当然其前…
-
kube-apiserver 又 OOM 了?
代码版本:v1.26 由来 前一篇已经介绍了 Informer 的实现,Informer 对 kube-apiserver 发起了 list 和 watch 请求。我们知道大规模集…
-
Kubernetes 陈年老 bug – Stale Read
背景 前两篇已经介绍过 Informer 和 Cacher 的实现,也介绍了其中存在的一些问题,本篇主要针对 Stale read 问题展开,分析新版 Informer &…
-
从 ListWatch 到 WatchList
背景 前面我们已经对 kube-apiserver 内存消耗 进行了阐述,文中最后提到了使用流式的请求来支持 List 的效果,从而实现对于单个请求来说,空间复杂度从 O(n) 转…
-
kube-apiserver 内存优化进阶
背景 前面我们已经对 kube-apiserver 内存消耗 进行了阐述,文中最后提到了使用流式的请求来支持 List 的效果,从而实现对于单个请求来说,空间复杂度从 O(n) 转…
-
k8s 骨灰级玩家都不知道的属性 – SelfLink
本篇介绍一个可能连骨灰级 K8S 玩家都很少关注的属性 – SelfLink,以及这么一个名不见经传的小趴菜是怎么影响 kube-apiserver 性能的。大家可能没…
-
kube-apiserver 连接数也会影响内存?
之前从资源对象的获取方式、序列化、深拷贝的角度分别分析了对 kube-apiserver 内存使用量的影响以及社区是如何进行优化的,这一篇围绕网络连接展开分析其对 kube-api…
-
大规模容器平台共享资源池的预算,分配,核算机制
转自知乎 https://zhuanlan.zhihu.com/p/408731614,略有修改 背景与挑战 背景 大型互联网公司内部资源池非常庞大。Google,Facebook…