OPA стала тормозить, появились случайные
OOMKills (Out-Of-Memory Kills) в нескольких кластерах. Хотя
VerticalPodAutoscaler (VPA) помогал динамически корректировать распределение ресурсов, уведомления стали слишком шумными и мешали работе.
Расследование скачков использования памятиПри более детальном анализе обнаружили, что кластеры с высокой изменчивостью подов — где количество подов быстро увеличивается и уменьшается — были основными источниками проблем. Это типично для:
- Кластеров с частыми деплоями, особенно полным перезапуском кластера.
- Кластеров с большим количеством CronJobs.
Корреляция с использованием памятиКоманда наблюдала значительные колебания использования памяти в подах
Gatekeeper-controller, часто на несколько гигабайт. По причине, что синхронизировали данные подов в инвентарь Gatekeeper, и это приводило к чрезмерному потреблению памяти при резком увеличении числа подов.