Есть 5 серверов на Ubuntu 22.04 (3 в РФ, 2 за рубежом), на которых крутятся веб-приложения на Docker и PostgreSQL. Сейчас всё работает «вслепую» — узнаём о проблемах только когда падает сервис. Нужно навести порядок.
Что нужно сделать:
Развернуть систему мониторинга (Prometheus + Grafana или Zabbix — на ваш выбор с обоснованием). Метрики: CPU, RAM, диск, состояние Docker-контейнеров, доступность HTTP-эндпоинтов, размер и задержки репликации PostgreSQL.
Настроить алертинг в Telegram: уведомления при падении контейнера, заполнении диска >85%, недоступности сервиса дольше 2 минут, росте нагрузки.
Настроить автоматические бэкапы баз PostgreSQL и важных volume'ов: ежедневно, с выгрузкой в S3-совместимое хранилище (Selectel/Yandex Object Storage), ротация 14 дней, проверка целостности дампа.
Один раз вживую проверить восстановление БД из бэкапа на тестовом сервере — нужен работающий процесс, а не просто «дампы лежат».
Доступ — по SSH, ключи дам. Конфиги разворачиваем через docker-compose или Ansible (если используете — приложите плейбуки).
Ожидаемый результат: рабочий дашборд со всеми серверами, реальные алерты в Telegram, проверенные восстанавливаемые бэкапы и короткая инструкция (1–2 страницы) — что где лежит и как восстанавливать.
Не нужно: переписывать приложения, менять архитектуру, заниматься CI/CD. Только наблюдаемость и сохранность данных.