Минута простоя коммуникационного шлюза в банке — это десятки тысяч недоставленных уведомлений, тысячи неотправленных OTP-кодов и прямые репутационные потери. В i-Digital мы разбираем кейс с банком из ТОП-30, который пришёл с запросом на полное устранение простоев — и попутно изменил архитектуру нашего флагманского продукта.
Банк из ТОП-30 по розничным продуктам обратился с проблемой: ненадёжная внутренняя IT-инфраструктура давала частые простои сервиса коммуникаций. Объёмы трафика — около 45 000 сообщений за 15 минут, из них ~1500 OTP-кодов, которые клиент ждёт «здесь и сейчас» для подтверждения транзакции. До внедрения простои составляли от 7 до 11 часов в год.
Команда разработки Fastgate предложила перейти с виртуальных машин на платформу управления контейнеризованными нагрузками — Kubernetes. Пересмотрели архитектуру под микросервисы, реализовали контейнеризацию. Это дало гибкость, быструю масштабируемость, кроссплатформенность и возможность проводить технические работы без простоев.
Побочный эффект: внедрение Kubernetes под этого клиента стало точкой адаптации продукта под современный рынок — впоследствии на Kubernetes перевели и других клиентов Fastgate.
В процессе нашли точку роста и предложили клиенту следующий шаг — конфигурацию Active-Active. Две площадки в геонезависимых дата-центрах, разные кластеры, распределённая база, работа одновременно. При падении одной площадки вторая принимает всю нагрузку без разрыва связи.
Команда оптимизировала внутренние процессы, усилила разработку и аналитику, переработав продукт под отказоустойчивый кластер Active-Active за 1,5 месяца. Предусмотрели перераспределение трафика между площадками.
Простои сократились с 7–11 часов в год до нуля. Надёжность решения клиент оценил при первом же падении ЦОД: трафик бесшовно ушёл на резервную площадку.