Половина интернета вышла из строя из-за сбоя в Google Cloud. Что пошло не так?

от admin

Так бывает, когда на прод попадает не до конца протестированный релиз

Накануне, 12 июня 2025 года, интернет охватил масштабный сбой: из-за ошибки в сервисе аутентификации Google Cloud (IAM) перестали работать десятки продуктов — от Gmail и Drive до Cloudflare и Anthropic.

Проблема длилась более семи часов и показала, насколько уязвимы современные цифровые экосистемы.

Что произошло

В 20:50 по московскому времени в системе IAM Google Cloud начались сбои. Этот сервис отвечает за проверку доступа и выдачу токенов всем API.

Когда IAM перестал справляться с запросами, это затронуло почти все остальные сервисы GCP — от хранилищ и баз данных до ИИ-сервисов.

Хронология событий

  • 20:51 — внутренние алерты Google: IAM возвращает ошибки 5xx
  • 21:05 — на DownDetector резко растут жалобы на Gmail, Drive и Meet
  • 21:19 — Cloudflare сообщает о сбоях в Access
  • 21:25 — Anthropic отключает загрузку файлов, чтобы снизить нагрузку
  • 22:41 — Google внедряет исправления в IAM, большая часть регионов восстанавливается
  • 23:30 — Cloudflare восстанавливает работу Access, KV и WARP
  • 00:05 — Anthropic сообщает о полном восстановлении Claude
  • 04:18 — полное восстановление сервисов GCP, включая Vertex AI
Читать также:
Обзор беспроводных наушников Baseus Bowie 30 Max: стильные спутники меломана

Причины сбоя

Google подтвердила, что сбой произошел из-за некорректного обновления бэкенда IAM. Обновление попало в продакшен раньше, чем его смогли отловить тесты в ограниченных зонах.

Ошибка распространилась по всем регионам, и только откат, удаление некорректной конфигурации и принудительное обновление кэша токенов помогли восстановить систему.

Уроки для разработчиков

Произошедшее показало, что сбои в control-plane (аутентификация, метаданные) опаснее сбоев в data-plane (файлы, запросы). Также стало более явно, что даже multi-cloud архитектуры могут зависеть от одного слабого звена в глубине стека.

Из прочих уроков аварии можно отметить:

  • Страницы статуса должны обновляться оперативно — Google потребовался почти час
  • Необходимы обходные маршруты для критичных точек (например, авторизации)
  • План реагирования должен включать редкие, но возможные каскадные сбои

Итоги

Ошибка в одном компоненте Google Cloud вызвала сбои в десятках сервисов по всему миру. В течение семи часов компании теряли доступ к данным, пользователи не могли авторизоваться, а инженеры — найти причины проблемы.

Полный отчет от Google и Cloudflare пока в разработке. Но уже ясно, что даже самые крупные игроки не застрахованы от сбоя, если в центре — непротестированное обновление и скрытые зависимости.

Похожие статьи