Половина интернета вышла из строя из-за сбоя в Google Cloud. Что пошло не так?

Содержание

1 Что произошло
2 Хронология событий
3 Причины сбоя
4 Уроки для разработчиков
5 Итоги

Так бывает, когда на прод попадает не до конца протестированный релиз

Накануне, 12 июня 2025 года, интернет охватил масштабный сбой: из-за ошибки в сервисе аутентификации Google Cloud (IAM) перестали работать десятки продуктов — от Gmail и Drive до Cloudflare и Anthropic.

Проблема длилась более семи часов и показала, насколько уязвимы современные цифровые экосистемы.

Что произошло

В 20:50 по московскому времени в системе IAM Google Cloud начались сбои. Этот сервис отвечает за проверку доступа и выдачу токенов всем API.

Когда IAM перестал справляться с запросами, это затронуло почти все остальные сервисы GCP — от хранилищ и баз данных до ИИ-сервисов.

Хронология событий

20:51 — внутренние алерты Google: IAM возвращает ошибки 5xx
21:05 — на DownDetector резко растут жалобы на Gmail, Drive и Meet
21:19 — Cloudflare сообщает о сбоях в Access
21:25 — Anthropic отключает загрузку файлов, чтобы снизить нагрузку
22:41 — Google внедряет исправления в IAM, большая часть регионов восстанавливается
23:30 — Cloudflare восстанавливает работу Access, KV и WARP
00:05 — Anthropic сообщает о полном восстановлении Claude
04:18 — полное восстановление сервисов GCP, включая Vertex AI

Читать также:

Google превратила Gemini в персонального ассистента с доступом к Gmail и Google Фото

Причины сбоя

Google подтвердила, что сбой произошел из-за некорректного обновления бэкенда IAM. Обновление попало в продакшен раньше, чем его смогли отловить тесты в ограниченных зонах.

Ошибка распространилась по всем регионам, и только откат, удаление некорректной конфигурации и принудительное обновление кэша токенов помогли восстановить систему.

Уроки для разработчиков

Произошедшее показало, что сбои в control-plane (аутентификация, метаданные) опаснее сбоев в data-plane (файлы, запросы). Также стало более явно, что даже multi-cloud архитектуры могут зависеть от одного слабого звена в глубине стека.

Из прочих уроков аварии можно отметить:

Страницы статуса должны обновляться оперативно — Google потребовался почти час
Необходимы обходные маршруты для критичных точек (например, авторизации)
План реагирования должен включать редкие, но возможные каскадные сбои

Итоги

Ошибка в одном компоненте Google Cloud вызвала сбои в десятках сервисов по всему миру. В течение семи часов компании теряли доступ к данным, пользователи не могли авторизоваться, а инженеры — найти причины проблемы.

Полный отчет от Google и Cloudflare пока в разработке. Но уже ясно, что даже самые крупные игроки не застрахованы от сбоя, если в центре — непротестированное обновление и скрытые зависимости.

Половина интернета вышла из строя из-за сбоя в Google Cloud. Что пошло не так?

Что произошло

Хронология событий

Причины сбоя

Уроки для разработчиков

Итоги

«Без цензуры — только танками давить»: правда ли свободная пресса уничтожила СССР?

Мантуров: Россия планирует доставить на Луну АЭС малой мощности

Похожие статьи