Подробная информация об аварийном отключении сервисов Сети Ланет вечером 30 октября 2018 года
Детали аварии и тайминг наших действий, которые были направлены на быстрое восстановление работы всей сети

Уважаемые пользователи!
Вчера, 30 октября 2018 года, произошла аварийная ситуация на центральном участке сети, в результате чего произошло массовое падение сервисов Сети Ланет. Мы проводили оперативное информирование о ходе ситуации в тех каналах коммуникации, которые были доступны.
Сегодня мы детально анализируем инцидент и планируем дальнейшие действия с целью избежать подобное в будущем. Делимся с вами деталями аварии и таймингом наших действий, которые были направлены на максимально быстрое восстановление работы всей сети, ведь для нас всегда важно вести откровенную и открытую коммуникацию.
Просим обратить внимание, что кабельное телевидение продолжало работать без сбоев, а работу по преодолению последствий аварии мы вели с учетом первостепенной необходимости восстановить именно основную услугу: доступ к сети Интернет для наибольшего сегмента пользователей.
Что же произошло с интернетом вчера?
В 21:16 произошло массовое падение сервисов компании.
21:17. Дежурный инженер сети попадает в помещение серверной и начинает процедуры по оценке ситуации, выявления причин сбоя и локализации места инцидента.
21:18. Обнаружено, что авария связана с главными источниками электроснабжения и сбоем автоматики, которая отвечает за переключение на резервные источники.
21:25. Учитывая масштабы проблемы, прибывает дополнительный квалифицированный персонал для оперативной ликвидации последствий и интенсифицирует работу по преодолению причин и обеспечению контраварийных действий.
21:38. Возобновлено электропитание центрального ядра сети и запущено процедуру инициализации.
21:40. Начато комплекс действий по возобновлению работоспособности дополнительного оборудования.
21:48. Зафиксировано сбой во время запуска центрального ядра.
21:50. Начато работу по проведению анализа логов загрузки ядра, разбора статусов ключевых участков и поиска проблем сбоя.
22:00. Выполнено ряд процедур для правильного перезапуска главного узла.
22:13. Проведено инициализацию проблемной части аппаратного участка центрального ядра. 22:16.Старт возобновления интерфейсов центрального ядра.
22:22. Начал возобновляться доступ абонентов к сети Интернет в городе Киев.
22:33. Завершено работы на центральном ядре. Продолжено работы по возобновлению вспомогательной инфраструктуры.
22:55. Возобновлена основная часть инфраструктуры, которая отвечает за дополнительные сетевые сервисы (DNS, DHCP и др.).
23:03. Частично возобновлена телефония и автоматическое телефонное информирование об аварийной ситуации.
23:09. Возобновлена работа сайта компании lanet.ua и кластера виртуализации, который обслуживает дополнительные веб-сервисы.
23:24. Полностью возобновлена телефония и обслуживание телефонных линий операторами call-центров.
23:28. Возобновлена работа всех веб-сервисов компании.
На основании событий, которые произошли, и последствий каждого шага, сделанного при ликвидации аварии, мы строим план работ по модификации процессов и ищем пути для избежания зависимостей некоторых сервисов между собой.
Вчера мы получили очень много сообщений, и для нас важна обратная связь от каждого пользователя для понимания значения всех шагов, которые мы предпринимаем в своей работе. Мы очень благодарны за понимание и поддержку большого количества пользователей.
На графике вы можете увидеть суммарный трафик абонентов Киева в период инцидента.