«Первый инцидент за многие годы». В De Novo объяснили причину сбоя сервисов Минцифры

25 мая 2021, 11:28

Природа инцидента, в результате которого недоступными оказались сервисы Дія, а также ряд других государственных и частных служб, носила исключительно техногенный характер, и никаких признаков кибератаки извне или других злонамеренных действий зафиксировано не было.

Об этом в комментарии НВ Бизнес сообщил директор по маркетингу De Novo Дмитрий Бахмацкий.

Напомним, 30 апреля cервисы Дія, helsi.me, а также некоторые сервисы Prozorro несколько часов не работали из-за, как тогда сообщали в Минцифры, технического сбоя хостинг-провайдера De Novo на платформе G-Cloud.

Видео дня

«Причиной инцидента в De Novo G-Cloud стал нетипичный сбой в работе одного из кеширующих NVMe-дисков в дисковой подсистеме облачной платформы, который не был обнаружен алгоритмом Dying Disk Handling (DDH). Характер сбоя проявлялся как „мерцающий“, он практически не повлиял на работоспособность дисковой подсистемы, но существенно дестабилизировал работу гипервизора сети (потеря связи между Control Plane и Data Plane), что привело к „замораживанию“ топологии виртуальной сети», — сообщил Бахмацкий. — «Традиционное утреннее изменения профиля нагрузки активировало механизм Dynamic Resource Schedule (DRS) и вызвало перемещение части виртуальных машин между хостами ресурсного кластера. Перемещенные виртуальные машины теряли сетевую связность (корректное перемещение требует изменения сетевой топологии), что вызвало каскад симптоматики, характерной для сетевых проблем. Неявное и крайне нетипичное проявление неработоспособности диска (был нарушен принцип fail-silence, на который полагаются все механизмы высокой доступности в процессе обработки отказов) затруднило поиск первопричины проблемы и потребовало нескольких часов работы команды из восьми специалистов для ее идентификации устранения»

Бахмацкий подчеркнул, что данные и ИТ системы всех заказчиков не пострадали и возобновили свою работу в полном объеме после вывода из эксплуатации дефектного диска. Также все заказчики платформы получили полный отчет о результатах внутреннего расследования причин инцидента с детальной хронологией событий и перечнем запланированный мероприятий (в частности, сейчас реализуются изменения в технической и организационной составляющих работы как сервиса G-Cloud, так и национальных онлайн-сервисов).

«В процессе разрешения инцидента производилось регулярное кризисное информирование всех клиентов о ходе восстановительных работ. Руководство De Novo постоянно было на оперативной связи с государственными службами, отвечающими за вопросы кибербезопасности Украины», — заявил маректинг-директор De Novo.

Присоединяйтесь к нам в соцсетях Facebook, Telegram и Instagram.

Показать ещё новости
Радіо НВ
X