Катя (lytdybr) wrote in school_lj,
Катя
lytdybr
school_lj

О недоступности ЖЖ

Друзья, вчера не получилось ничего вам сообщить, потому что Школа ЖЖ хоть и не 7-м или 9-м кластере, но запостить сюда ничего не удалось. Сегодня корректная работа ЖЖ восстановлена, и у нас есть кое-какие подробности относительно произошедшего, и я, конечно же, делюсь ими с вами.

Оригинал взят у livejournal в О недоступности ЖЖ
Уважаемые пользователи,

на данный момент корректная работа ЖЖ восстановлена, и мы готовы рассказать вам о произошедшем и последствиях более подробно.

Если вы впервые узнали о понятии "кластер" (User Claster), позволим себе привести прекрасную аналогию системы кластеров с городами от пользователя vmenshov, которую он доступным и понятным даже для неспециалистов языком изложил в этой записи: http://vmenshov.livejournal.com/99974.html

16 мая, в 02:22 ночи по московскому времени, система мониторинга состояния LiveJournal сообщила о сбое, возникшем на 7-м пользовательском кластере (имя кластера — Bratwurst¹, самый знаменитый пользователь — navalny, самое известное сообщество — malyshi). Анализ показал, что в базе данных разрушены структуры и сами данные множества таблиц, вследствие чего требуется исправление, а затем и восстановление данных с зеркалирующего сервера. Процесс, по предварительным оценкам, прогнозировался на 5-6 часов, поэтому во избежание потери данных в случае, если на самом зеркале внезапно произойдет сбой, было принято решение полностью отключить кластер. В то время, пока восстанавливался 7-й кластер, что само по себе трудоемкий процесс, так как необходимо передать по локальной сети большое количество данных, а сеть, помимо этого, занята остальными процессами жизнедеятельности ЖЖ, система мониторинга сообщила об аналогичном сбое на 9-м пользовательском кластере (имя кластера — ChickenTikka², самый знаменитый пользователь — drugoi, самое популярное сообщество — ru_politics). Для 9-го кластера потребовались те же процедуры, что и для 7-го, но ввиду того, что сеть и так на 100% эксплуатируется по причине активного процесса восстановления последнего, изначально озвученные сроки значительно увеличились.

Все пользователи, находящиеся на данных кластерах, полностью потеряли доступ к ЖЖ, вне зависимости от того, на какие страницы они хотели зайти. Ввиду того, что часть информации о пользователях и их записях собирается с кластеров в реальном времени, а 7-й и 9-й полностью отключены от системы, у остальных пользователей, чьи журналы не находятся на данных кластерах, ЖЖ стал вести себя в контексте ситуации. Например, если на данный момент именно на "этой" странице ленты друзей должна быть запись от пользователя с одного из двух аварийных кластеров, то лента друзей не открывалась и выдавала 500 или 503 ошибку. Подобное происходило, если во входящих было сообщение от пользователя с 7-го или 9-го кластера. Если у пользователя есть друг с аварийных кластеров в какой-либо группе друзей, то страница создания записи также не была доступна. В результате произошедшей аварии ЖЖ работал по-разному нестабильно для разных пользователей.

По состоянию на 08:12 (все время — московское) 7-й кластер восстановлен на 35%, 9-й — на 1.5%.
09:51: UC7 — 50%, UC9 — 5%.
Для оптимизации работы сети восстановление 9-го кластера было отложено до момента завершения восстановления 7-го. 7-й кластер был полностью восстановлен и введен в строй в 14:41, а для 9-го возобновлена процедура восстановления. В 19:09 система сообщила, что при восстановлении 9-го кластера возникли проблемы, требующие вмешательства. Как результат, 9-й кластер восстановлен только к 04:42 утра, а работа ЖЖ полностью восстановлена к 05:40 17 мая.

Некоторые пользователи с 9-го кластера могут до сих пор частично не видеть своих записей, созданных за последний день или два. Мы работаем над их восстановлением из архивов. Если у вас пропали какие-то записи, мы будем очень признательны, если вы сообщите об этом в Службу поддержки (http://www.livejournal.com/support/submit.bml), так как это поможет нам провести этот процесс значительно быстрее.

Стоит отметить, что на время происшествия в ЖЖ были отключены сервисы отложенных записей и доставки уведомлений. После восстановления все эти сервисы включены вновь, так что отложенные записи опубликовались с задержкой, а в рассылке уведомлений накопилась большая очередь, которая, по расчетам на текущий момент, будет расходиться еще несколько часов.

В причинах фактически одновременного серьезного выхода из строя двух кластеров нам еще предстоит разобраться, это займет какое-то время. О результатах мы сообщим дополнительно.

Всем пользователям платных сервисов будет компенсирован простой в размере одной недели.

Мы приносим свои извинения за доставленные неудобства.

¹ Bratwurst — сарделька из телятины, говядины и/или свинины, приготовленная с большим количеством специй.
² ChickenTikka — афганское национальное блюдо, популярное во всем мире, из филе курицы, маринованной в йогурте со специями.

Tags: жж ответит, обратная связь
Subscribe
  • Post a new comment

    Error

    Anonymous comments are disabled in this journal

    default userpic

    Your IP address will be recorded 

  • 67 comments
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →
Previous
← Ctrl ← Alt
Next
Ctrl → Alt →