Еще раз о пользе резервных копий или история о моей неудаче
Итак, жил-был системный администратор и был у него Active Directory домен. Так как инфраструктура была небольшой и досталась ему в наследство давно, то был в ней всего один контроллер домена с установленной на нём Windows Server 2003. Ресурсов сильно не хватало, поэтому на этом же сервере было установлено довольно большое количество приложений, которыми пользовался сам администратор и некоторые его коллеги. Ну и вишенкой на торте — резервных копий в этой компании никогда не делалось. Что могло пойти не так? Подробности под катом.
Ничто не может оставаться неизменным вечно и решило техническое руководство, что пора переходить на более свежую версию Active Directory, а значит нужно обновить контроллер домена. Как перейти на более свежую версию Windows Server в своем домене, если у вас есть всего один контроллер, на котором стоит много дополнительного софта и для которого нет резервных копий? Конечно — in-place upgrade! Во время обновления что-то пошло не так и процесс прервался с ошибкой. После этого посыпались ошибки от различных систем и приложений, и наш герой, поняв, что со старым контроллером беда, решил исправить ситуацию добавив новый контроллер (очень жаль что он не начал с этого). Был поднят новый сервер с Windows Server 2008 и он попытался ввести его в домен, чтобы затем сделать контроллером. Получив очередное сообщение об ошибке, администратор понял, что пришла пора искать помощь на стороне.
Именно здесь начинается наше с ним знакомство. Небольшая ремарка — в процессе поиска способа ему помочь участвовало несколько человек, но чтобы упростить повествование, я не буду акцентировать на этом внимание, тем более, что никаких технических деталей это не добавит.
По этическим причинам я не могу демонстрировать скриншоты из чужой рабочей среды. Поэтому, для написания истории я (теперь уже зная, что именно сломалось) воспроизвёл ситуацию в тестовой лаборатории. Для желающих, в конце статьи будет сказано, как вы можете сделать тоже самое, если вам захочется попробовать свои силы в решении этой задачки. Таким образом, нашими пациентами будут домен Test.local, Windows Server 2003 контроллер TESTDC, Windows Server 2008 сервер TESTNEWDC.
DNS
При попытке ввести новый сервер в домен выдавалась следующая ошибка:
Как обычно, проблемы с Active Directory начинаются с DNS. Заглянув в оснастку управления DNS на TESTDC мы увидели пустой сервер без зон. Так явно быть не должно, так как этот единственный контроллер, по совместительству являлся и единственным DNS сервером.
Итак, задача номер один — восстановить работоспособность DNS. Без него о рабочем домене не может быть и речи. На всякий случай, уточнили у заказчика, что все зоны были Active Directory integrated. Значит найти их файлы на самом сервере не удастся. Данные DNS должны загрузиться из разделов Active Directory базы. Но, похоже, что с этим были проблемы. Заглянули в System и Application логи, чтобы посмотреть, что происходит при старте службы DNS. Так и есть — в логах пестрили ошибки Event ID 4000 и Event ID 4007, характерные для проблем с работой AD integrated зоны:
Это был очень неприятный знак, так как невозможность загрузки информации из Active Directory базы единственного доступного контроллера намекала, на серьезность случившегося. Однако, оставалась надежда, что получится руками заставить всё это заработать. При попытке создать зону заново, подтвердилась мысль, что DNS не может ничего получить из Active Directory. Он не мог получить даже список контроллеров домена на которых хранятся соответствующие разделы:
В качестве обходного решения было решено попробовать подменить родную DNS зону локальной заглушкой. Понятно, что в ней не будет всей необходимой информации, но контроллер можно заставить принудительно обновить DNS записи Active Directory, а всё остальное пока могло подождать. Так что, была создана локальная основная зона test.local и в ней были разрешены динамические обновления. Самый простой способ, который предлагает Microsoft для регистрации DNS записей контроллера домена — рестартовать на нём сервис NetLogon. Это и было сделано. В результате, была получена локальная зона с нужными записями:
New DC
Здесь мы взяли паузу. Заказчик проверил функциональность приложений и систем в своей среде. Всё работало. пользователи могли штатно использовать свои учётные записи. У заказчика слегка отлегло от сердца — по крайней мере люди могли вернуться к работе.
Но основная проблема не была решена. Мы вернулись к попытке ввести новый сервер в домен. Для введения в домен использовался аккаунт доменного администратора test.local\administrator, который успешно логинился на старый контроллер. Снова ошибка. Правда, на этот раз, другая. Теперь «Login Failure: The target account name is incorrect».
Помня о проблеме загрузки информации из Active Directory, здесь появилась идея попробовать вместо доменного аккаунта локальный аккаунт администратора со старого контроллера testdc\administrator. Понятно, что, по сути, это тот же аккаунт, так как при создании домена, локальный built-in администратор первого контроллера становится built-in администратором домена, но, тем не менее, это сработало. Сервер был успешно введен в домен и его аккаунт появился в Active Directory базе:
Пришло время попытаться сделать его контроллером. Снова ошибка. Процесс получения роли контроллера через dcpromo завершался с сообщением «Access denied»:
В Active Directory логах старого контроллера при этом часто встречалось сообщение об ошибке Event ID 40960 — опять проблема с учётной записью, на сей раз, с записью самого контроллера:
Вообще, мысли о такой возможности появились ещё на этапе обнаружения ошибки с DNS, но очень уж не хотелось в это верить.
Учётные записи
Итак, стало окончательно ясно, что пошло не так во время in-place upgrade — были потеряны те данные о доменной учётной записи контроллера, что хранились на нём локально. В итоге, у нас был частично работоспособный домен, но не было контроллера домена. Был лишь сервер, на котором хранилась Active Directory база. Так как он не помнил своего компьютерного пароля, то для домена он, по сути, был никем. Выше была приведена ссылка, на статью Microsoft, которая предлагает метод решения этой проблемы:
- Остановить службу KDC на повреждённом контроллере
- Выполнить с правами администратора команду netdom resetpwd /server:
/userd: /passwordd:* - Перезагрузить контроллер
Проблема в том, что для этого нужно иметь второй рабочий контроллер, а его не было.
Вообще, раз у нас есть проблема с несовпадением пар логин-пароль хранящихся локально и в базе Active Directory, то для её решения нам нужно иметь возможность как-то эти данные изменять.
С локальной версией учётной записи всё просто. Есть замечательная утилита от Joeware — machinepwd. Она позволяет задать произвольный пароль компьютерной записи (а если запись эта еще не сломана, то не только локально, но и в AD базе).
Сложнее с записью хранящейся в AD. Так как учётные записи контроллеров критически важны для этой службы, от она защищает их от любых посягательств. Мы попробовали следующее:
- Самый простой способ — Reset компьютерной учётной записи через Active Directory Users and Computers (если вы делаете Reset, то пароль сбрасывается в значение по умолчанию, при создании нового компьютера — COMPUTERNAME$). Операция выдала ошибку доступа.
- nltest. Этот инструмент позволяет управлять свойствами secure channel (та же пара логин-пароль) для компьютеров в Active Directory. Вообще говоря, он позволяет сбросить значение пароля на обеих сторонах. Ошибка обнаружения домена I_NetLogonControl failed: Status = 1355 0×54b ERROR_NO_SUCH_DOMAIN
- dsmod. Утилита для работы с компьютерной учётной записью в самой Active Directory бузе. Ошибка Internal Error.
- admod. Еще одна утилита для работы с объектами в AD. Ошибка Unwilling to perform.
- ktpass. Интересный инструмент, позволяющий генерировать keytab файлы (своего рода оффлайн Kerberos token). Одной из особенностей этой утилиты является возможность сменить пароль учётной записи, для которой вы создаете keytab файл. Снова ошибка доступа.
Последней надеждой было достать текущий пароль контроллера из Active Directory. После этого можно было бы установить такое же локальное значение пароля. Есть много инструментов для извлечения этой информации (например: Mimikatz DC sync). Однако, даже имея доступ администратора, извлечь пароль в открытом виде можно только если ДО его последней смены была включена настройка Store passwords using reversible encryption. В нашем случае, она была выключена. Так как пароль принадлежал компьютерной учётной записи, то не было никаких шансов подобрать его по словарю имея на руках NTLM hash.
Подводя итог
Неприятно это признавать, но я так и не придумал, как в этой ситуации исправить положение. Заказчик был вынужден передподнимать домен в праздники (спешки, в принципе, не было — с локальной зоной DNS, пользователи даже не заметили, что что-то не так, так что он мог спокойно подготовиться к этой операции). Не получилось даже воспользоваться инструментами миграции — для переноса паролей они требовали наличия доверительных отношений между старым и новым доменами, но для установления этих отношения нужен живой контроллер домена. Понятно, что человек сам себе злобный буратино и сделал не так всё, что только было можно, но всё-таки мне было обидно.
Надеюсь, вам понравилась эта история с немного грустным финалом. В качестве послесловия, несколько напоминаний начинающим администраторам Active Directory:
- Использовать один единственный контроллер домена можно только если у вас есть ОЧЕНЬ серьезные на то причины (как правило, отсутствие денег на еще одну лицензию Windows Server). Вы получаете единую точку отказа, проблемы с которой полностью выводят из строя вашу инфраструктуру.
- Независимо от того, сколько у вас контроллеров, но особенно если он всего один, ВСЕГДА делайте резервные копии. Носители информации сейчас стоят так дешево, что не может быть никаких причин на этом экономить.
- Не ставьте приложения на контроллер домена без крайней необходимости. Это совсем не тот сервер на который можно что-то поставить «заодно».
- Еще раз, повторюсь — никогда не начинайте процедуру in-place upgrade не имея резервной копии сервера. Эта процедура сама по себе несёт больше рисков, чем миграция, так что незачем подставлять себя еще больше, лишаясь ещё и возможности отката изменений.
P.S. Если вы хотите получить тестовую среду с такой же проблемой, то всё что вам нужно, это поднять Windows Server 2003 контроллер домена, скачать утилиту machinepwd, ссылку на которую я дал выше, отключить на контроллере сетевое подключение, остановить службу KDC и, с помощь machinepwd, задать новый компьютерный пароль.
P.P. S. Если вы знаете способ в такой ситуации починить связь между контроллером и доменом, то поделитесь им, пожалуйста с аудиторией. Ваш подвиг не будет забыт!
Комментарии (10)
3 сентября 2016 в 18:55
0↑
↓
А Вы не пробовали брутфорсить NTLM-хэш на GPGPU? Шансы должны быть неплохие. Если у вас есть хэш, можете кинуть в личку.3 сентября 2016 в 19:10
0↑
↓
Вот именно. Если пароль не слишком сложный то при нынешних процессорах он ломается за разумное время.3 сентября 2016 в 19:19
0↑
↓
Да даже если слишком сложный, есть шанс нахождения более простой коллизии. Точно не помню, но по-моему кроме прочего у NTLM была проблема, связанная с паролями длиннее 8 символов.3 сентября 2016 в 19:24
0↑
↓
А, нашёл, там же дикая дичь.3 сентября 2016 в 20:40
0↑
↓
Да, я этим баловался ещё в году эдак 2000:-)3 сентября 2016 в 21:14
+1↑
↓
LM и NTLM разные вещи. В NTLM такой дичи нет.
3 сентября 2016 в 19:04
+1↑
↓
Честно говоря, у меня волосы дыбом встали. До такого состояния в свой практике я ничего не доводил…
Когда я был ещё очень юн и не умел, досталась мне во всевластие похожая «инфраструктура». Только с 2к сервером. Где предыдущий хацкер наставил зачем-то сервисов овер100500 на контроллер домена.
И решил я скиллы покачать, проапгредиться на 2003, а заодно и сервисы лишние убрать.Что сделал — дабы не потерять AD, я всего лишь добавил второй контроллер (кой собрать можно натурально из г. и палок, там достаточно 256 метров оперативки и дохлейший проц), попробовал как туда-сюда можно менять хозяев схемы и прочего, как можно днс переносить, ну и только тогда я решился на апргрейд 2000→2003 старого сервера, оставив хозяином второй. Сервер успешно проапгрейдился, лес остался уровня 2к. Потом последовала обратная операция, хозяином стал старый сервер. Далее убрал вспомогательный сервер и апгрейдим лес до 2003.
Чтобы было понятно — это не тру вей, но я так скиллы набивал когда-то давно.
И, да, эти все операции производились в рабочее время, и офис не почувствовал никаких помех в работе.Сейчас это вообще не актуально, т.к. виртуализация решает. Поставил контроллер в виртуалочку, да бекапь себе виртуалочку на соседний жёсткий, при желании — в облачко.
3 сентября 2016 в 19:08
+1↑
↓
как-то решал я одну проблему с АД (2008R2), уже не помню что я за команду ввел (запустил утилиту), но команда была от 2000 домена, и привело это к проблеме с правами на каталог SYSVOL на всех контроллерах, короче домен помер. Мораль: наличие нескольких контроллеров может не спасти ваш домен от вас).Дело было в воскресение, и я быстро восстановил домен контроллеры из резервных копий (3 шт).
Некоторые консерваторы могут закидать меня яйцами =), но все домен контроллеры я разворачивал виртуальными, и это позволило мне за час восстановить работу домена. В последствии я еще переустановил роль AD на всех все RODC контроллерах.По поводу отсутствия денег:
1 — если поставить на весы 800 у.е. за лицензию и деятельность предприятия, что выиграет?
2 — бу сервера сейчас продают от 500 у.е. за 4 ядра 24 гб памяти (ддр3)…3 сентября 2016 в 20:34
0↑
↓
Сразу после того, как in-place upgrade завершился с ошибками, не было варианта откатиться на последнюю точку восстановления, или загрузившись с загрузочного диска, запустить установщик старой WIndows Server 2003 в режиме сохранения установленной Windows?3 сентября 2016 в 22:53
0↑
↓
Вы бы сделали перед «апгрейдом» резервную копию хотя бы системного диска? Это ж так глупо надеяться на «авось» в таком деле?