Ошибки и проблемы серверов большой тройки: часть первая. Dell
Занимаясь восстановленными (refurbished) серверами, мы накопили приличный опыт общения с проблемами разных брендов, которым хотим поделиться на примере машин большой тройки: Dell, HP и IBM. Чтобы никому не было обидно, мы пойдём в алфавитном порядке.
В этом посте мы собрали отзывы наших инженеров, которые имеют большой опыт в диагностировании, восстановлении и обслуживании серверов — каждая описанная ошибка решалась их потом и кровью. Эта информация не пригодится вам в случае, если вы обслуживаетесь по гарантии, но, тем не менее, может быть полезна.
Обновление ПО
Проблема при обновлении ПО актуальна для оборудования DELL старше 3-5 лет. Напомним, что все манипуляции с сервером Dell производятся при помощи Lifecycle, которая встроена в программное обеспечение сервера, а также iDRAC.
Интегрированный контроллер удаленного доступа Dell 7 (iDRAC7) — программное обеспечение для серверов Dell, которое удаленно подключается к серверу, даже если у сервера нет питания, но подключен интернет и блок питания. При подключении к серверу, ПО выводит на экран данные о состоянии системы, а также позволяет протестировать и обновить все компонентами: начиная от биоса и заканчивая драйверами на материнскую плату, блоки питания и т. д., а также прошивку.
Здесь, при стандартном сценарии, есть два варианта. Первый, обновление в ручном режиме, с флеш-карты — в случае, если нет подключенного к серверу интернета. Тогда заходим в Lifecycle и обновляемся с флеш-накопителя. Если что-то не пошло, подключаем сервер к интернету и обновляемся, либо заходим через iDRAC и восстанавливаем первоначальные настройки, устанавливаем необходимые обновления.
Однако, если сервер достаточно старый, проблемы ждут почти сразу: при попытке установить программное обеспечение через Интернет из системы обновления и диагностики Lifecycle. Причина такой проблемы в том, что производитель изначально, ещё на заре этой системы, не использовал протокол защиты на FTP — сервере обновления прошивок компонентов своих серверов. Сейчас, когда такие сертификаты защиты введены, старое оборудование трёх-пятилетней давности выпуска иногда с трудом может обновиться через Интернет.
Решается проблема достаточно просто и многие из вас уже наверняка догадались, как это можно сделать: обновить ПО, а именно Lifecycle, но сначала обновите систему IDRAC. Обновления доступны бесплатно на официальном сайте техподдержки Dell. (Проверка гарантии и скачивание обновлений на ваш сервер Dell).
После этой манипуляции, вы сможете удобно загрузить все драйверы и остальные обновления через Интернет, вне зависимости от года выпуска вашего сервера — если, конечно, на сайте производителя есть для него набор обновлений.
Ошибка обновления iDRAC
Напомним, что iDRAC представлен в вариантах «стандартный», «экспресс» и «enterprise». Стандарт идёт в комплекте при покупке сервера. Если заказываем комплектацию «экспресс», то на материнскую плату сервера нам ставят соответствующую лицензионную микросхему. Таким образом, мы получаем новый порт, который позволяет нам получать более информативные данные через Web.
При стандартной лицензии, когда мы на рабочем компьютере подключаемся через браузер к системе iDRAC, мы можем увидеть обзор информации о системе на стандартной вкладке, сервис-тег сервера, модель и не более того.
Через экспресс, т. е. если у нас 7 версия iDRAC, мы уже можем обновлять BIOS, Lifecycle, и т.д. непосредственно через систему удалённого доступа iDRAC. В ранних версиях системы, к сожалению, эта возможность не предусмотрена: там можно обновляться только через флеш-накопитель.
Enterprise – самый полный комплект доступных функций по управлению сервером через порт iDRAC, который позволяет полноценно отслеживать и обновления, и полный список компонентов, и текущее состояние сервера. Это удобный и функциональный комплект, но мы сумели найти в нём один небольшой, но существенный недостаток.
После обновления версии iDRAC Enterprise 1.30.30 либо 1.45.45, система перестаёт инициализироваться и не стартует из-за неправильных настроек. Как результат, если мы входим в iDRAC в настройках через BIOS, мы не можем его ни отключить, ни что бы то ни было предпринять для того, чтобы восстановить его или перезагрузить.
Для большинства пользователей, единственный выход в такой ситуации, это обращение в техподдержку. Если ваш сервер на гарантии, то специалисты приедут и заменят материнскую плату. Мы, в свою очередь, сталкивались с этой проблемой и, как ни странно, помогло вполне стандартное решение, описанное на официальном форуме Dell: сервер пришлось обесточить на 5 минут, вытащить блоки питания и отключить все провода. Правда, если это не помогло, то вам, всё же, придётся заменить материнскую плату.
Ошибка Е1410
Ошибка Е1410 выдаётся после апгрейда: вы добавили ещё один процессор, но с ним сервер почему-то не стартует. Вернее, он включается, индикаторы попеременно загораются, он громко шумит, но при этом на экране ничего нет и пишет ошибку на дисплее диагностической панели.
Проблема в данном случае заключается в том, что на сокете CPU 1, загнуты ножки сокета, которые прилегают к процессору – либо одна, либо сразу несколько. На изображении вы видите исправные ножки сокета (слева) и место, где они загнуты (справа). Ножки можно вручную выправить, на этом проблема будет исчерпана.
Как вы уже догадались, при данной ошибке второй процессор не стартует потому, что часть функциональности первого процессора оказалась отключена. Какая именно? Вариантов может быть множество, одни из них: либо это ножки отвечающие за старт второго процессора, либо блок оперативной памяти не стартует от второго процессора. Это зависит от того, какая ножка загнута.
Некорректная установка оперативной памяти
Проблема часто встречается при апгрейде. В данном случае речь идёт целиком и полностью о человеческом факторе. Однако ошибка эта крайне распространена в силу того, что на каждую модель присутствует своя спецификация по установке. Во-первых, в зависимости от модели, почти в каждом сервере разное количество портов. Соответственно, определённое количество оперативки нужно добавлять в свои порты. Иногда задача усложняется многократно: например, у модели DELL R610 оперативная память трехканальная, поэтому необходимо добавлять по три планки на один канал. Легко можно ошибиться, выбирая из 12 слотов и 4 каналов.
Память типа DDR3 интерфейс состоит из трех каналов до двух модулей Rdimm или UDIMMs на канал
для одиночного или двойного ранга и до двух модулей Rdimm на канал для квадра ранга. Интерфейс использует 2 ГБ, 4 ГБ, 8 ГБ или 16 ГБ модулей Rdimm. Также поддерживается 1 ГБ или 2 ГБ UDIMMs.
Поэтому часто получается при неверном рассчете памяти одна из планок или несколько установлены в неверные слоты, либо вовсе не хватает для оптимальной конфигурации.
Второй момент, часто приводящий к несовпадению по оперативной памяти заключается в том, что память для серверов подразделяется по питанию на 1,35 V и 1,5 V. Оперативка 1,35 вольт стартует только на начиная с 56-й версии процессора. На более ранних версиях серверов можно использовать только планки, рассчитанные на 1,5 вольт. Если в сервере будут стоять разные планки, то он не запустится и выдаст соответствующую ошибку.
Выглядит это таким же образом как в случае с загнутыми сокетами и ошибкой запуска второго процессора. Если ошибки на экране дисплея не отображается, сервер пишет “Server is booting...” и на экране ничего не отображается, попробуйте проверить конфигурацию памяти. Замените память в соответствии со спеками и установите в правильные слоты, чтобы получить оптимальную конфигурацию.
Преимущества серверов Dell
Справедливости ради хотелось бы закончить статью, поговорив о плюсах серверов Dell. А они, по нашему мнению, полностью нивелируют те проблемы, которые мы описали выше. Ведь, в первую очередь, эти проблемы встречаются при реконфигурации серверов.
- Сервер «как-он-есть» от Dell, пожалуй, наиболее беспроблемный и удобный для всех действий с серверами. Это первое, что мы можем сказать на основе нашего опыта.
- Так же у Dell есть поддержка мощнейших процессоров на данный момент: как поколения Е3 так и Е5, до 12-ядерных процессоров (R720, R720XD).
- Холодный старт сервера у Dell намного быстрее других вендоров большой тройки.
- В серверах Dell большой выбор корзин для подключения HDD дисков – 2,5 дюйма и 3,5 дюйма, в которые можно подключить до 12 HDD (в случае с R720XD). С переходниками можно подключать SSD диски. На 3,5 дюйма существуют корзины на 4, 6, 8, 12 дисков, а на 2,5 дюйма — до 8.
- Почти во всех моделях Dell присутствует возможность подключения резервных блоков питания.
- Техподдержка на заявки реагирует очень быстро.
- Поэтому, несмотря на то, что серверы Dell чуточку дороже аналогов от других поставщиков, инвестиции вложенные в эти сервера оправдываются.
Надеемся, что наша статья поможет вам при апгрейде, диагностике и приобретении б/у-сервера. Остались вопросы? Пишите в комментариях.