Почему не произошел переход на резервный контроллер при отказе одного из контроллеров Dell SC7020?

Существует система хранения данных Dell Compellent SC7020, в которой был создан один failure domain (FD), хотя позднее выяснилось, что для двух контроллеров следует создавать два FD. Система работает в режиме виртуальных портов, и на каждом контроллере используются по два FC порта, подключенные к двум FC свитчам. Каждый свитч имеет по два линка к каждому из двух virtual connect корзин HP 7000, и эти порты входят в вышеупомянутый FD.

Недавно произошел отказ одного из контроллеров, и все виртуальные порты, связанные с ним, были перенаправлены на работающий контроллер. Тем не менее, все LUN, которыми управлял отказавший контроллер, не отобразились на серверах, в то время как LUN, принадлежащие работоспособному контроллеру, функционировали нормально. На веб-интерфейсе системы хранения данные отображаются как онлайн, и связь с ними имеется. Серверы также видят WWN всех портов СХД. Ресканирование FC шины не дало результатов, в отличие от ввода отказавшего контроллера с ребалансировкой портов, которое решило проблему.

В связи с этим, можно ли выяснить, что именно пошло не так в данной ситуации? Нужно ли было учитывать какие-то специфические настройки при презентации LUN? Должен ли происходить автоматический failover у этих систем хранения данных при отказе контроллера?
  • 17 февраля 2025 г. 20:54
Ответы на вопрос 1
В данном случае проблема с автоматическим переходом на резервный контроллер при отказе одного из контроллеров Dell SC7020 может быть связана с несколькими факторами, которые следует учитывать.

### 1. Конфигурация Failure Domain (FD)
Вы упомянули, что у вас есть только один failure domain (FD), хотя для двух контроллеров рекомендуется создавать два FD. Это может быть одним из причин, по которой в случае отказа одного контроллера не произошло корректного перераспределения LUN. Каждый контроллер должен иметь свой FD для обеспечения резервирования и правильной работы в случае выхода одного из них из строя.

### 2. Презентация LUN
При настройке LUN важно учитывать, как они представлены хостам. Если LUN, управляемые отказавшим контроллером, не были должным образом перенастроены на работающий контроллер при отказе, это может объяснить, почему они не стали доступны. Нужно убедиться, что каждый LUN был назначен как доступный для обоих контроллеров, чтобы избежать такой ситуации.

### 3. Режим работы виртуальных портов
Системы хранения данных, работающие в режиме виртуальных портов, могут иметь особенности, которые влияют на failover. Важно удостовериться, что все виртуальные порты правильно настроены и согласованы с сетевым подключением (FC свитчами и хостами). При отказе одного контроллера, если конфигурация портов не была выполнена правильно, может произойти потеря связи с LUN.

### 4. Автоматический failover
В идеале, при отказе одного контроллера должно происходить автоматическое переключение (failover) на резервный контроллер. Dell SC7020 должен поддерживать эту функцию в правильной конфигурации. Если автоматический failover не сработал, это может быть связано с неправильной конфигурацией, как упоминалось выше, или с тем, что один или несколько параметров были сброшены или неправильно настроены после отказа контроллера.

### Рекомендации:
- **Пересмотрите конфигурацию FD**: Подумайте о создании двух отдельных FD для каждого контроллера.
- **Проверьте настройки LUN**: Убедитесь, что LUN, которые вы создаете и назначаете, доступны для обоих контроллеров.
- **Тестирование failover**: Регулярно проводите тесты failover, чтобы убедиться, что система эффективно реагирует на выход из строя компонентов.
- **Документация**: Ознакомьтесь с документацией на ваше оборудование для получения дополнительных настроек, которые могут повлиять на работу в случае отказа.
- **Поддержка Dell**: Если проблема сохраняется, рекомендуется обратиться в техническую поддержку Dell для получения более детального анализа и помощи по вашей конкретной конфигурации.
Похожие вопросы