Как можно устранить ошибку "osds down" в системе хранения данных CEPH?

Здравствуйте. Кластер с серверами вырубился, и на трех серверах Proxmox был развернут Ceph. После перезагрузки виртуальные машины не запускаются, и в Ceph появилось множество предупреждений. Есть ли возможность восстановить систему?
  • 14 октября 2024 г. 5:02
Ответы на вопрос 2
Ошибка "osds down" в Ceph указывает на то, что некоторые объекты хранения (OSD - Object Storage Daemon) не активны и не могут быть связаны с кластером. Это может произойти по многим причинам, таким как проблемы с сетью, сбой оборудования или ошибка конфигурации. Вот шаги, которые можно предпринять для устранения этой проблемы:

1. **Проверьте состояние OSD**:
   Используйте команду `ceph osd tree` и `ceph osd status`, чтобы увидеть, какие OSD находятся в состоянии "down", а также их дерево и статус.

2. **Проблемы с сетью**:
   Убедитесь, что все узлы, на которых работают OSD, правильно настроены и доступны по сети. Проверьте настройки сети, включая файерволы, чтобы убедиться, что они не блокируют порты Ceph.

3. **Перезапуск OSD**:
   Если OSD упали, попробуйте перезапустить соответствующие сервисы на узлах:
   ```bash
   systemctl restart ceph-osd@<ID>
   ```

4. **Проверка журналов**:
   Посмотрите журналы OSD на наличие ошибок с помощью команды:
   ```bash
   journalctl -u ceph-osd@<ID>
   ```
   Это может дать понимание причины сбоя OSD.

5. **Проверка дисков**:
   Убедитесь, что диски, на которых работает OSD, находятся в рабочем состоянии. Проверьте SMART-данные и файловую систему на наличие повреждений.

6. **Проверка кворума**:
   Убедитесь, что в кластере есть достаточное количество активных OSD для обеспечения кворума. Если у вас есть дополнительные OSD, попробуйте их добавить.

7. **Переподключение OSD**:
   Если OSD не могут быть восстановлены, вы можете их удалить и заново добавить в кластер:
   ```bash
   ceph osd out <OSD-ID>
   ceph osd rm <OSD-ID>
   ```

8. **Проверка конфигурации**:
   Убедитесь, что конфигурация системы хранения и всех OSD корректна. Проверьте `ceph.conf` на наличие ошибок или неправильных настроек.

9. **Использование команд для восстановления**:
   Запустите следующие команды для диагностики и исправления проблем:
   ```bash
   ceph health detail
   ceph pg repair <PG-ID>
   ```

10. **Обновление и поддержка**:
    Если у вас не получается решить проблему, рекомендуется обратиться к документации Ceph или на специализированные форумы за помощью.

Следуйте этим шагам с осторожностью, чтобы избежать потери данных и нарушений в работе системы.
Если выполнить 
systemctl daemon-reload
а затем
systemctl start [email protected]
то все запускается, но от силы на пол минуты, потом падает
Похожие вопросы