Как можно устранить ошибку "osds down" в системе хранения данных CEPH?

Question

Рамон

proxmox , ceph

Как можно устранить ошибку "osds down" в системе хранения данных CEPH?

Здравствуйте. Кластер с серверами вырубился, и на трех серверах Proxmox был развернут Ceph. После перезагрузки виртуальные машины не запускаются, и в Ceph появилось множество предупреждений. Есть ли возможность восстановить систему?

14 октября 2024 г. 5:02

Ответы на вопрос 2

Похожие вопросы

Answer 1

Ошибка "osds down" в Ceph указывает на то, что некоторые объекты хранения (OSD - Object Storage Daemon) не активны и не могут быть связаны с кластером. Это может произойти по многим причинам, таким как проблемы с сетью, сбой оборудования или ошибка конфигурации. Вот шаги, которые можно предпринять для устранения этой проблемы:

1. **Проверьте состояние OSD**:
Используйте команду `ceph osd tree` и `ceph osd status`, чтобы увидеть, какие OSD находятся в состоянии "down", а также их дерево и статус.

2. **Проблемы с сетью**:
Убедитесь, что все узлы, на которых работают OSD, правильно настроены и доступны по сети. Проверьте настройки сети, включая файерволы, чтобы убедиться, что они не блокируют порты Ceph.

3. **Перезапуск OSD**:
Если OSD упали, попробуйте перезапустить соответствующие сервисы на узлах:
```bash
systemctl restart ceph-osd@<ID>
```

4. **Проверка журналов**:
Посмотрите журналы OSD на наличие ошибок с помощью команды:
```bash
journalctl -u ceph-osd@<ID>
```
Это может дать понимание причины сбоя OSD.

5. **Проверка дисков**:
Убедитесь, что диски, на которых работает OSD, находятся в рабочем состоянии. Проверьте SMART-данные и файловую систему на наличие повреждений.

6. **Проверка кворума**:
Убедитесь, что в кластере есть достаточное количество активных OSD для обеспечения кворума. Если у вас есть дополнительные OSD, попробуйте их добавить.

7. **Переподключение OSD**:
Если OSD не могут быть восстановлены, вы можете их удалить и заново добавить в кластер:
```bash
ceph osd out <OSD-ID>
ceph osd rm <OSD-ID>
```

8. **Проверка конфигурации**:
Убедитесь, что конфигурация системы хранения и всех OSD корректна. Проверьте `ceph.conf` на наличие ошибок или неправильных настроек.

9. **Использование команд для восстановления**:
Запустите следующие команды для диагностики и исправления проблем:
```bash
ceph health detail
ceph pg repair <PG-ID>
```

10. **Обновление и поддержка**:
Если у вас не получается решить проблему, рекомендуется обратиться к документации Ceph или на специализированные форумы за помощью.

Следуйте этим шагам с осторожностью, чтобы избежать потери данных и нарушений в работе системы.

Answer 2

Если выполнить <br/> <code>systemctl daemon-reload</code> <br/> а затем <br/> <code>systemctl start ceph-osd@0.service</code> <br/> то все запускается, но от силы на пол минуты, потом падает