Какие могут быть причины появления ошибок в логах, связанных с оперативной памятью на сервере?

Добрый день, коллеги! Обращаюсь за вашими рекомендациями после того, как опробовал все доступные варианты. Вот в чем заключается проблема:

На сервере Dell R540 с 384 ГБ ОЗУ развернуто Hyper-V, на котором функционируют виртуальные машины с SQL сервером, 1С Предприятие и несколько терминальных ферм. Кроме Hyper-V, на сервере ничего не установлено. 

Недавно этот сервер начал перезагружаться, преимущественно ночью, однако в регламентном плане никаких задач в это время не запланировано. Мы с системным администратором проверили логи и провели аппаратную диагностику. 

Мы попробовали запускать сервер с отключенными виртуальными машинами, экспериментировали с памятью, оставляя по одной планке и меняя слоты, но проблема не исчезла. Затем мы обновили BIOS до последней версии и прошивку RAID-контроллера. Провели тестирование памяти, в результате чего были выявлены проблемные модули, которые мы удалили. После этого запустили сервер, надеясь, что проблема решена, но через час снова появились ошибки в логах. 

Мы провели повторное тестирование и обнаружили, что ошибки продолжают проявляться даже в пустых слотах, а также на некоторых ранее исправных модулях. Интересно, что при запуске утилиты тестирования DELL общее тестирование модулей выдает ошибки на этапе проверки памяти, но при индивидуальном тестировании каждый модуль проходит успешно, и результаты показывают "успешное тестирование" с зеленым индикатором.

Вчера, после очередного вылета BSoD, мы перезагрузили сервер. В течение суток ошибок не было, но сегодня они снова начали проявляться. Тайминги BSoD при ошибках варьируются: сервер может упасть через 5 минут после запуска, проработать сутки или отключиться через час – это происходит беспорядочно. 

Ошибка, которую мы получаем: 
A corrected hardware error.
  • 29 октября 2024 г. 9:13
Ответы на вопрос 2
Здравствуйте! Ваша проблема кажется довольно сложной и требует глубокого анализа. Ниже приведены некоторые возможные причины, которые могут приводить к ошибкам, связанным с оперативной памятью на сервере, и рекомендации по их устранению.

### Возможные причины:

1. **Неисправность материнской платы**:
   - Проблемы с сокетом памяти или контроллером памяти на материнской плате могут вызывать нестабильную работу и ошибки в логах. Проверьте наличие видимых повреждений на плате и выполните тестирование с помощью утилит для диагностики оборудования.

2. **Несовместимость модулей памяти**:
   - Убедитесь, что все модули ОЗУ совместимы между собой и с материнской платой. Иногда разные партии или производители могут работать нестабильно вместе. Идеально использовать одинаковые по модели и характеристикам модули.

3. **Проблемы с охлаждением**:
   - Перегрев может вызывать произвольные сбои в работе памяти. Убедитесь, что система охлаждения работает исправно, и проверьте температуру компонентов сервера.

4. **Ошибки в конфигурации BIOS**:
   - Хотя вы уже обновили BIOS, проверьте настройки, такие как тайминги памяти и управление энергией. Иногда установка на "авто" вместо "экспериментальных" значений может помочь.

5. **Проблемы с источником питания**:
   - Нестабильное или недостаточное питание может также вызывать сбои в работе ОЗУ. Проверьте блок питания на наличие ошибок и, если возможно, замените его на более надежный.

6. **Программные конфликты**:
   - Даже если на сервере установлены только Hyper-V и виртуальные машины, проверьте, есть ли обновления для систем или приложений, которые могут быть несовместимы между собой.

7. **Жесткие диски и RAID**:
   - Ошибки чтения/записи на дисках могут возвратиться к проблемам с памятью, если RAID контроллер вызывает сбои. Просмотрите журналы RAID-контроллера на предмет ошибок.

### Рекомендации по устранению:

1. **Повторное тестирование памяти**:
   - Проведите тестирование памяти с помощью более глубоких утилит (например, Memtest86), чтобы удостовериться, что все модули работают корректно. Также попробуйте установить разные комбинации модулей в разных слотах.

2. **Установка и обновление драйверов**:
   - Убедитесь, что все драйвера, включая драйвера для материнской платы и контроллеров, обновлены до последних версий.

3. **Мониторинг параметров системы**:
   - Используйте специализированные программы для мониторинга температуры, напряжения и других параметров, чтобы выявить возможные аномалии.

4. **Проверка журналов системы**:
   - Посмотрите на системные журналы Windows (Event Viewer) для выявления других подозрительных записей, которые могут указывать на проблемы с оборудованием или конфликтами драйверов.

5. **Кастомизация настроек виртуализации**:
   - Попробуйте отключить или перенастроить элементы виртуализации, такие как динамическое выделение памяти. Это может помочь выявить, попадает ли проблема в область виртуальных машин.

Если все вышеперечисленное не принесет результатов, возможно, стоит рассмотреть возможность замены материнской платы или консультацию со специалистом по железу или техподдержкой Dell.
Error Source: Corrected Machine Check

Вот это говорит, что ошибка была скорректирована. У вас ведь наверняка ECC-память установлена?
Из-за таких ошибок вылетов быть не должно.

Дальше вопрос в том, память какого производителя установлена. Все ли модули одинаковые?
Я встречал ситуации, когда железо крупных вендоров странно определяет некоторые модули (выделялся Hynix). При этом для каких-то случаев обновление BIOS / BMC помогало, т.е. они что-то добавляли.

Проверьте: есть ли ваша память в списке проверенного железа от Делл.
Если есть возможность, проверьте как всё будет работать с гарантированно совместимой памятью.

может еще у кого какие теории есть проверить?

С процессором проверьте не работает ли он по умолчанию в режиме разгона (такое тоже однажды встречалось), и подаётся ли на него достаточное напряжение.

Сервер стал уходить в ребут (приоретно по ночам

Это тоже подсказка, пересекающаяся с идеей выше: попробуйте в БИОС отключить энергосбережение ЦПУ. Оно же может называться отключением (минимализацией) idle states или каким-нибудь max performance mode.

Также разные странные баги могут вылезать после включения защиты от уязвимостей в духе Spectre и Meltdown (отсюда же, кстати, может быть и разгон). Но это уже не самая свежая история, так что вероятность низкая.
Похожие вопросы