Добрый день, коллеги! Обращаюсь за вашими рекомендациями после того, как опробовал все доступные варианты. Вот в чем заключается проблема: На сервере Dell R540 с 384 ГБ ОЗУ развернуто Hyper-V, на котором функционируют виртуальные машины с SQL сервером, 1С Предприятие и несколько терминальных ферм. Кроме Hyper-V, на сервере ничего не установлено. Недавно этот сервер начал перезагружаться, преимущественно ночью, однако в регламентном плане никаких задач в это время не запланировано. Мы с системным администратором проверили логи и провели аппаратную диагностику. Мы попробовали запускать сервер с отключенными виртуальными машинами, экспериментировали с памятью, оставляя по одной планке и меняя слоты, но проблема не исчезла. Затем мы обновили BIOS до последней версии и прошивку RAID-контроллера. Провели тестирование памяти, в результате чего были выявлены проблемные модули, которые мы удалили. После этого запустили сервер, надеясь, что проблема решена, но через час снова появились ошибки в логах. Мы провели повторное тестирование и обнаружили, что ошибки продолжают проявляться даже в пустых слотах, а также на некоторых ранее исправных модулях. Интересно, что при запуске утилиты тестирования DELL общее тестирование модулей выдает ошибки на этапе проверки памяти, но при индивидуальном тестировании каждый модуль проходит успешно, и результаты показывают "успешное тестирование" с зеленым индикатором. Вчера, после очередного вылета BSoD, мы перезагрузили сервер. В течение суток ошибок не было, но сегодня они снова начали проявляться. Тайминги BSoD при ошибках варьируются: сервер может упасть через 5 минут после запуска, проработать сутки или отключиться через час – это происходит беспорядочно. Ошибка, которую мы получаем: A corrected hardware error.
Здравствуйте! Ваша проблема кажется довольно сложной и требует глубокого анализа. Ниже приведены некоторые возможные причины, которые могут приводить к ошибкам, связанным с оперативной памятью на сервере, и рекомендации по их устранению. ### Возможные причины: 1. **Неисправность материнской платы**: - Проблемы с сокетом памяти или контроллером памяти на материнской плате могут вызывать нестабильную работу и ошибки в логах. Проверьте наличие видимых повреждений на плате и выполните тестирование с помощью утилит для диагностики оборудования. 2. **Несовместимость модулей памяти**: - Убедитесь, что все модули ОЗУ совместимы между собой и с материнской платой. Иногда разные партии или производители могут работать нестабильно вместе. Идеально использовать одинаковые по модели и характеристикам модули. 3. **Проблемы с охлаждением**: - Перегрев может вызывать произвольные сбои в работе памяти. Убедитесь, что система охлаждения работает исправно, и проверьте температуру компонентов сервера. 4. **Ошибки в конфигурации BIOS**: - Хотя вы уже обновили BIOS, проверьте настройки, такие как тайминги памяти и управление энергией. Иногда установка на "авто" вместо "экспериментальных" значений может помочь. 5. **Проблемы с источником питания**: - Нестабильное или недостаточное питание может также вызывать сбои в работе ОЗУ. Проверьте блок питания на наличие ошибок и, если возможно, замените его на более надежный. 6. **Программные конфликты**: - Даже если на сервере установлены только Hyper-V и виртуальные машины, проверьте, есть ли обновления для систем или приложений, которые могут быть несовместимы между собой. 7. **Жесткие диски и RAID**: - Ошибки чтения/записи на дисках могут возвратиться к проблемам с памятью, если RAID контроллер вызывает сбои. Просмотрите журналы RAID-контроллера на предмет ошибок. ### Рекомендации по устранению: 1. **Повторное тестирование памяти**: - Проведите тестирование памяти с помощью более глубоких утилит (например, Memtest86), чтобы удостовериться, что все модули работают корректно. Также попробуйте установить разные комбинации модулей в разных слотах. 2. **Установка и обновление драйверов**: - Убедитесь, что все драйвера, включая драйвера для материнской платы и контроллеров, обновлены до последних версий. 3. **Мониторинг параметров системы**: - Используйте специализированные программы для мониторинга температуры, напряжения и других параметров, чтобы выявить возможные аномалии. 4. **Проверка журналов системы**: - Посмотрите на системные журналы Windows (Event Viewer) для выявления других подозрительных записей, которые могут указывать на проблемы с оборудованием или конфликтами драйверов. 5. **Кастомизация настроек виртуализации**: - Попробуйте отключить или перенастроить элементы виртуализации, такие как динамическое выделение памяти. Это может помочь выявить, попадает ли проблема в область виртуальных машин. Если все вышеперечисленное не принесет результатов, возможно, стоит рассмотреть возможность замены материнской платы или консультацию со специалистом по железу или техподдержкой Dell.
<blockquote>Error Source: Corrected Machine Check</blockquote> <br/> Вот это говорит, что ошибка была скорректирована. У вас ведь наверняка ECC-память установлена? <br/> Из-за таких ошибок вылетов быть не должно. <br/> <br/> Дальше вопрос в том, память какого производителя установлена. Все ли модули одинаковые? <br/> Я встречал ситуации, когда железо крупных вендоров странно определяет некоторые модули (выделялся Hynix). При этом для каких-то случаев обновление BIOS / BMC помогало, т.е. они что-то добавляли. <br/> <br/> Проверьте: есть ли ваша память в списке проверенного железа от Делл. <br/> Если есть возможность, проверьте как всё будет работать с гарантированно совместимой памятью. <br/> <br/> <blockquote>может еще у кого какие теории есть проверить?</blockquote> <br/> С процессором проверьте не работает ли он по умолчанию в режиме разгона (такое тоже однажды встречалось), и подаётся ли на него достаточное напряжение. <br/> <br/> <blockquote>Сервер стал уходить в ребут (приоретно по ночам</blockquote> <br/> Это тоже подсказка, пересекающаяся с идеей выше: попробуйте в БИОС отключить энергосбережение ЦПУ. Оно же может называться отключением (минимализацией) idle states или каким-нибудь max performance mode. <br/> <br/> Также разные странные баги могут вылезать после включения защиты от уязвимостей в духе Spectre и Meltdown (отсюда же, кстати, может быть и разгон). Но это уже не самая свежая история, так что вероятность низкая.