Какие признаки указывают на проблемы с SSD?

Здравствуйте! Столкнулся с необычным поведением SSD и не знаю, как поступить дальше: стоит ли его выбрасывать или есть возможность исправить ситуацию. 

Попробую описать проблему подробнее. Я решил включить старый сервер на материнской плате Intel S5520UR, который долгое время не использовался. В качестве системного диска я использую SSD Intel DC S3500 на 300 Гб. Ранее диск работал безупречно на сервере с VMWare, но сейчас ситуация другая. 

Вот что происходит:
1) Установка Debian проходит без проблем: диск определяется, разделы создаются, загружается загрузчик и т.д. 
2) Однако после перезагрузки диск пропадает из BIOS, и на экране остаются только Internal EFI Shell, IBA GE Slot и DWD-привод, из-за чего загрузка не происходит. Intel Boot Agent сообщает, что ничего не найдено.
3) Перед перезагрузкой системы на короткое время появляется сообщение об ошибках, среди которых: 
   - (WW) FBDEV(0) The fbdev driver didn't call xf86SetGamma() to initialise the gamma values
   - (WW) FBDEV(0) Please fix the FBDEV driver!
   - (EE) Server is already active for display 0
   - (EE) Checking widths: logo (800) vs. window (800) no scaling needed
   - The system is going down NOW!
   - Send SIGTERM to all processes
   - debconf: Fatal IO error 11 (Resource temporarily unavailable) on X server :0
   - Sent SIGKILL to all processes
   - Requesting system reboot
4) Сам диск показывает, что все в порядке по данным SMART, тест проходит успешно. Время работы диска составляет почти 30 000 часов. Однако есть один параметр, который вызывает беспокойство: № 175 (SMI Program fail count in worst die) — это число впечатляющее, более 600 триллионов. 

Насколько я помню, ранее таких чисел не было, когда сервер работал. Очень жаль диск, и хотелось бы узнать, какие действия можно предпринять в данной ситуации.
  • 13 сентября 2024 г. 10:53
Ответы на вопрос 2
Здравствуйте! Проблемы с SSD могут проявляться разными симптомами, и в вашем случае есть несколько аспектов, на которые стоит обратить внимание.

Вот признаки, указывающие на возможные проблемы с SSD:

1. **Необъяснимая потеря обнаружения в BIOS**. Если диск работает нормально, а затем перестает определяться в BIOS, это может указывать на проблемы с подключением, питанием или самим контроллером SSD.

2. **Ошибки SMART**. Хотя вы упомянули, что большинство параметров SMART в норме, высокий параметр SMI Program fail count может говорить о проблемах с контроллером памяти или количеством записей/стираний на определённых ячейках NAND. Даже если другие SMART параметры не указывают на проблемы, данный индекс стоит учитывать.

3. **Системные ошибки при загрузке**. Ошибки, которые вы видите на экране, могут быть связаны с проблемами системы, драйверами или самим диском. Если проблема только с одним диском, стоит рассмотреть его возможные неисправности.

4. **Проблемы с подключением**. Перепроверьте соединение SSD с материнской платой. Попробуйте использовать другой SATA-кабель или другой порт на материнской плате. Если возможно, протестируйте диск на другом компьютере.

5. **Температура и электропитание**. Убедитесь, что диск не перегревается и получает достаточное питание. Неправильное питание может вызвать нестабильность.

Что можно сделать:

- **Замена SATA-кабеля и порта**. Часто проблемы с распознаванием дисков можно решить простым заменой кабелей.
  
- **Тестирование диска на другом устройстве**. Если у вас есть возможность, подключите SSD к другому компьютеру. Это поможет установить, является ли проблема связанной с диском или с материнской платой сервера.

- **Обновление BIOS**. Если на материнской плате доступна новая версия BIOS, обновление может устранить потенциальные проблемы совместимости.

- **Выполнение Full Format или Secure Erase**. Если удастся получить доступ к диску, попробуйте выполнить полное форматирование или команду Secure Erase, если она поддерживается. Это может помочь устранить также и проблемы, связанные с файловой системой.

- **Изучение документации и форумов**. Возможно, другие пользователи сталкивались с подобной проблемой, и в интернете можно найти решение или обходной путь.

Если все попытки не увенчаются успехом и SSD продолжит вести себя нестабильно, возможно, стоит рассмотреть замену диска. При критическом количестве ошибок, особенно в таких параметрах, как SMI Program fail count, надежность работы устройства может быть существенно нарушена.
175 (SMI Program fail count in worst die) - какое-то гигантское число, более 600 триллионов))

Используемая вами программа некорректно интерпретирует SMART.

Для SSD Intel атрибут 175 (AF / AFh) - это Power Loss Protection Failure .
Интерпретируется он вот так:
• Last test result as microseconds to discharge cap, saturates at max value. Also logs minutes since last test and lifetime number of tests.
— Raw value:
Bytes 0-1: Last test result as microseconds to discharge cap, saturates at max value. Test result expected in range 25 <= result <= 5000000, lower indicates specific error code.
Bytes 2-3: Minutes since last test, saturates at max value.
Bytes 4-5: Lifetime number of tests, not incremented on power cycle, saturates at max value.
— Normalized value:
Set to 1 on test failure or 11 if the capacitor has been tested in an excessive temperature condition, otherwise 100.

debconf: Fatal IO error 11 (Resourse temporarly unavailable) on X server :0

Ошибка вообще похожа на какие-то проблемы с выводом на дисплей или графикой, возможно, Wayland. Но я не очень силён в этих моментах.

что теперь с ним делать: на помойку или как-то можно исправить

Можете подключить этот ССД другим SATA-кабелем к другой машине с Windows?

Вы ставите ОС, как я понимаю, важных данных на диске нет. Хорошо бы сделать сначала полный тест записи (уничтожит всю информацию), затем полный тест чтения (именно Read).
Это можно сделать в нашей программе для тестов (бесплатная, без установки), либо другой "не попсовой", которой вы доверяете.
В R.tester'e графики можно сделать максимально детальными, это даст хорошее предстваление о состоянии памяти.

Также можете показать S.M.A.R.T. целиком, если сомневаетесь в ещё каких-либо параметрах. Р.тестер это тоже умеет, к тому же мне было бы интересно посмотреть на его output для этого семейства Интел.

Очень жалко диск, если придется выбрасывать, вроде это довольно хорошая модель для серверных нужд...

Именно так, ССД выглядит весьма стОящим, особенно на фоне китайщины и массовых моделей на дешёвой памяти. Да и Интел, как-никак...
Похожие вопросы