Основы S.M.A.R.T. [Dant's Wiki]

Основы S.M.A.R.T.

http://www.z-a-recovery.com/rus-man-smart.htm

S.M.A.R.T. - сокращенное «Self Monitoring And Reporting Technology» - «Технология мониторинга и отчетов о состоянии». Это стандарт на протокол и набор характеристик диска, позволяющий диску проверять собственное состояние и сообщать о нем управляющему контроллеру. Информация S.M.A.R.T. состоит из «атрибутов», каждый из которых описывает какой-то конкретный аспект состояния диска. Некоторые атрибуты могут быть обозначены как «критические» (life critical). Соответствующие им параметры важнее остальных.

С каждым атрибутом S.M.A.R.T. связаны три значения:

«Normalized value» (нормированное значение), обычно называемое просто «значение атрибута» (value). Это универсальная величина, принимающая значения от 0 (плохое) до некоторого максимума (хорошее). Обычно максимальные значения - 100, 200 или 253. Высокие значения - хорошо, низкие значения - плохо.
«Threshold» (Порог) - минимально допустимое значение атрибута. Если значение атрибута падает ниже порогового, диск считается дефектным, и его пора менять по гарантии. Такая ситуация называется «T.E.C.» (Threshold Exceeded Condition, состояние превышения порога).
«Raw value» (Необработанное значение) - значение атрибута в том виде, как его получает устройство, до всех нормировок. Анализ этих значений может быть весьма полезен. Некоторые частные случаи будут описаны ниже. Raw value обычно записывается в шестнадцатеричной системе счисления.

Наиболее распространенные значения атрибутов S.M.A.R.T.

Обратите внимание, что не все атрибуты применимы ко всем дискам. Некоторые атрибуты имеют похожий смысл (только считаются по-разному), поэтому только один из таких обычно поддерживается устройством. Для определения некоторых требуются специальные датчики (температуры или вибрации). Какие атрибуты использовать, а какие нет, выбирает производитель диска. Интерпретация raw-значений тоже зависит от производителя.

Критические атрибуты состояния
Reallocated sectors count	Указывает, сколько дефектных секторов найдено на диске и переназначено (remapped) с использованием пула резервных секторов. Низкие значения при отсутствии указаний на другие ошибки говорят о проблемах с поверхностью диска. Raw value показывает точное количество переназначенных секторов.
Current pending sectors count	Указывает, сколько предположительно сбойных секторов находится в очереди на тестирование. Такие секторы не обязательно будут переназначены, и, вообще говоря, могут не быть дефектными (например, если что-то помешало чтению сектора, он будет «поставлен в очередь» на проверку). Процедура off-line scan1 проверяет эти секторы и либо переназначает их, либо возвращает их в число работоспособных. Raw value отображает точное количество таких секторов.
Off-line uncorrectable sectors count	Подобно «Reallocated sectors count». Указывает, сколько дефектных секторов было найдено во время процедуры off-line scan (1) .
Read error rate	Эта группа атрибутов описывает частоту, с которой происходят ошибки. Более низкое значение говорит о большом количестве событий (ошибок). Повторные попытки чтения (retries) не обязательно указывают на какие-то постоянные проблемы, но если значение Read Error Rate долго остается низким, следует обратить внимание на этот диск.
Read error retry rate, Write error rate, Seek error rate, Recalibration retries	Показывает, как часто требуется повторная перекалибровка диска (то есть, перекалибровка не может быть выполнена с первой попытки). Raw value может показывать точное количество попыток перекалибровки (по крайней мере, у некоторых производителей).
Spin up time	Низкое значение говорит о том, что диск разгоняется до своей номинальной скорости дольше, чем ожидается. Это может свидетельствовать как о проблемах контроллера, так и шпинделя.
Spin retry count	Событие spin retry регистрируется каждый раз, когда диск оказывается неспособен раскрутить пластины до номинальной скорости вращения за приемлемое время. Попытка разгона прерывается и затем начинается заново. Обычно такое событие говорит о серьезных проблемах, но иногда может возникать вследствие проблем с питанием.
Информация о времени эксплуатации и износе
Drive start/stop count, Power off/retract cycle count	Эти два параметра дают оценку износа диска. Производитель оценивает предполагаемое время наработки на отказ и ресурс по циклам перезапуска устройства. Из этой оценки потом вычисляется «остаток» ресурса, который и выводится как нормированное значение. Аварийное состояние одного из этих атрибутов не обязательно означает выход из строя диска, скорее диск должен считаться ненадежным из-за его износа. Raw values обычно просто отражают количество соответствующих событий.
Power on hours count, Head flying hours count	Нормированные значения вычисляются так же, как и предыдущая пара. Несмотря на то, что в названии атрибута упоминаются часы, raw value сохраняется с использованием всевозможных единиц измерения (встречаются, например, часы, получасовые, или десятиминутные интервалы) в зависимости от производителя устройства.
Информация об условиях работы
Temperature	Отражает температуру устройства, если установлен соответствующий датчик. Младший байт raw value содержит точное значение температуры (в градусах Цельсия).
Ultra DMA CRC error rate	Низкое значение этого атрибута обычно означает проблемы в разъемах и/или кабелях. При использовании Ultra DMA 66 или 100, передача данных от диска к контроллеру защищена контрольной суммой (CRC). Если данные искажаются при передаче между диском и контроллером, принимающая сторона определяет это и запрашивает данные повторно. При этом регистрируется событие «UDMA CRC error». Как только устраняется источник ошибок (обычно помогает замена кабеля), значение атрибута быстро приходит в норму.
G-sense error rate	Указывает на ошибки, вызванные вибрацией (при неправильной установке, или если тряхнуть ноутбук). Для получения информации о перегрузках требуется специальный датчик, который устанавливается практически исключительно на дисках для ноутбуков (2.5»). Значение атрибута возвращается к нормальному, как только вибрация прекращается.

(1) Процедура off-line scan - Когда диск бездействует в течение определенного периода времени, различные процедуры самопроверки, включая просто шатание по дисковой поверхности и чтение секторов «там и сям». Вы можете это пронаблюдать: оставьте систему постоять (никакие фоновые процессы не должны требовать доступа к диску) и прислушайтесь. Довольно скоро диск начнет работать «сам по себе» - это и есть процедура off-line scan. Она выполняется, чтобы выявить возможные дефекты до того, как они станут критическими.