Новые ответы

Умерло 4 диска: Constellation ES + Barracuda ES.2 ,

zeiter, 17-Май-11, 15:12 [смотреть все]

Приветствую!

Долгое время стояли два диска семейства Seagate Barracuda ES.2 по 250Гб в программном RAID-1 и в принципе не знали проблем. Решили увеличить емкость дисков, взяли 1 (Диск#1) Seagate Constellation ES 500Гб (ST3500514NS) + 1 (Диск#2) Seagate Barracuda ES.2 500Гб (ST3500320NS). Не успели запустить в продакшн, как начались проблемы с этими дисками (на пустом сервере без рабочей нагрузки):

Декабрь 2010: То gmirror не собирался под FreeBSD, то еще чего. А когда собрался то вскоре благополучно развалился. На дисках стремительно начало расти количество reallocated sector по SMART.

Январь-Февраль 2011: Замена указанных дисков на новые 2 диска: Диск#3 и Диск#4 Constellation ES 500Гб (ST3500514NS). Ошибки записи:


....
ad0: TIMEOUT - WRITE_DMA retrying....
....

Март 2011: Перестановка OS, миграция на CentOS 5. Программный рейд 1.

Апрель 2011: Умирает диск (?):


...
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
...

Май 2011: Демонтаж сервера. Проверка дисков SeaTools Windows. Короткий+длительные тесты пройдены усешно. По SMARTу:

Диск #3

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   064   044    Pre-fail  Always       -       243397615
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       8
  5 Reallocated_Sector_Ct   0x0033   066   066   036    Pre-fail  Always       -       1418
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4755547
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1228
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       8
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   097   000    Old_age   Always       -       197571510321
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   062   045    Old_age   Always       -       29 (Lifetime Min/Max 26/31)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       7
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       8
194 Temperature_Celsius     0x0022   029   040   000    Old_age   Always       -       29 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   038   014   000    Old_age   Always       -       243397615
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Диск #4

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   081   063   044    Pre-fail  Always       -       149799206
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       4
  5 Reallocated_Sector_Ct   0x0033   095   095   036    Pre-fail  Always       -       236
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3756969
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1132
 10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
 12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       4
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   099   000    Old_age   Always       -       4295032833
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   068   045    Old_age   Always       -       25 (Lifetime Min/Max 21/26)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       3
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       4
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 13 0 0)
195 Hardware_ECC_Recovered  0x001a   033   015   000    Old_age   Always       -       149799206
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.

Все-таки диски попались бракованные али ICH7 побил диски?

Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 ,

Ващенаглухо, 16:59 , 17-Май-11 (1)

наверно диски бракованные... Reallocated_Sector_Ct этим вроде бы сам диск занимается, а не контроллер?
3 года использовал в 5 рейде Seagate Barracuda ES ST3500630NS, только на 1 из 5 дисков появился 1 Reallocated_Sector
Стало мало места, заменил все 5шт на терабайтные ST31000340NS, работают уже 2 года, проблем тоже не возникло.
md0 : active raid5 sdc[3] sda[4] sde[2] sdd[1] sdb[0]
3907045376 blocks level 5, 128k chunk, algorithm 2 [5/5] [UUUUU]
bitmap: 4/233 pages [16KB], 2048KB chunk
>Все-таки диски попались бракованные али ICH7 побил диски?

Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , zeiter, 10:36 , 18-Май-11 (2)
> наверно диски бракованные...
С трудом в это верится... Неужели 4 диска, по парно купленные в разных магазинах одинаково могли быть бракованными?
> Reallocated_Sector_Ct этим вроде бы сам диск занимается,
> а не контроллер?
Котроллер на мамке? Или контроллер диска? В любом случае S.M.A.R.T — Self-Monitoring, Analysis and Reporting Technology. А стало быть мониторинг осуществляет и сообщает электроника на диске (поправьте меня если ошибаюсь).
Ну а такой возможен вариант, что из-за неисправности мамки в целом или ICH7 в частности начали плодится reallocated сектора по причине того, что сам контроллер ICH7 выдавал некорректные директивы или как-то еще способствовал этому?
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , PavelR, 10:42 , 18-Май-11 (3)
>> наверно диски бракованные...
А какая-нибудь повышенная вибрация в стойке ?
> С трудом в это верится... Неужели 4 диска, по парно купленные в
> разных магазинах одинаково могли быть бракованными?
Да, потому что фирма у них - одинаковая.

Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , zeiter, 12:45 , 18-Май-11 (6)
> А какая-нибудь повышенная вибрация в стойке ?
Ничего такого замечено не было. Кроме этого сервера стоит еще несколько похожих платформ с схожих или аналогичных корпусах. Такого как на этом ничего не замечали.
> Да, потому что фирма у них - одинаковая.
Опять же сигейтами пользуемся не первый год, но чтобы так сразу 4 диска меньше, чем за полгода — не было ни разу.
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , desenix, 11:38 , 18-Май-11 (4)
> С трудом в это верится... Неужели 4 диска, по парно купленные в
> разных магазинах одинаково могли быть бракованными?
Как-то давно купил два диска этой же фирмы, сделал RAID0 и через пол года оба умерли, один поменяли, другой отремонтировали (драйвер головы/мотора сдох), с тех пор обхожу их стороной.
Думаю они одинаково перегрелись и навернулись, бо ставят г...о чипы подешевле, а грузят их на максимум.
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , a2l, 12:25 , 18-Май-11 (5)
>[оверквотинг удален]
>    -       0
> 198 Offline_Uncorrectable   0x0010   100   100
>  000    Old_age   Offline
>    -       0
> 199 UDMA_CRC_Error_Count    0x003e   200   200
>   000    Old_age   Always
>      -
>  0
> Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.
> Все-таки диски попались бракованные али ICH7 побил диски?
Может блок питания виноват?

Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , zeiter, 12:57 , 18-Май-11 (7)
К чему все-это я спрашиваю. Диски на гарантии — нужно решить ехать в СЦ и настаивать на замене или не ехать. Если проблема в дисках, то в СЦ обычно ссылаются на тесты производителя SeaTools, которые были успешно пройдены последними дисками #3 и #4. При этом диск #3 намертво отвалился с ошибкой:
```
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
```
Количество reallocated секторов с последного отчета по SMART увеличилось (в первом посте на недельку устаревшие данные по сравнению со временем демонтажа и ошибки I/O error).
Так вот по опыту могу сказать, что данные SMART (в частности Reallocated_Sector_Ct) в СЦ в качестве основания для гарантийного ремонта или замены дисков не принимают как правило.
Мне же нужно 100% уверенность, что проблема в дисках, чтобы гнуть свою линию и потребовать замену.
> Может блок питания виноват?
Версия с блоком питания, как и версия с материнкой требуют дополнительной проверки. И в домашних условиях или на коленке в офисе сложно подтвердить или опровергнуть. Руководство же вряд ли выделит средства для проверки железа в СЦ. Вот и хочу понять природу и причины возникновения этих reallocated секторов. Кто же виноват?
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , zeiter, 13:04 , 18-Май-11 (8)
Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва до самого момента возникновения ошибки:
```
end_request: I/O error, dev sda, sector 757879 
end_request: I/O error, dev sda, sector 757879 
end_request: I/O error, dev sda, sector 757879
```
Когда сервер наглухо встал и только горячий ребут мог привести его в чувства.
Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить на выходные bonnie++ еще разок)))
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , lavr, 21:21 , 18-Май-11 (9)
> Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была
> тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва
> до самого момента возникновения ошибки:
>
```
end_request: I/O error, dev sda, sector 757879 
> end_request: I/O error, dev sda, sector 757879 
> end_request: I/O error, dev sda, sector 757879
```
> Когда сервер наглухо встал и только горячий ребут мог привести его в
> чувства.
> Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить
> на выходные bonnie++ еще разок)))
1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300
2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это зависит от партии
если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
то переводите FreeBSD на ahci и тестируйте под нагрузкой.
Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в крайнем
случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)
прим: Seagate ES.2 в RAID5 приходится менять по диску раз в неделю-две, суммарно
в рейдах 5'ого уровня ~750 дисков, выводы из этой статистики можете сделать сами
Возможно проблема со связкой: контроллер <-> firmware Seagate'ов
И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше с ICH10,
если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое бывает,
вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
переходников и backplane'ов.
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , zeiter, 11:40 , 19-Май-11 (10)
> 1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300
Судя по спецификации — поддерживает
http://www.intel.com/cd/channel/reseller/asmo-na/eng/product...
http://www.nix.ru/autocatalog/server_systems_intel/Intel_1U_...
> 2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это
> зависит от партии
> если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
> то переводите FreeBSD на ahci и тестируйте под нагрузкой.
Перед миграцией на CentOS оба режима проверяли. Изначально на FreeBSD использовался Lecacy режим (IDE). Были проблемы с обнаружением дисков в режиме AHCI когда-то давно, когда устанавливалась ОС. CentOS уже ставился на AHCI. Непосредственно перед миграцией на CentOS был ре-сетап FreeBSD 7 на диски с контроллером в режиме AHCI. Т.е. можно сказать, что перепробовали все доступные варианты режимов.
> Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в
> крайнем
> случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)
Благодарю за рекомендацию.
> Возможно проблема со связкой: контроллер <-> firmware Seagate'ов
Подобная мысль меня посещала. Думаю, что эта версия имеет основания быть заявленной.
> И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше
> с ICH10,
Эти мероприятий запланированы. Только под рукой пока имеется только контроллер Promise SATA.
> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
> бывает,
> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
> переходников и backplane'ов.
Печально или нет то, что данная модель платформы не имеет никаких backplane'ов. И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты тоже менял.
Ответить | Сообщить модератору

Умерло 4 диска: Constellation ES + Barracuda ES.2 , lavr, 17:00 , 19-Май-11 (11)
>> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
>> бывает,
>> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
>> переходников и backplane'ов.
> Печально или нет то, что данная модель платформы не имеет никаких backplane'ов.
> И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты
> тоже менял.
замечательно, одно исключение уже есть.
Еще одно примечание, опыт использования показал что временной предел использования
дисков в рейд массивах 3года, после этого срока как правило начинаются проблемы с дисками
любых производителей. Те при условии что у нас в рейде надежные диски, можно с уверенностью
сказать что проблемы начнутся по истечении 3лет работы, далее обычно все сыпется.
Да, бывают исключения - 4года, иногда больше, но в целом, ждать проблем после 3лет.

Ответить | Сообщить модератору