The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! zeiter, 17-Май-11, 15:12  [смотреть все]
Приветствую!

Долгое время стояли два диска семейства Seagate Barracuda ES.2 по 250Гб в программном RAID-1 и в принципе не знали проблем. Решили увеличить емкость дисков, взяли 1 (Диск#1) Seagate Constellation ES 500Гб (ST3500514NS) + 1 (Диск#2) Seagate Barracuda ES.2 500Гб (ST3500320NS). Не успели запустить в продакшн, как начались проблемы с этими дисками (на пустом сервере без рабочей нагрузки):

Декабрь 2010: То gmirror не собирался под FreeBSD, то еще чего. А когда собрался то вскоре благополучно развалился. На дисках стремительно начало расти количество reallocated sector по SMART.

Январь-Февраль 2011: Замена указанных дисков на новые 2 диска: Диск#3 и Диск#4 Constellation ES 500Гб (ST3500514NS). Ошибки записи:


....
ad0: TIMEOUT - WRITE_DMA retrying....
....

Март 2011: Перестановка OS, миграция на CentOS 5. Программный рейд 1.

Апрель 2011: Умирает диск (?):


...
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
end_request: I/O error, dev sda, sector 757879
...

Май 2011: Демонтаж сервера. Проверка дисков SeaTools Windows. Короткий+длительные тесты пройдены усешно. По SMARTу:


Диск #3

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   084   064   044    Pre-fail  Always       -       243397615
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       8
  5 Reallocated_Sector_Ct   0x0033   066   066   036    Pre-fail  Always       -       1418
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       4755547
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1228
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       8
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   097   000    Old_age   Always       -       197571510321
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   071   062   045    Old_age   Always       -       29 (Lifetime Min/Max 26/31)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       7
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       8
194 Temperature_Celsius     0x0022   029   040   000    Old_age   Always       -       29 (0 19 0 0)
195 Hardware_ECC_Recovered  0x001a   038   014   000    Old_age   Always       -       243397615
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Диск #4

SMART Attributes Data Structure revision number: 10
Vendor Specific SMART Attributes with Thresholds:
ID# ATTRIBUTE_NAME          FLAG     VALUE WORST THRESH TYPE      UPDATED  WHEN_FAILED RAW_VALUE
  1 Raw_Read_Error_Rate     0x000f   081   063   044    Pre-fail  Always       -       149799206
  3 Spin_Up_Time            0x0003   100   100   000    Pre-fail  Always       -       0
  4 Start_Stop_Count        0x0032   100   100   020    Old_age   Always       -       4
  5 Reallocated_Sector_Ct   0x0033   095   095   036    Pre-fail  Always       -       236
  7 Seek_Error_Rate         0x000f   066   060   030    Pre-fail  Always       -       3756969
  9 Power_On_Hours          0x0032   099   099   000    Old_age   Always       -       1132
10 Spin_Retry_Count        0x0013   100   100   097    Pre-fail  Always       -       0
12 Power_Cycle_Count       0x0032   100   100   020    Old_age   Always       -       4
184 Unknown_Attribute       0x0032   100   100   099    Old_age   Always       -       0
187 Reported_Uncorrect      0x0032   100   100   000    Old_age   Always       -       0
188 Unknown_Attribute       0x0032   100   099   000    Old_age   Always       -       4295032833
189 High_Fly_Writes         0x003a   100   100   000    Old_age   Always       -       0
190 Airflow_Temperature_Cel 0x0022   075   068   045    Old_age   Always       -       25 (Lifetime Min/Max 21/26)
191 G-Sense_Error_Rate      0x0032   100   100   000    Old_age   Always       -       0
192 Power-Off_Retract_Count 0x0032   100   100   000    Old_age   Always       -       3
193 Load_Cycle_Count        0x0032   100   100   000    Old_age   Always       -       4
194 Temperature_Celsius     0x0022   025   040   000    Old_age   Always       -       25 (0 13 0 0)
195 Hardware_ECC_Recovered  0x001a   033   015   000    Old_age   Always       -       149799206
197 Current_Pending_Sector  0x0012   100   100   000    Old_age   Always       -       0
198 Offline_Uncorrectable   0x0010   100   100   000    Old_age   Offline      -       0
199 UDMA_CRC_Error_Count    0x003e   200   200   000    Old_age   Always       -       0

Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.


Все-таки диски попались бракованные али ICH7 побил диски?

  • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! Ващенаглухо, 16:59 , 17-Май-11 (1)
    наверно диски бракованные... Reallocated_Sector_Ct этим вроде бы сам диск занимается, а не контроллер?
    3 года использовал в 5 рейде Seagate Barracuda ES ST3500630NS, только на 1 из 5 дисков появился 1 Reallocated_Sector
    Стало мало места, заменил все 5шт на терабайтные ST31000340NS, работают уже 2 года, проблем тоже не возникло.
    md0 : active raid5 sdc[3] sda[4] sde[2] sdd[1] sdb[0]
          3907045376 blocks level 5, 128k chunk, algorithm 2 [5/5] [UUUUU]
          bitmap: 4/233 pages [16KB], 2048KB chunk

    >Все-таки диски попались бракованные али ICH7 побил диски?

    • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! zeiter, 10:36 , 18-Май-11 (2)
      > наверно диски бракованные...

      С трудом в это верится... Неужели 4 диска, по парно купленные в разных магазинах одинаково могли быть бракованными?

      > Reallocated_Sector_Ct этим вроде бы сам диск занимается,
      > а не контроллер?

      Котроллер на мамке? Или контроллер диска? В любом случае S.M.A.R.T — Self-Monitoring, Analysis and Reporting Technology. А стало быть мониторинг осуществляет и сообщает электроника на диске (поправьте меня если ошибаюсь).

      Ну а такой возможен вариант, что из-за неисправности мамки в целом или ICH7 в частности начали плодится reallocated сектора по причине того, что сам контроллер ICH7 выдавал некорректные директивы или как-то еще способствовал этому?

      • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! PavelR, 10:42 , 18-Май-11 (3)
        >> наверно диски бракованные...

        А какая-нибудь повышенная вибрация в стойке ?

        > С трудом в это верится... Неужели 4 диска, по парно купленные в
        > разных магазинах одинаково могли быть бракованными?

        Да, потому что фирма у них - одинаковая.



        • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! zeiter, 12:45 , 18-Май-11 (6)
          > А какая-нибудь повышенная вибрация в стойке ?

          Ничего такого замечено не было. Кроме этого сервера стоит еще несколько похожих платформ с схожих или аналогичных корпусах. Такого как на этом ничего не замечали.

          > Да, потому что фирма у них - одинаковая.

          Опять же сигейтами пользуемся не первый год, но чтобы так сразу 4 диска меньше, чем за полгода — не было ни разу.

      • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! desenix, 11:38 , 18-Май-11 (4)
        > С трудом в это верится... Неужели 4 диска, по парно купленные в
        > разных магазинах одинаково могли быть бракованными?

        Как-то давно купил два диска этой же фирмы, сделал RAID0 и через пол года оба умерли, один поменяли, другой отремонтировали (драйвер головы/мотора сдох), с тех пор обхожу их стороной.

        Думаю они одинаково перегрелись и навернулись, бо ставят г...о чипы подешевле, а грузят их на максимум.

  • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! a2l, 12:25 , 18-Май-11 (5)
    >[оверквотинг удален]
    >    -       0
    > 198 Offline_Uncorrectable   0x0010   100   100  
    >  000    Old_age   Offline  
    >    -       0
    > 199 UDMA_CRC_Error_Count    0x003e   200   200
    >   000    Old_age   Always  
    >      -      
    >  0

    > Сервер на платформе Intel SR1530AH со втроенным Intel ICH7 SATA 300 controller.
    > Все-таки диски попались бракованные али ICH7 побил диски?

    Может блок питания виноват?


    • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! zeiter, 12:57 , 18-Май-11 (7)
      К чему все-это я спрашиваю. Диски на гарантии — нужно решить ехать в СЦ и настаивать на замене или не ехать. Если проблема в дисках, то в СЦ обычно ссылаются на тесты производителя SeaTools, которые были успешно пройдены последними дисками #3 и #4. При этом диск #3 намертво отвалился с ошибкой:

      end_request: I/O error, dev sda, sector 757879
      end_request: I/O error, dev sda, sector 757879
      end_request: I/O error, dev sda, sector 757879

      Количество reallocated секторов с последного отчета по SMART увеличилось (в первом посте на недельку устаревшие данные по сравнению со временем демонтажа и ошибки I/O error).

      Так вот по опыту могу сказать, что данные SMART (в частности Reallocated_Sector_Ct) в СЦ в качестве основания для гарантийного ремонта или замены дисков не принимают как правило.

      Мне же нужно 100% уверенность, что проблема в дисках, чтобы гнуть свою линию и потребовать замену.

      > Может блок питания виноват?

      Версия с блоком питания, как и версия с материнкой требуют дополнительной проверки. И в домашних условиях или на коленке в офисе сложно подтвердить или опровергнуть. Руководство же вряд ли выделит средства для проверки железа в СЦ. Вот и хочу понять природу и причины возникновения этих reallocated секторов. Кто же виноват?

      • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! zeiter, 13:04 , 18-Май-11 (8)
        Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва до самого момента возникновения ошибки:

        end_request: I/O error, dev sda, sector 757879 
        end_request: I/O error, dev sda, sector 757879
        end_request: I/O error, dev sda, sector 757879

        Когда сервер наглухо встал и только горячий ребут мог привести его в чувства.

        Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить на выходные bonnie++ еще разок)))

        • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! lavr, 21:21 , 18-Май-11 (9)
          > Забыл сказать, что эта ошибка возникла все-таки под нагрузкой. Но нагрузка была
          > тестовая, запустили тесты bonniee++. Где-то с недельку гонялись они без перерыва
          > до самого момента возникновения ошибки:
          >
          end_request: I/O error, dev sda, sector 757879 
          > end_request: I/O error, dev sda, sector 757879
          > end_request: I/O error, dev sda, sector 757879

          > Когда сервер наглухо встал и только горячий ребут мог привести его в
          > чувства.
          > Остается только опытным путем проверять? Диски или железо? Воткнуть диски и запустить
          > на выходные bonnie++ еще разок)))

          1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300
          2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это зависит от партии

          если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
          то переводите FreeBSD на ahci и тестируйте под нагрузкой.

          Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в крайнем
          случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)

          прим: Seagate ES.2 в RAID5 приходится менять по диску раз в неделю-две, суммарно
          в рейдах 5'ого уровня ~750 дисков, выводы из этой статистики можете сделать сами
          Возможно проблема со связкой: контроллер <-> firmware Seagate'ов

          И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше с ICH10,
          если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое бывает,
          вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
          переходников и backplane'ов.

          • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! zeiter, 11:40 , 19-Май-11 (10)
            > 1) посмотрите реально ли у вас SATA контроллер поддерживает SATA-300

            Судя по спецификации — поддерживает

            http://www.intel.com/cd/channel/reseller/asmo-na/eng/product...

            http://www.nix.ru/autocatalog/server_systems_intel/Intel_1U_...

            > 2) диски Seagate ES.2 как впрочем и ES ненадежные и вероятно это
            > зависит от партии
            > если контроллер в SR1530 - SATA150, переводите диски в SATA150, если SATA300,
            > то переводите FreeBSD на ahci и тестируйте под нагрузкой.

            Перед миграцией на CentOS оба режима проверяли. Изначально на FreeBSD использовался Lecacy режим (IDE). Были проблемы с обнаружением дисков в режиме AHCI когда-то давно, когда устанавливалась ОС. CentOS уже ставился на AHCI. Непосредственно перед миграцией на CentOS был ре-сетап FreeBSD 7 на диски с контроллером в режиме AHCI. Т.е. можно сказать, что перепробовали все доступные варианты режимов.

            > Совет, под рейды используйте либо Hitachi Ultrastar линейку, либо WD RE3, в
            > крайнем
            > случае WD RE4. (первая линейка лучшая из перечисленных, затем вторая)

            Благодарю за рекомендацию.

            >  Возможно проблема со связкой: контроллер <-> firmware Seagate'ов

            Подобная мысль меня посещала. Думаю, что эта версия имеет основания быть заявленной.

            > И последнее, попробуйте диски на самом обычном desktop'е но с ICH9, лучше
            > с ICH10,

            Эти мероприятий запланированы. Только под рукой пока имеется только контроллер Promise SATA.

            > если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
            > бывает,
            > вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
            > переходников и backplane'ов.

            Печально или нет то, что данная модель платформы не имеет никаких backplane'ов. И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты тоже менял.

            • Умерло 4 диска: Constellation ES + Barracuda ES.2 , !*! lavr, 17:00 , 19-Май-11 (11)
              >> если все Ok (включая под нагрузкой), значит дело в backplane сервера, такое
              >> бывает,
              >> вот почему совет проверить на desktop'е с прямым подключением к контроллеру, без
              >> переходников и backplane'ов.
              > Печально или нет то, что данная модель платформы не имеет никаких backplane'ов.
              > И диски были подключены напрямую через шлейфы. SATA шлейф менял, порты
              > тоже менял.

              замечательно, одно исключение уже есть.

              Еще одно примечание, опыт использования показал что временной предел использования
              дисков в рейд массивах 3года, после этого срока как правило начинаются проблемы с дисками
              любых производителей. Те при условии что у нас в рейде надежные диски, можно с уверенностью
              сказать что проблемы начнутся по истечении 3лет работы, далее обычно все сыпется.
              Да, бывают исключения - 4года, иногда больше, но в целом, ждать проблем после 3лет.





Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру