- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, lavr, 15:26 , 16-Июн-06 (1)
>Сегодня в /var/log/messages обнаружил: > >Jun 16 06:22:33 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors > >Jun 16 06:22:33 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors >Jun 16 06:52:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors > >Jun 16 06:52:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors >Jun 16 07:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors > >Jun 16 07:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors >Jun 16 07:52:33 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors > >Jun 16 07:52:33 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors >Jun 16 08:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Currently unreadable (pending) sectors > >Jun 16 08:22:32 my-host smartd[708]: Device: /dev/ad6, 8 Offline uncorrectable sectors > >Что это означает? На сколько это критично? И возможно ли это вылечить? >8 Currently unreadable - 8 секторов нечитабельны 8 Offline uncorrectable sectors - 8 секторов неиспользуемые с некорректируемой ошибкой Вылечить это может только сам контроллер на диске: сделать realloc этих секторов, если есть возможность. Хотя ошибки при работе c UDMA дисками могут быть из-за: - затык DMA - перегрев дисков - болтанка в разъемах - болтанка в шлейфах - дурит контроллер Могу лишь поделиться своим опытом: - после проверки верхнего и устранения физических вещей: шлейфы и перегрев (выключить на 30мин, 1-2 часа) делаем следующее: - если ошибки остались, ДЕЛАЕМ BACKUP данных с этого винчестера - начинаем гонять dd на запись дня два-три ВАЖНОЕ: строго использовать в dd bs=512, blocksize должен быть маленький, равный размеру сектора!!! Кстати такой же bs=512 строго следует использовать при копировании битых дисков или создания их образа. Использование dd с дисками у которых BAD SECTORS и UNCORRECTABLE ошибки: чтение: dd if=диск of=/dev/null bs=512 conv=noerror,sync запись: dd if=/dev/random of=диск bs=512 conv=noerror,sync копирование или создание образа: dd if=диск of=hdimage bs=512 conv=noerror,sync bs=512 байт для того чтобы скопировать с максимально возможной сохранностью данных, очень долго на больших дисках, но альтернативы нет. Можно использовать bs=8k или bs=16k когда тестируем диски READ-ONLY на наличие BAD SECTORS, но при создании ОБРАЗА и уже после создания BACKUP'а, при тестировании на ЗАПИСЬ, строго bs=512. Внутренний механизм realloc BAD SECTORS в современных дисках включается только при ЗАПИСИ. ПОСЛЕДНЕЕ: если после всех вышеуказанных действий НЕ УДАЛОСЬ избавиться от BAD BLOCKS, ЛИБО СДАВАТЬ ДИСК ПО ГАРАНТИИ, ЛИБО исключить BAD SECTORS на уровне файловой системы, последнее в FreeBSD 5.x и выше на практике ХРЕН РАБОТАЕТ.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, zeiter, 15:44 , 16-Июн-06 (2)
Вау...Спасибо за ответ Можно ли сделать realloc не могу сказать, т.к. пока не знаю, что сие означает. Диски стоят в рейде, сервак HP на площадке у хостера, конечно при большом желании туда можно попасть, только сервак с клиентскими сайтами, отключить на больше, чем 1-2 часа не получится. ATA channel 2: Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0 Slave: no device present ATA channel 3: Master: ad6 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0 Slave: no device present Можно допустим изъять оттуда винт и прогонять его на другом сервере? Или нужно на родном? Насколько я понимаю, если зеркальный рейд, тогда сервак может работать без значительных потерь в производительности на одном оставшемся?
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, lavr, 15:54 , 16-Июн-06 (3)
>Вау... > >Спасибо за ответ >Можно ли сделать realloc не могу сказать, т.к. пока не знаю, что >сие означает. > >Диски стоят в рейде, сервак HP на площадке у хостера, конечно при >большом желании туда можно попасть, только сервак с клиентскими сайтами, отключить >на больше, чем 1-2 часа не получится. > >ATA channel 2: > Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0 > Slave: no >device present >ATA channel 3: > Master: ad6 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0 > Slave: no >device present > >Можно допустим изъять оттуда винт и прогонять его на другом сервере? Или >нужно на родном? >Насколько я понимаю, если зеркальный рейд, тогда сервак может работать без значительных >потерь в производительности на одном оставшемся? В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ (не важно какого уровня рейд) следует СРОЧНО МЕНЯТЬ. А в случае ЗЕРКАЛЬНОГО рейда покупать диски следует СРАЗУ в ПОЛУТОРНОМ или ДВОЙНОМ КОМПЛЕКТЕ.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, lavr, 16:01 , 16-Июн-06 (4)
>>Вау... >> >>Спасибо за ответ >>Можно ли сделать realloc не могу сказать, т.к. пока не знаю, что >>сие означает. >> >>Диски стоят в рейде, сервак HP на площадке у хостера, конечно при >>большом желании туда можно попасть, только сервак с клиентскими сайтами, отключить >>на больше, чем 1-2 часа не получится. >> >>ATA channel 2: >> Master: ad4 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0 >> Slave: no >>device present >>ATA channel 3: >> Master: ad6 <Maxtor 6Y080M0/YAR511W0> Serial ATA v1.0 >> Slave: no >>device present >> >>Можно допустим изъять оттуда винт и прогонять его на другом сервере? Или >>нужно на родном? >>Насколько я понимаю, если зеркальный рейд, тогда сервак может работать без значительных >>потерь в производительности на одном оставшемся? > > >В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ >(не важно какого >уровня рейд) следует СРОЧНО МЕНЯТЬ. А в случае ЗЕРКАЛЬНОГО рейда покупать диски >следует >СРАЗУ в ПОЛУТОРНОМ или ДВОЙНОМ КОМПЛЕКТЕ. Да, забыл добавить, в отличие от РЕЙДА, такие диски еще потом можно долго использовать если удалось решить проблему BAD'ов и реально диск НЕ СЫПЕТСЯ. С большим успехом сам использую подобное БАРАХЛО после постоянных сбоев и невозможности использовать такие диски в РЕЙДАХ: [alone]~ > atacontrol list ATA channel 0: Master: acd0 <NEC DVD RW ND-3500AG/2.18> ATA/ATAPI revision 0 Slave: ad1 <Maxtor 6Y080P0/YAR41BW0> ATA/ATAPI revision 7 ATA channel 1: Master: ad2 <Maxtor 6Y120L0/YAR41BW0> ATA/ATAPI revision 7 Slave: ad3 <Maxtor 6Y120L0/YAR41BW0> ATA/ATAPI revision 7 ^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^^- вот парочка ниже чуть-ли не полный набор таких дисков которые я восстановил и с периодикой полгода/год продолжаю восстанавливать, и ниче работают, куча мультимедия на них хранится:
[unix1]~ > atacontrol list ATA channel 0: Master: ad0 <WDC WD800BB-00BSA0/12.08C12> ATA/ATAPI revision 5 Slave: ad1 <ST380011A/3.06> ATA/ATAPI revision 6 ATA channel 1: Master: ad2 <ST3120022A/3.06> ATA/ATAPI revision 6 Slave: ad3 <Maxtor 6Y160L0/YAR41BW0> ATA/ATAPI revision 7 ATA channel 2: Master: ad4 <ST3200822AS/3.01> Serial ATA v1.0 Slave: no device present ATA channel 3: Master: no device present Slave: no device present ATA channel 4: Master: ad8 <Maxtor 4G120J6/GAK819K0> ATA/ATAPI revision 6 Slave: no device present ATA channel 5: Master: ad10 <ST3200822AS/3.01> Serial ATA v1.0 Slave: no device present ATA channel 6: Master: ad12 <ST3120827AS/3.42> Serial ATA v1.0 Slave: no device present [unix1]~ >
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, zeiter, 16:02 , 16-Июн-06 (5)
А ремонту не подлежит? Он-то еще вроде как на гарантии.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, lavr, 16:16 , 16-Июн-06 (6)
>А ремонту не подлежит? Он-то еще вроде как на гарантии. ГАРАНТИЙНЫЕ диски нужно СТРОГО обменивать ПО ГАРАНТИИ. Современные диски, ЕСЛИ НЕ СЫПЯТСЯ ГЛОБАЛЬНО, вполне можно РЕСТАВРИРОВАТЬ в спец.мастерских на стендах, либо купить такой стенд+софт, либо СВОРОВАТЬ софт и спаять мониторку к контроллеру (что не есть кАрашо - в смысле воровство). Стенд - это работа(команды, smart) на уровне контроллера диска. В целом, современные PATA/SATA диски нужно покупать тех моделей что в списке РЕКОМЕНДОВАННЫХ производителей РЕЙДОВ (не важно для рейда диски или просто): 3WARE и PROMISE. Правда сейчас многие продавцы делают сноски рядом с моделями - с повышенной отказоустойчивостью, но лучше самому отслеживать по спискам РЕКОМЕНДОВАННЫХ (они разумеется запаздывают по современному модельному ряду)
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, zeiter, 16:20 , 16-Июн-06 (7)
>ГАРАНТИЙНЫЕ диски нужно СТРОГО обменивать ПО ГАРАНТИИ. Спасибо за ответы. Теперь будем ждать понедельника. Т.к. у нас уже все сервисы и магазины закрыты. А сервер мы брали комплектованный производителем. Мы только разместили его на площадке.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, zeiter, 07:45 , 19-Июн-06 (8)
>В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ >(не важно какого >уровня рейд) следует СРОЧНО МЕНЯТЬ. Сервак стал работать нестабильно и часто виснит Диск может быть тому причиной? В логах ничего нет :(
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, lavr, 11:41 , 19-Июн-06 (9)
>>В случае ЛЮБОГО РЕЙДА, такие ошибки НЕДОПУСТИМЫ и такой/ие диски в РЕЙДЕ >>(не важно какого >>уровня рейд) следует СРОЧНО МЕНЯТЬ. > >Сервак стал работать нестабильно и часто виснит >Диск может быть тому причиной? все может быть, вот только если в логах НЕТ ничего по дисковым сбоям, сложно валить на диск, скорей всего ЧТО-ТО ДРУГОЕ: - БП (питание) - память ... ... ... >В логах ничего нет :( печально
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, zeiter, 11:51 , 19-Июн-06 (10)
>все может быть, вот только если в логах НЕТ ничего по дисковым >сбоям, сложно >валить на диск, скорей всего ЧТО-ТО ДРУГОЕ: Ну почему нет, все как обычно: Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 1 Offline uncorrectable sectors Jun 19 09:41:47 my-host syslogd: kernel boot file is /boot/kernel/kernel потом практически сразу: Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 8 Offline uncorrectable sectors Jun 19 10:01:36 my-host syslogd: kernel boot file is /boot/kernel/kernel При этом помогало лишь ручной рестарт сервера.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, lavr, 12:20 , 19-Июн-06 (11)
>>все может быть, вот только если в логах НЕТ ничего по дисковым >>сбоям, сложно >>валить на диск, скорей всего ЧТО-ТО ДРУГОЕ: > >Ну почему нет, все как обычно: > >Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors > >Jun 18 05:03:21 my-host smartd[4488]: Device: /dev/ad6, 1 Offline uncorrectable sectors >Jun 19 09:41:47 my-host syslogd: kernel boot file is /boot/kernel/kernel > >потом практически сразу: > >Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 7 Currently unreadable (pending) sectors > >Jun 19 09:43:05 my-host smartd[703]: Device: /dev/ad6, 8 Offline uncorrectable sectors >Jun 19 10:01:36 my-host syslogd: kernel boot file is /boot/kernel/kernel > >При этом помогало лишь ручной рестарт сервера. не помню был ли совет про ПЕРЕГРЕВ?! Диски греются как утюг, если в аппаратной не поддерживается холод - хреново, значит нужны доп.вентиляторы в корпус сервера.
Диск может быть сам по себе нормальным, но при перегреве и контроллер может дурить и диск - выключаешь, ждешь 30мин-1час, включаешь и все работает тип-топ, проходит n-часов и ...поперло... Диск может быть фуфло, но без явных признаков и тогда при нагреве ВСЕ и вылезает, заканчивается ВЫБРАСЫВАНИЕМ через некоторое время. Допустим у нас два диска: - хороший - подозрение на плохой Что будет в случае RAID1 - правильно, затыки при: "read error" "write error" вместо нормального зеркалирования, будут затыки при записи на "плохой" диски, а это время (timeout) на n-ое количество попыток записи и тд и тп. Что будет если выключить сбойный диск и оставить ОДИН без рейда - в смысле в fstab убрать рейд и заменить на adXsY ? Если коленкор измениться - значит диск.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, zeiter, 12:28 , 19-Июн-06 (12)
>не помню был ли совет про ПЕРЕГРЕВ?! >Диски греются как утюг, если в аппаратной не поддерживается холод - хреново, >значит >нужны доп.вентиляторы в корпус сервера. Да, как раз на той неделе, в конце на тех.площадке отказал второей конденционер Т.е. как раз перегрев и имел место, после которого полезли эти ошибки. >Что будет если выключить сбойный диск и оставить ОДИН без рейда - >в смысле в fstab >убрать рейд и заменить на adXsY ? Если коленкор измениться - значит >диск. Сейчас ждем замены диска, заказали в сервисном центре. Будут проблемы, вытащим сбойный диск.
- Device: /dev/ad6, 8 Currently unreadable (pending) sectors, mafet, 04:37 , 07-Янв-07 (13)
>>не помню был ли совет про ПЕРЕГРЕВ?! >>Диски греются как утюг, если в аппаратной не поддерживается холод - хреново, >>значит >>нужны доп.вентиляторы в корпус сервера. > >Да, как раз на той неделе, в конце на тех.площадке отказал второей >конденционер >Т.е. как раз перегрев и имел место, после которого полезли эти ошибки. > > >>Что будет если выключить сбойный диск и оставить ОДИН без рейда - >>в смысле в fstab >>убрать рейд и заменить на adXsY ? Если коленкор измениться - значит >>диск. > >Сейчас ждем замены диска, заказали в сервисном центре. >Будут проблемы, вытащим сбойный диск. аналогичная проблема (( Jan 5 13:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors Jan 5 13:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors Jan 5 13:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors Jan 5 13:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors Jan 5 14:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors Jan 5 14:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors Jan 5 14:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors Jan 5 14:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors Jan 5 15:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors Jan 5 15:21:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors Jan 5 15:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Currently unreadable (pending) sectors Jan 5 15:51:00 fserver smartd[584]: Device: /dev/ad0, 1 Offline uncorrectable sectors Jan 5 16:45:38 fserver syslogd: kernel boot file is /boot/kernel/kernel Jan 5 16:45:38 fserver kernel: Copyright (c) 1992-2005 The FreeBSD Project. Jan 5 16:45:38 fserver kernel: Copyright (c) 1979, 1980, 1983, 1986, 1988, 1989, 1991, 1992, 1993, 1994
перегрев исключается. висюк происходит из-за глюков харды?
|