The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]




Версия для распечатки Пред. тема | След. тема
Новые ответы [ Отслеживать ]
badblocks на рейде, !*! Анонимко, 31-Дек-19, 02:52  [смотреть все]
Развернул Ovirt 4.3 и в процессе эксплуатации стали бится образы виртуалок.
Появились сообщения вида
kernel: blk_update_request: I/O error, dev sda, sector 205392128

1) RAID 1 был собран недавно на свежих энтерпрайз дисках, а сами диски вне рейда и по инфе smartctl -a и smtartctl -t long и badblocks тесты успешно проходят.
2) Проверка рейда на консинстентность силами рейд контроллера(PERC H200) проходит без ошибок.

Самое занятное чего я не ожидал и что мне не понятно:

badblocks показывает прямо на рейде /dev/sda 148 битых секторов!
Повторная проверка badblocks после холодного ребута сервера показывает те же сбойные сектора.

Также в процессе проверки badblocks на рейде проявляется деградация скорости проверки.
Изначально скорость проверки идет 1% ~ 1 мин. Потом доходит до 1% ~ 7 мин. Проверка в итоге длилась 5-6 часов.

При тестировании дисков вне рейда скорость проверки не деградирует и держится на тех же 1% ~ 1 мин.

Сейчас склоняюсь к следующим вариантам
- неисправность рейд контроллера
- проблема драйвера, ядра

CentOS 7, ядро 3.10 штатное

Кто нибудь сталкивался, есть идеи?

  • badblocks на рейде, !*! Аноним, 10:28 , 31-Дек-19 (1)
    > Сейчас склоняюсь к следующим вариантам
    > - неисправность рейд контроллера
    > - проблема драйвера, ядра
    > Кто нибудь сталкивался, есть идеи?

    Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на грабли с дисками, оказалось - БП помирает.

    • badblocks на рейде, !*! Анонимко, 15:40 , 31-Дек-19 (3)
      > Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
      > грабли с дисками, оказалось - БП помирает.

      При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у меня, и я специально это отметил, адреса битых секторов не меняются.

      У вас бились рандомно или всегда те же?

      • badblocks на рейде, !*! Аноним, 16:52 , 31-Дек-19 (4)
        >> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на
        > При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у
        > меня, и я специально это отметил, адреса битых секторов не меняются.
        > У вас бились рандомно или всегда те же?

        Битых секторов не было. Но через несколько часов после старта скорость чтения/записи начинала падать, пока вообще не прекращались всякие операции с диском.


  • badblocks на рейде, !*! DeerFriend, 11:28 , 31-Дек-19 (2)
    Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова прогнать бедблокс.
    Если та же проблема с деградацией скорости останется, пересобери рейд без контроллера, через мдадм и тот же тест.
    • badblocks на рейде, !*! ACCA, 16:02 , 02-Янв-20 (5)
      > Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее
      > найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова

      Прошивки Dell - это обязательно, но с H200 нужно аккуратно. Их целая куча - H200, H200A, H200B, H200E, H200I. У чувака был неописуемый случай - https://forums.servethehome.com/index.php?threads/dell-h200-.../

      • badblocks на рейде, !*! Анонимко, 01:12 , 19-Янв-20 (6)
        Стояла последняя прошивка по умолчанию.
        Пришел к таким действиям:
        - Контроллер PERC H200A это один в один LSI 9211-8i. Можно шить прошивками от LSI которые свежее и функциональнее.
        - Перепрошил на LSI P20 из FreeDOS. Инструкция в комменте снизу от Zeit(https://blog.michael.kuron-germany.de/2014/11/crossflashing-.../)
        - Пересобрал рейд.
        - Нарезал партишены, отформатировал, скопировал файлы груба и корень с овиртом в соответствующие разделы.
        - Проинсталил груб.
        - Все взлетело, данные не потерял.

        Как я понял трабл был в порче метаданных рейда. Рейд контроллер показывает меньше объем диска примерно на 1 гиг. По разметке видно, что в хвосте дисков он резервирует область под метаданные. Хотя остается загадкой почему проверка на целостность рейда проходила. Меня это очень напрягало и думал что нужно обязательно перепрошиться либо менять контроллер, чтобы не попасть ни эти грабли вновь. По итогу удалось обнаружить новые LSI прошивки.

      • badblocks на рейде, !*! Анонимко, 01:19 , 19-Янв-20 (7)
        Забыл сказать. После перепрошивки рейд не развалился. Показал последнюю конфу рейда. Я попробовал прогнать еще раз badblocks на нем в надежде, что обновление прошивки уберет сбойные сектора. Но нет, все сыпалось по прежнему. После этого уже сошелся на порче метаданных рейда на самих дисках и  решил пересобрать рейд.

  • badblocks на рейде, !*! dmitriygessus, 23:50 , 24-Май-20 (8)
    Обнови прошивки Прошивки Dell, все перезагрузи





Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру