badblocks на рейде, Анонимко, 31-Дек-19, 02:52 [смотреть все]Развернул Ovirt 4.3 и в процессе эксплуатации стали бится образы виртуалок. Появились сообщения вида kernel: blk_update_request: I/O error, dev sda, sector 2053921281) RAID 1 был собран недавно на свежих энтерпрайз дисках, а сами диски вне рейда и по инфе smartctl -a и smtartctl -t long и badblocks тесты успешно проходят. 2) Проверка рейда на консинстентность силами рейд контроллера(PERC H200) проходит без ошибок. Самое занятное чего я не ожидал и что мне не понятно: badblocks показывает прямо на рейде /dev/sda 148 битых секторов! Повторная проверка badblocks после холодного ребута сервера показывает те же сбойные сектора. Также в процессе проверки badblocks на рейде проявляется деградация скорости проверки. Изначально скорость проверки идет 1% ~ 1 мин. Потом доходит до 1% ~ 7 мин. Проверка в итоге длилась 5-6 часов. При тестировании дисков вне рейда скорость проверки не деградирует и держится на тех же 1% ~ 1 мин. Сейчас склоняюсь к следующим вариантам - неисправность рейд контроллера - проблема драйвера, ядра CentOS 7, ядро 3.10 штатное Кто нибудь сталкивался, есть идеи? |
- badblocks на рейде, Аноним, 10:28 , 31-Дек-19 (1)
> Сейчас склоняюсь к следующим вариантам > - неисправность рейд контроллера > - проблема драйвера, ядра > Кто нибудь сталкивался, есть идеи?Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на грабли с дисками, оказалось - БП помирает.
- badblocks на рейде, Анонимко, 15:40 , 31-Дек-19 (3)
> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на > грабли с дисками, оказалось - БП помирает.При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у меня, и я специально это отметил, адреса битых секторов не меняются. У вас бились рандомно или всегда те же?
- badblocks на рейде, Аноним, 16:52 , 31-Дек-19 (4)
>> Блок питания попробуйте заменить на помощнее. Без шуток, сам недавно наступил на > При проблеме питания мне кажется что сектора "бились" бы рандомно. Но у > меня, и я специально это отметил, адреса битых секторов не меняются. > У вас бились рандомно или всегда те же?Битых секторов не было. Но через несколько часов после старта скорость чтения/записи начинала падать, пока вообще не прекращались всякие операции с диском.
- badblocks на рейде, DeerFriend, 11:28 , 31-Дек-19 (2)
Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова прогнать бедблокс. Если та же проблема с деградацией скорости останется, пересобери рейд без контроллера, через мдадм и тот же тест.
- badblocks на рейде, ACCA, 16:02 , 02-Янв-20 (5)
> Попробуй забекапить виртуалки, обновить все прошивки (биос, контроллер, всё что свежее > найдёшь), залить нулями каждый диск отдельно, собрать новый рейд1 и снова Прошивки Dell - это обязательно, но с H200 нужно аккуратно. Их целая куча - H200, H200A, H200B, H200E, H200I. У чувака был неописуемый случай - https://forums.servethehome.com/index.php?threads/dell-h200-.../
- badblocks на рейде, Анонимко, 01:12 , 19-Янв-20 (6)
Стояла последняя прошивка по умолчанию. Пришел к таким действиям: - Контроллер PERC H200A это один в один LSI 9211-8i. Можно шить прошивками от LSI которые свежее и функциональнее. - Перепрошил на LSI P20 из FreeDOS. Инструкция в комменте снизу от Zeit(https://blog.michael.kuron-germany.de/2014/11/crossflashing-.../) - Пересобрал рейд. - Нарезал партишены, отформатировал, скопировал файлы груба и корень с овиртом в соответствующие разделы. - Проинсталил груб. - Все взлетело, данные не потерял.Как я понял трабл был в порче метаданных рейда. Рейд контроллер показывает меньше объем диска примерно на 1 гиг. По разметке видно, что в хвосте дисков он резервирует область под метаданные. Хотя остается загадкой почему проверка на целостность рейда проходила. Меня это очень напрягало и думал что нужно обязательно перепрошиться либо менять контроллер, чтобы не попасть ни эти грабли вновь. По итогу удалось обнаружить новые LSI прошивки. - badblocks на рейде, Анонимко, 01:19 , 19-Янв-20 (7)
Забыл сказать. После перепрошивки рейд не развалился. Показал последнюю конфу рейда. Я попробовал прогнать еще раз badblocks на нем в надежде, что обновление прошивки уберет сбойные сектора. Но нет, все сыпалось по прежнему. После этого уже сошелся на порче метаданных рейда на самих дисках и решил пересобрать рейд.
- badblocks на рейде, dmitriygessus, 23:50 , 24-Май-20 (8)
Обнови прошивки Прошивки Dell, все перезагрузи
|