forum.opennet.ru - "Для ядра Linux предложена реализация функции memchr, работающая до 4 раз быстрее" (162)

"Для ядра Linux предложена реализация функции memchr, работающая до 4 раз быстрее"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Для ядра Linux предложена реализация функции memchr, работающая до 4 раз быстрее"	+/–
Сообщение от opennews (??), 12-Июл-22, 09:26
Для включения в состав ядра Linux предложен набор патчей с оптимизированной реализацией функции memchr(), применяемой для поиска символа в массиве. В отличие от старого варианта, в котором применялось побайтовое сравнение, предложенная реализация построена с учётом полного использования 64- и 32-разрядных регистров CPU. Вместо байтов сравнение осуществляется с использованием машинных слов, что позволяет за раз сравнивать как минимум 4 байта... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=57493
Ответить \| Правка \| Cообщить модератору

Оглавление

Я думал и так уже оптимизировали все что можно для 64бит, Аноним (1), 09:26 , 12-Июл-22, (1) +6

Оно и оптимизировано уже более 10 лет Называется аппаратная предвыборка данных , n00by (ok), 10:06 , 12-Июл-22, (8) –7

Вы немного ошибаетесь Никакие prefetch и прочие не избавят числодробилку от поб, _hide_ (ok), 10:11 , 12-Июл-22, (10) +6

А ещё я немного смотрю, чего оно там числодробит nl memchr line, n , end -, n00by (ok), 10:24 , 12-Июл-22, (14) –1
Сразу видно человека не разбирающегося в теме, Аноним (158), 02:09 , 16-Июл-22, (158)

Когда-то давно сравнивал свою реализацию strlen это почти memchr, только чуть д, Аноним (-), 12:51 , 12-Июл-22, (29) +2

То есть не догадались посчитать теоретический предел чтения из памяти и сравнить, n00by (ok), 13:13 , 12-Июл-22, (35) –2

А в Эльбрусах, Итаниках и прочих VLIW такой есть , Аноним (48), 14:34 , 12-Июл-22, (48) –3

Попробуйте дочитать моё сообщение до конца - там вся суть Что касается вопроса,, n00by (ok), 14:49 , 12-Июл-22, (54) –1

Интересно, а как предвыборка может изменить тот факт что телепать по 1 байту за , Аноним (-), 03:25 , 13-Июл-22, (89)

Для недочитавших моё сообщение повторяю цитату автора for long strings Больша, n00by (ok), 09:16 , 13-Июл-22, (92) +1

Насколько помню, этот вариант проиграл варианту на условных переходах Продолжа, Аноним (-), 11:19 , 13-Июл-22, (105)

Как бы не важно, кто и что там якобы помнит, когда вот код из реального мира co, n00by (ok), 11:30 , 13-Июл-22, (106)

Это было сказано про мое сравнение реализаций strlen В ядре линукс мало кого инт, Аноним (-), 11:49 , 13-Июл-22, (108)

Нет никакого сравнения ни цифр, ни подробностей о железе А на самом деле аноним, n00by (ok), 12:06 , 13-Июл-22, (113)

производительностью которого заинтересовались и предлагают варианты , Аноним (-), 12:17 , 13-Июл-22, (115)

Пока нет никаких измерений производительности С какой целью Вы упорно пишете чу, n00by (ok), 13:49 , 13-Июл-22, (127)

Может, он и там тупил, ну они его и того , ммнюмнюмус (?), 22:46 , 13-Июл-22, (144)

Я что-то не уверен что ядро в принципе таким оперирует Там длинное это наверное, Аноним (-), 16:15 , 13-Июл-22, (132)

Разумеется, не оперирует Но автор написал long Вспоминаем определение кеш-памя, n00by (ok), 20:05 , 13-Июл-22, (139)

Тут, курица или яйцо Работает медленно -- ищем решение без поиска в лоб, не исп, _hide_ (ok), 10:08 , 12-Июл-22, (9)
Наоборот всегда было главное единообразие чтобы обеспечить переносимость Наопти, Аноним (12), 10:12 , 12-Июл-22, (12)

Обычно имеются в начичии и оптимизированные варианты для известных архитектур, и, Аноним (45), 14:17 , 12-Июл-22, (45)

Раздуто, а не оптимизированно , Ананас (?), 10:54 , 12-Июл-22, (17) +2

Было бы оптимизировано, то не получилось бы сделать раздуто Было бы супермегане, Аноним (12), 10:55 , 12-Июл-22, (19) +2
В итоге получат, что толстое ядро тормозит сильнее, чем микроскопическое ускорен, Аноним (42), 13:46 , 12-Июл-22, (42)

Оно оптимизировано Просто надо ещё мест, где можно очереднус спектр запустить п, Аноним (79), 20:54 , 12-Июл-22, (79)

Как в glibc 129303 , pashev.ru (?), 09:29 , 12-Июл-22, (2)

Там разве не sse и avx 512 с до 64 байтами за раз , Аноним (-), 09:39 , 12-Июл-22, (4)

avx 512 в здравом уме в ядре использовать никто не будет, потому что на интелах, Онаним (?), 12:50 , 12-Июл-22, (28) +1

Это монолит, нет смысла апеллировать к здравому смыслу , Аноним (-), 12:59 , 12-Июл-22, (33)

Ну, бОльшая часть ядра до последнего времени таки здравому смыслу соответствовал, Онаним (?), 19:11 , 12-Июл-22, (69) +1

Что за урина Это uring чтоли так назвали Оно может и брейнфак, но ОЧЕНЬ БЫСТРЫ, Аноним (-), 03:28 , 13-Июл-22, (90)

спасибо за инфу смысул этих инструкций и новых процев околонулевой пожалуй , п, иисус господь евреев (?), 19:34 , 12-Июл-22, (73) –1

https colfaxresearch com skl-avx512 , Аноним (135), 16:32 , 13-Июл-22, (135)

Английского не знаю Судя по тексту Я сайт перевёл хорошо если не отлично , Аноним (135), 16:33 , 13-Июл-22, (136)

А что правда не так с avx-512 Я то наоборот стараюсь использовать векторизацию,, ммнюмнюмус (?), 15:17 , 14-Июл-22, (147)

Когда контекст исполнения поток переключается, регистры процессора надо сохран, n00by (ok), 17:18 , 14-Июл-22, (148)
Не так в нём то, что оно превращает в кипятильник весь камень, и частоты падают , Онаним (?), 22:11 , 15-Июл-22, (156)
и это не так из эксплуатационного Ещё с ним не так то, что разные процы поддерж, Онаним (?), 22:11 , 15-Июл-22, (157)

А так да, скорее всего оптимизации касаются как раз SSE 2 и AVX 2 - но честно , Онаним (?), 12:51 , 12-Июл-22, (30)

В принципе и даже на стандартных регистрах можно через поиск нуля после вычитани, Онаним (?), 12:52 , 12-Июл-22, (31) +1

В принципе даже просто выровненный забор и 4-8 сравнений на стандартных регистра, Онаним (?), 12:54 , 12-Июл-22, (32)

В ядре не используются команды фпу, ссе и авх, с22 (?), 19:30 , 12-Июл-22, (70) +1

glibc используется , Аноним (-), 19:32 , 12-Июл-22, (72) +1
Первый найденный случайный файл https git kernel org pub scm linux kernel git , Аноним (-), 19:43 , 12-Июл-22, (74) +1

Нашёл баш-программиста ядра Смотрим не Makefile, а первый найденный случайный к, n00by (ok), 09:33 , 13-Июл-22, (93)

напечатай из ядра sin M_PI 19 , pavlinux (ok), 10:39 , 13-Июл-22, (102)

В ядре не используются команды печати , Аноним (-), 11:08 , 13-Июл-22, (104)

открой для себя printkhttps www opennet ru man shtml topic printk DESCRIPTION, pavlinux (ok), 12:53 , 13-Июл-22, (120)

Вот, чёрт , Аноним (122), 12:59 , 13-Июл-22, (122)

Ну вывести 0 16459459028 как бы не проблема Вопрос был к утверждавшим, что FPU , n00by (ok), 13:45 , 13-Июл-22, (125)

Еще как используются, всякие там хеш-функции и прочие подобные вещи в нескольких, 67332 (?), 21:43 , 12-Июл-22, (82)

Посмотрите, _как_ оно во всяких там используется Человек прав в принципе, но , n00by (ok), 09:40 , 13-Июл-22, (94)

Специально скопирую сюда из glibc string memchr cчто бы люди могли почитать ком, n00by (ok), 11:22 , 12-Июл-22, (22) –1

Покажи ещё sysdeps x86_64 multiarch memrchr-evex Shttps sourceware org git p g, Аноним (-), 12:25 , 12-Июл-22, (26)

Суть вот где Handle the first few bytes by reading one byte at a time , n00by (ok), 13:15 , 12-Июл-22, (36) +1

Давай так Напиши свой наивный побайтовый алгоритм memchr можешь даже префетч п, Аноним (-), 13:35 , 12-Июл-22, (38) +1

Ещё раз, для не уловивших суть предлагаемое в ядро в общем случае НЕ РАБОТАЕТ, , n00by (ok), 14:51 , 12-Июл-22, (55) +1

Вернемся к нашим скачущим баранам Тогда зачем в ветке про glibc ты приводишь ко, Аноним (-), 16:38 , 12-Июл-22, (58)

В ответ на заявление Как в glibc 129303 я показал, что оно - ложно Затем, ч, n00by (ok), 17:13 , 12-Июл-22, (60) +1

как в glibc , было сказано на счет позволяет за раз сравнивать как минимум 4 б, Аноним (-), 17:32 , 12-Июл-22, (62)

Ещё раз в данном случае оно не сравнивает, оно даже прочитать память не может, , n00by (ok), 09:44 , 13-Июл-22, (96)

У тебя вообще ничего не работает, и ты сидишь на оффтопе и рассуждаешь, что долж, Аноним (-), 10:37 , 13-Июл-22, (101)

Дублирую цитаты I think you re missing the point Loads at unaligned addresses m, n00by (ok), 14:01 , 13-Июл-22, (128)
Тем временем существует оптимизированный memchr_inv, Аноним (-), 14:07 , 13-Июл-22, (129)

ох уж эта сишка и ее проблемы с типами на разных архитектурах , achtosluchilos (ok), 21:26 , 12-Июл-22, (81) –1

Хрустик как-то спасёт тебя от разного размера регистров в проце , Онаним (?), 09:42 , 13-Июл-22, (95) +1
Кстати, может ли Rust защитить от реальной проблемы предлагаемого ускорения - , n00by (ok), 09:51 , 13-Июл-22, (97) +1

А вот не факт Скорее всего исключение от железки поймает в тыкву и не факт что , Аноним (-), 16:20 , 13-Июл-22, (133) –1

Интересно, можно ли нарушение alignment requirements поймать на этапе трансляции, n00by (ok), 19:20 , 13-Июл-22, (137)

Скрыто модератором, pashev.ru (?), 09:31 , 12-Июл-22, (3) –3
Такого количества багов, костылей и рудиментов не было даже в ранней винде после, Аноним (5), 09:39 , 12-Июл-22, (5) –19

а что ты хотел, 31 год идёт ядру, его ещё причёсывают хотя бы хоть как-то, Аноним (6), 10:05 , 12-Июл-22, (6) –1

а что ты хотел, 1031 год идёт ядру, его ещё причёсывают хотя бы хоть как-тоP S , Аноним (5), 14:41 , 12-Июл-22, (51)

Ну да, в то время люди задавались вопросом какие такие строки, как часто и заче, n00by (ok), 10:12 , 12-Июл-22, (11) +1
Ты ещё исходники индусской 11 не видел , КО (?), 10:14 , 12-Июл-22, (13) +3

Я нормальный линукс десктоп не видел хотя бы на уровне XP, Аноним (5), 12:08 , 12-Июл-22, (24) –11

Ага, мы уже все видел тулчейн в исходниках XP, можешь не продолжать, вот где кос, commiethebeastie (ok), 12:13 , 12-Июл-22, (25) +3

Плохому линуксоиду виндоус мешает, Аноним (5), 12:47 , 12-Июл-22, (27) +2

ЛЮБОМУ линуксоиду виндоуз мешает , Аноним (6), 13:00 , 12-Июл-22, (34) +5
А виндузоид не видел десктопа лучшего, чем XP , Аноним (45), 14:12 , 12-Июл-22, (44)

Это классика, это знать надо, Аноним (5), 14:36 , 12-Июл-22, (49)

Да знаю - синдром утёнка , Аноним (45), 14:46 , 12-Июл-22, (53) +1

Переходи на армянский алфавит Как не хочешь У тебя синдром утёнка Логика , Тот_Самый_Анонимус (?), 22:24 , 12-Июл-22, (84)

Это некрофилия а не классикаТупой ты баран , Конь Антон (?), 06:08 , 16-Июл-22, (159)

Кстати Я, старый линуксовод не помню XP, то есть перешёл до появления XP неда, Аноним (59), 16:47 , 12-Июл-22, (59) –1

В поддержанных неттопах Windows 7 есть, 11-я в новых Будь осторожен это начало п, Аноним (-), 18:36 , 12-Июл-22, (65) +1

Это что-то со скрижалей фанатиков , Тот_Самый_Анонимус (?), 22:25 , 12-Июл-22, (85)

Тебе M тогда исходники показывал ранней Венды , Аноним (45), 14:26 , 12-Июл-22, (46)

Уж лучше чем у этой студенческой подделкиJust for fun Как говорится , Аноним (5), 14:38 , 12-Июл-22, (50) –3

Ну так показывал или фантазёр , Аноним (45), 14:43 , 12-Июл-22, (52) +1

На изучай сколько угодно хоть вин2000 хоть нт4magnet xt urn btih 66a26447f563c3, Аноним (63), 17:32 , 12-Июл-22, (63) +3

Лютое не нужно , Аноним (-), 18:37 , 12-Июл-22, (66) –1
Гораздо новее есть исходники, windows server 2003 , commiethebeastie (ok), 12:39 , 13-Июл-22, (118)

Это ты погорячился и просто не видел в Win3 x 9x их типа-кернелы - настолько раз, Аноним (-), 16:22 , 13-Июл-22, (134)

Очень интересно, и каким же образом это делается с учётом что ожидается некотора, Бывалый смузихлёб (?), 10:43 , 12-Июл-22, (16)

Он ифдефов конечно же напихал Но ничего хорошего в этом нет имхо , Аноним (12), 10:54 , 12-Июл-22, (18) +2
Способ назван сломаным Exactly The initial code is broken, NAK P S At least yo, n00by (ok), 10:58 , 12-Июл-22, (20) +1
параллельный аппаратный компоратор, хотя тут есть один момент для строк вида, ab, Sw00p aka Jerom (?), 11:59 , 12-Июл-22, (23)
С помощью ifdef else , Аноним (45), 14:32 , 12-Июл-22, (47) –1

Осталось понять, что он там оптимизировал grep -R e __HAVE_ARCH_MEMCHR arch, n00by (ok), 11:11 , 12-Июл-22, (21)
Это же не реклама, зачем употребтять до Тем более, что в оригинале написано , Аноним (37), 13:30 , 12-Июл-22, (37)

Каков радиус этого эраунда , Аноним (42), 13:41 , 12-Июл-22, (40)

Это не важно, главное что центр в районе 4х, Аноним (37), 13:44 , 12-Июл-22, (41)

Точно-точно центр Судя по цифрам из топика - это теоретический край , Аноним (42), 01:32 , 13-Июл-22, (87)

В 4 раза - что планируем получить Максимум 20 - мягко сказать, уже далеко не , Аноним (42), 13:40 , 12-Июл-22, (39) +3

С какого потолка взял Русским языком же написано пока не оценивался , какие бук, Аноним (37), 13:48 , 12-Июл-22, (43) –1

Эта тема обещает быть самой весёлой переписью экспертов If you fix the issue,, n00by (ok), 15:06 , 12-Июл-22, (57) –1
Перечитай сабж внимательно , Аноним (42), 01:33 , 13-Июл-22, (88) +1

Хоспадя Сами в 2022 году писать не умеют, так хоть бы списывать учились http , Аноним (56), 15:06 , 12-Июл-22, (56) –1

Эти тоже в Стэнфорде спионерили 1997-2005 Шон Эрон Андерсон https graphic, pavlinux (ok), 18:58 , 12-Июл-22, (68)

А зачем в новой реализации исходная строка указатель двигается , Аноним (61), 17:23 , 12-Июл-22, (61) +1

Имя автора северокорейского засланца прочитай и всё поймешь, Аноним (63), 17:34 , 12-Июл-22, (64) –1

code void memchr const void p, int c, size_t length u64 mask, val co, pavlinux (ok), 18:53 , 12-Июл-22, (67)

Ну наверное для MEMCHR_MASK_GEN, Аноним (56), 22:35 , 12-Июл-22, (86)

Я уж испугался Думал на расте переписали и уделали Си , Аноним (71), 19:32 , 12-Июл-22, (71) +1
А я уж думал, что подобное давно оптимизировали Интересно, а компиляторы хотя б, qwe (??), 20:02 , 12-Июл-22, (75) +1

Давно оптимизировали Предлагаемый код пока вообще не работает -Wno-strin, n00by (ok), 10:33 , 13-Июл-22, (100)

И как сие работает Сдается мне, что эта опция совсем не для этого Я имею ввиду, qwe (??), 15:26 , 13-Июл-22, (131)

Да, опция для другого Задействованный механизм позволяет иногда оптимизировать , n00by (ok), 19:40 , 13-Июл-22, (138)

Чуть лучше, только если строка - это константа Что же касается строкиstrlen s , qwe (??), 20:38 , 13-Июл-22, (140)

Мне не очевидно, даже не знаю, когда такое может потребоваться и почему в реальн, n00by (ok), 17:28 , 14-Июл-22, (149)

Что если длина строки 2 а память, где хранится строка, перед этим была обнулена , qwe (??), 18:43 , 14-Июл-22, (153)

Вот поэтому и пишу в реальной задаче Могу придумать гипотетическую задачу, гд, n00by (ok), 06:33 , 15-Июл-22, (154)

Я спрашиваю про конкретную оптимизацию при использовании конкретной функции из с, qwe (??), 13:16 , 15-Июл-22, (155) +1

А я увидел человека, кто не может сгенерировать ассемблерный листинг и изучить е, n00by (ok), 07:17 , 16-Июл-22, (160)

А если человек сгенерировал, изучил, но вам не доложил, как вы его отличите от т, qwe (??), 12:31 , 16-Июл-22, (161) +1

Очень просто - априори я верю человеку на слово Если он пишет Интересно, а ком, n00by (ok), 13:18 , 16-Июл-22, (162)

По мне, слишком редкая операция - сравнение длины строки с заранее известной кон, Аноним (141), 20:59 , 13-Июл-22, (141)

Сколько раз в секунду ядро линукса ищет символ в массиве Чисто для понимания,, Атон (?), 20:03 , 12-Июл-22, (76) +1

В файловых системах должна часто использоваться Например, для поиска отсутстви, Аноним (-), 20:28 , 12-Июл-22, (78)

Теперь прикиньте длину среднего имени файла и затраты на подготовку его быстрой , n00by (ok), 10:09 , 13-Июл-22, (99)

Теоретик, ты даже не знаешь какие затраты Насколько затраты больше, чем побайто, Аноним (-), 10:55 , 13-Июл-22, (103)

Конечно, не знаю Пока есть два нерабочих варианта быстрой функции , и один Ано, n00by (ok), 11:46 , 13-Июл-22, (107)

Теоретик, как раз на нем REP SCASB или другие стрковые инструкции с префиксом RE, Аноним (-), 12:01 , 13-Июл-22, (110)

Ну то есть цифр никаких так и нет, один трындёж , n00by (ok), 13:34 , 13-Июл-22, (124)

Если бы анонимный эксперт отвечал за свои слова, то поиск в тексте ext4 выдал бы, n00by (ok), 11:53 , 13-Июл-22, (109)

Спасибо, что отвечаешь за мои слова, а то было лень искать примеры , Аноним (-), 12:05 , 13-Июл-22, (112) +1

Отвечаю Вы, сударь, пустозвон memchr_inv - Find an unmatching character in a, n00by (ok), 13:29 , 13-Июл-22, (123)

кстати, оптимизированный, не побайтовый, Аноним (-), 13:46 , 13-Июл-22, (126)

Логика в чем по твоему Если каждое звено по отдельности не в носит существенног, thhh (?), 07:04 , 13-Июл-22, (91)
Это просто чувак захотел стать знаменитым Там стоит почитать ответы Он как бы , n00by (ok), 10:05 , 13-Июл-22, (98)

20 лет никто не замечал что код не работает этим не рабочим кодом никто не поль, Атон (?), 21:36 , 13-Июл-22, (142) +1

Пишу же - там читайте ответы Исходная - в смысле в предлагаемом ускорении был, n00by (ok), 17:40 , 14-Июл-22, (151)
Вся суть линукса в одной фразе, Аноним (163), 14:06 , 16-Июл-22, (163)

Вся суть анонимных экспертов Код не видели, ничего не поняли, но уже что-то мня, n00by (ok), 14:39 , 16-Июл-22, (164)

Fedora 36 uname -aLinux 5 18 10-200 fc36 x86_64 1 SMP PREEMPT_DYNAMIC Thu Jul 7, Аноним (77), 20:21 , 12-Июл-22, (77)
Хмм А что интенсивный поиск в больших строках в ядре делает Ну, если экзотическ, _kp (ok), 21:00 , 12-Июл-22, (80)
Да, растишке такое и не снилось , кубрик (?), 22:04 , 12-Июл-22, (83)
чот я не нашёл профита a outARRAY SIZE 1048576LIB 20754NEW 25628 code , pavlinux (ok), 12:02 , 13-Июл-22, (111)

Что с чем сравниваешь При чем тут ядро линукс Угадай с 3 раз, какая в glibc реал, Аноним (-), 12:12 , 13-Июл-22, (114)

Да пофиг, быстрее и всё , pavlinux (ok), 12:26 , 13-Июл-22, (116)

Согласен, надо glibc запихать в ядро , Аноним (-), 12:30 , 13-Июл-22, (117)

Не, просто поступил запрос на возможность впаять эту фичу в юзерспейс Чтоб, pavlinux (ok), 12:44 , 13-Июл-22, (119)

Облом, кто-то оказался шустрее В musl такая же пословная реализация memchr, врод, Аноним (-), 12:53 , 13-Июл-22, (121)

Если чего ещё не нашли - они там ускоряют drivers misc lkdtm heap c то есть во, n00by (ok), 14:34 , 13-Июл-22, (130) +1

printk выкинули бы, вот это был бы профит , pavlinux (ok), 00:17 , 14-Июл-22, (146)

Я вообще в шоке А если партия даст миллиону китайцев задание отправить такие, n00by (ok), 17:38 , 14-Июл-22, (150)

Я посмотрел код, непонятная магия сравнения байта со словом, если кто может, объ, Непростое кино (?), 22:38 , 13-Июл-22, (143)

Вот тут почитай https graphics stanford edu seander bithacks html ValueInWor, pavlinux (ok), 23:48 , 13-Июл-22, (145) +3
На русском есть книга Генри С Уоррен мл Алгоритмические трюки для программист, n00by (ok), 17:53 , 14-Июл-22, (152)

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (1), 12-Июл-22, 09:26 +6 +/–

Я думал и так уже оптимизировали все что можно для 64бит

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8, #9, #12, #17, #79

2. Сообщение от pashev.ru (?), 12-Июл-22, 09:29 +/–

> Вместо байтов сравнение осуществляется с использованием машинных слов, что позволяет за раз сравнивать как минимум 4 байта.
Как в glibc 🤗

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #4, #22

3. Сообщение от pashev.ru (?), 12-Июл-22, 09:31 –3 +/–

> Общий прирост производительности подсистем ядра при использовании оптимизированного варианта "memchr()" пока не оценивался, как не анализировалась и целесообразность замены реализации (в коде ядра вызов функции memchr() встречается 129 раз, в том числе
См. абсолютное и относительное улучшение — https://pashev.ru/nnt

Ответить | Правка | Наверх | Cообщить модератору

4. Сообщение от Аноним (-), 12-Июл-22, 09:39 +/–

Там разве не sse и avx(512) с "до 64 байтами" за раз?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #28, #30, #70

5. Сообщение от Аноним (5), 12-Июл-22, 09:39 –19 +/–

Такого количества багов, костылей и рудиментов не было даже в ранней винде после перехода с мсдос

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #6, #11, #13, #46, #134

6. Сообщение от Аноним (6), 12-Июл-22, 10:05 –1 +/–

а что ты хотел, 31 год идёт ядру, его ещё причёсывают хотя бы хоть как-то

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #51

8. Сообщение от n00by (ok), 12-Июл-22, 10:06 –7 +/–

Оно и оптимизировано уже более 10 лет. Называется аппаратная предвыборка данных (prefetch). Почему заявивший "The optimized "memchr()" is nearly 4x faster than the original one for long strings" не знает, что на больших блоках узким местом является скорость чтения из памяти - это другой вопрос.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #10, #29, #48, #89

9. Сообщение от _hide_ (ok), 12-Июл-22, 10:08 +/–

Тут, курица или яйцо. Работает медленно -- ищем решение без поиска в лоб, не используем поиск в лоб -- нет оптимизации и работает медленно.
Так микрооптимизации очень нужны, если они хорошо поддерживаются.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

10. Сообщение от _hide_ (ok), 12-Июл-22, 10:11 +6 +/–

Вы немного ошибаетесь. Никакие prefetch и прочие не избавят числодробилку от побайтового перебора. Ну да, память надо прочитать и загнать в кэш, но никто не говорит, что ядро стало работать в 4 раза быстрее, просто -1 узкий момент.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #14, #158

11. Сообщение от n00by (ok), 12-Июл-22, 10:12 +1 +/–

Ну да, в то время люди задавались вопросом "какие такие строки, как часто и зачем надо сравнивать в ядре".

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

12. Сообщение от Аноним (12), 12-Июл-22, 10:12 +/–

Наоборот всегда было главное единообразие чтобы обеспечить переносимость. Наоптимизировать под конкретное железо это к другим проприетарным производителям.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #45

13. Сообщение от КО (?), 12-Июл-22, 10:14 +3 +/–

Ты ещё исходники индусской 11 не видел.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #24, #59

14. Сообщение от n00by (ok), 12-Июл-22, 10:24 –1 +/–

А ещё я немного смотрю, чего оно там числодробит:
        nl = memchr(line, '\n', end - buffer);

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

16. Сообщение от Бывалый смузихлёб (?), 12-Июл-22, 10:43 +/–

> Вместо байтов сравнение осуществляется с использованием машинных слов,
> что позволяет за раз сравнивать как минимум 4 байта.
Очень интересно, и каким же образом это делается с учётом что ожидается некоторая универсальность для разных архитектур

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #18, #20, #23, #47

17. Сообщение от Ананас (?), 12-Июл-22, 10:54 +2 +/–

Раздуто, а не оптимизированно

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #19, #42

18. Сообщение от Аноним (12), 12-Июл-22, 10:54 +2 +/–

Он ифдефов конечно же напихал. Но ничего хорошего в этом нет имхо.
>> if defined(CONFIG_ARCH_HAS_FAST_MULTIPLIER) && BITS_PER_LONG == 64

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

19. Сообщение от Аноним (12), 12-Июл-22, 10:55 +2 +/–

Было бы оптимизировано, то не получилось бы сделать раздуто. Было бы супермеганеподдерживаемораздуто.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

20. Сообщение от n00by (ok), 12-Июл-22, 10:58 +1 +/–

Способ назван "сломаным"
> I think you're missing the point. Loads at unaligned addresses may not
> be allowed by hardware using conventional load instructions or may be
> inefficient. Given that this memchr implementation is used as a fallback
> when no hardware-specific version is available, you should be
> conservative wrt. hardware capabilities and behavior. You should
> probably have a pre-alignment loop.
Exactly!
The initial code is broken, NAK.
P.S. At least you may look into strscpy() implementation to get a clue.
https://lkml.org/lkml/2022/7/11/1329

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

21. Сообщение от n00by (ok), 12-Июл-22, 11:11 +/–

Осталось понять, что он там оптимизировал:
$ grep -R "e __HAVE_ARCH_MEMCHR" *
arch/powerpc/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/s390/include/asm/string.h:#define __HAVE_ARCH_MEMCHR    /* inline & arch function */
arch/arm/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/alpha/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/x86/include/asm/string_32.h:#define __HAVE_ARCH_MEMCHR
arch/arm64/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/sh/include/asm/string_32.h:#define __HAVE_ARCH_MEMCHR

Ответить | Правка | Наверх | Cообщить модератору

22. Сообщение от n00by (ok), 12-Июл-22, 11:22 –1 +/–

Специально скопирую сюда из /glibc/string/memchr.c
что бы люди могли почитать комментарии к коду и сделать выводы.

/* Search no more than N bytes of S for C.  */
void *
MEMCHR (void const *s, int c_in, size_t n)
{
  /* On 32-bit hardware, choosing longword to be a 32-bit unsigned
     long instead of a 64-bit uintmax_t tends to give better
     performance.  On 64-bit hardware, unsigned long is generally 64
     bits already.  Change this typedef to experiment with
     performance.  */
  typedef unsigned long int longword;
  const unsigned char *char_ptr;
  const longword *longword_ptr;
  longword repeated_one;
  longword repeated_c;
  unsigned char c;
  c = (unsigned char) c_in;
  /* Handle the first few bytes by reading one byte at a time.
     Do this until CHAR_PTR is aligned on a longword boundary.  */
  for (char_ptr = (const unsigned char *) s;
       n > 0 && (size_t) char_ptr % sizeof (longword) != 0;
       --n, ++char_ptr)
    if (*char_ptr == c)
      return (void *) char_ptr;
  longword_ptr = (const longword *) char_ptr;
  /* All these elucidatory comments refer to 4-byte longwords,
     but the theory applies equally well to any size longwords.  */
  /* Compute auxiliary longword values:
     repeated_one is a value which has a 1 in every byte.
     repeated_c has c in every byte.  */
  repeated_one = 0x01010101;
  repeated_c = c | (c << 8);
  repeated_c |= repeated_c << 16;
  if (0xffffffffU < (longword) -1)
    {
      repeated_one |= repeated_one << 31 << 1;
      repeated_c |= repeated_c << 31 << 1;
      if (8 < sizeof (longword))
    {
      size_t i;
      for (i = 64; i < sizeof (longword) * 8; i *= 2)
        {
          repeated_one |= repeated_one << i;
          repeated_c |= repeated_c << i;
        }
    }
    }
  /* Instead of the traditional loop which tests each byte, we will test a
     longword at a time.  The tricky part is testing if *any of the four*
     bytes in the longword in question are equal to c.  We first use an xor
     with repeated_c.  This reduces the task to testing whether *any of the
     four* bytes in longword1 is zero.
     We compute tmp =
       ((longword1 - repeated_one) & ~longword1) & (repeated_one << 7).
     That is, we perform the following operations:
       1. Subtract repeated_one.
       2. & ~longword1.
       3. & a mask consisting of 0x80 in every byte.
     Consider what happens in each byte:
       - If a byte of longword1 is zero, step 1 and 2 transform it into 0xff,
     and step 3 transforms it into 0x80.  A carry can also be propagated
     to more significant bytes.
       - If a byte of longword1 is nonzero, let its lowest 1 bit be at
     position k (0 <= k <= 7); so the lowest k bits are 0.  After step 1,
     the byte ends in a single bit of value 0 and k bits of value 1.
     After step 2, the result is just k bits of value 1: 2^k - 1.  After
     step 3, the result is 0.  And no carry is produced.
     So, if longword1 has only non-zero bytes, tmp is zero.
     Whereas if longword1 has a zero byte, call j the position of the least
     significant zero byte.  Then the result has a zero at positions 0, ...,
     j-1 and a 0x80 at position j.  We cannot predict the result at the more
     significant bytes (positions j+1..3), but it does not matter since we
     already have a non-zero bit at position 8*j+7.
     So, the test whether any byte in longword1 is zero is equivalent to
     testing whether tmp is nonzero.  */
  while (n >= sizeof (longword))
    {
      longword longword1 = *longword_ptr ^ repeated_c;
      if ((((longword1 - repeated_one) & ~longword1)
       & (repeated_one << 7)) != 0)
    break;
      longword_ptr++;
      n -= sizeof (longword);
    }
  char_ptr = (const unsigned char *) longword_ptr;
  /* At this point, we know that either n < sizeof (longword), or one of the
     sizeof (longword) bytes starting at char_ptr is == c.  On little-endian
     machines, we could determine the first such byte without any further
     memory accesses, just by looking at the tmp result from the last loop
     iteration.  But this does not work on big-endian machines.  Choose code
     that works in both cases.  */
  for (; n > 0; --n, ++char_ptr)
    {
      if (*char_ptr == c)
    return (void *) char_ptr;
    }
  return NULL;
}

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #26, #81

23. Сообщение от Sw00p aka Jerom (?), 12-Июл-22, 11:59 +/–

>Очень интересно, и каким же образом это делается
параллельный аппаратный компоратор, хотя тут есть один момент для строк вида, abac, aaaa и т. д. если ишем a.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

24. Сообщение от Аноним (5), 12-Июл-22, 12:08 –11 +/–

Я нормальный линукс десктоп не видел... хотя бы на уровне XP

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13 Ответы: #25

25. Сообщение от commiethebeastie (ok), 12-Июл-22, 12:13 +3 +/–

Ага, мы уже все видел тулчейн в исходниках XP, можешь не продолжать, вот где костыли так костыли.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #24 Ответы: #27

26. Сообщение от Аноним (-), 12-Июл-22, 12:25 +/–

Покажи ещё sysdeps/x86_64/multiarch/memrchr-evex.S
https://sourceware.org/git?p=glibc.git;a=blob;f=sysdeps/x86_...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22 Ответы: #36

27. Сообщение от Аноним (5), 12-Июл-22, 12:47 +2 +/–

Плохому линуксоиду виндоус мешает

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25 Ответы: #34, #44

28. Сообщение от Онаним (?), 12-Июл-22, 12:50 +1 +/–

avx(512) в здравом уме в ядре использовать никто не будет, потому что на интелах оно имеет риск проложить производительность всей числодробилки, а не только одного ядра.
"Linus Torvalds: I hope Intel's AVX-512 'dies a painful death'"
Ядро поддерживает софт, работающий с AVX512, но это на жуткого любителя.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #33, #73, #147

29. Сообщение от Аноним (-), 12-Июл-22, 12:51 +2 +/–

Когда-то давно сравнивал свою реализацию strlen (это почти memchr, только чуть другой)
Побайтовый наивный алгоритм проиграл по скорости около 4 раз 8-байтовому. Еще написал не совсем правильный sse-алгоритм, он еще в 1.5-2 раза быстрее.
Это к разговору про скорость подсистемы памяти.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #35

30. Сообщение от Онаним (?), 12-Июл-22, 12:51 +/–

А так да, скорее всего оптимизации касаются как раз SSE(2) и AVX(2) - но честно скажу, не смотрел.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #31

31. Сообщение от Онаним (?), 12-Июл-22, 12:52 +1 +/–

В принципе и даже на стандартных регистрах можно через поиск нуля после вычитания, но изврат тот ещё.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #30 Ответы: #32

32. Сообщение от Онаним (?), 12-Июл-22, 12:54 +/–

В принципе даже просто выровненный забор и 4-8 сравнений на стандартных регистрах должны дать хороший прирост, если там до этого оно побайтово делалось.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #31

33. Сообщение от Аноним (-), 12-Июл-22, 12:59 +/–

> avx(512) в здравом уме в ядре использовать никто не будет
Это монолит, нет смысла апеллировать к здравому смыслу.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28 Ответы: #69

34. Сообщение от Аноним (6), 12-Июл-22, 13:00 +5 +/–

ЛЮБОМУ линуксоиду виндоуз мешает)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

35. Сообщение от n00by (ok), 12-Июл-22, 13:13 –2 +/–

То есть не догадались посчитать теоретический предел чтения из памяти и сравнить с ним результаты измерений? Это к разговору об измерениях. Про год и тип процессора не спрашиваю, как и про использование команды prefetchnta.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #29

36. Сообщение от n00by (ok), 12-Июл-22, 13:15 +1 +/–

Суть вот где:
  /* Handle the first few bytes by reading one byte at a time.
     Do this until CHAR_PTR is aligned on a longword boundary.  */
На этом основании предлагаемому в ядро "в четыре раза быстрее" влупили NAK.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26 Ответы: #38

37. Сообщение от Аноним (37), 12-Июл-22, 13:30 +/–

> до 4 раз быстрее
Это же не реклама, зачем употребтять "до"? Тем более, что в оригинале написано "около" - "around ~4x".

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #40

38. Сообщение от Аноним (-), 12-Июл-22, 13:35 +1 +/–

Давай так. Напиши свой наивный побайтовый алгоритм memchr (можешь даже префетч присобачить). И сравни с glibc, который будет использовать оптимизированный под твой процессор. На данных до одного гигабайта, чтоб уж наверняка вылезти за пределы всех уровней кеша.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #36 Ответы: #55

39. Сообщение от Аноним (42), 12-Июл-22, 13:40 +3 +/–

> в больших строках новый вариант оказался быстрее старого примерно в 4 раза (например, для строк в 1000 символов)
В 4 раза - что планируем получить...
> В ядре Linux размер обрабатываемых в memchr() строк достигает 512 байт. Прирост производительности для 512 байтовых строк, в ситуации, когда искомый символ находится в конце строки, составляет 20%.
Максимум 20% - мягко сказать, уже далеко не в 4 раза.
> Общий прирост производительности подсистем ядра при использовании оптимизированного варианта "memchr()" пока не оценивался
В реальности - 0.0X%, что даже постыдились показать.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #43

40. Сообщение от Аноним (42), 12-Июл-22, 13:41 +/–

> "around ~4x"
Каков радиус этого эраунда?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #37 Ответы: #41

41. Сообщение от Аноним (37), 12-Июл-22, 13:44 +/–

Это не важно, главное что центр в районе 4х

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #40 Ответы: #87

42. Сообщение от Аноним (42), 12-Июл-22, 13:46 +/–

В итоге получат, что толстое ядро тормозит сильнее, чем микроскопическое ускорение от поиска в строках.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

43. Сообщение от Аноним (37), 12-Июл-22, 13:48 –1 +/–

> Максимум 20%
С какого потолка взял?
> В реальности - 0.0X%, что даже постыдились показать.
Русским языком же написано "пока не оценивался", какие буквы ты не понял?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #39 Ответы: #57, #88

44. Сообщение от Аноним (45), 12-Июл-22, 14:12 +/–

А виндузоид не видел десктопа лучшего, чем XP.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27 Ответы: #49

45. Сообщение от Аноним (45), 12-Июл-22, 14:17 +/–

Обычно имеются в начичии и оптимизированные варианты для известных архитектур, и неоптимизированные для любых, если оптимизированного не нашлось.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #12

46. Сообщение от Аноним (45), 12-Июл-22, 14:26 +/–

Тебе M$ тогда исходники показывал ранней Венды?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #50, #63

47. Сообщение от Аноним (45), 12-Июл-22, 14:32 –1 +/–

С помощью #ifdef ... #else ?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

48. Сообщение от Аноним (48), 12-Июл-22, 14:34 –3 +/–

>Называется аппаратная предвыборка данных (prefetch).
А в Эльбрусах, Итаниках и прочих VLIW такой есть?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #54

49. Сообщение от Аноним (5), 12-Июл-22, 14:36 +/–

Это классика, это знать надо

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #44 Ответы: #53, #159

50. Сообщение от Аноним (5), 12-Июл-22, 14:38 –3 +/–

Уж лучше чем у этой студенческой подделки
Just for fun! Как говорится...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #46 Ответы: #52

51. Сообщение от Аноним (5), 12-Июл-22, 14:41 +/–

а что ты хотел, 1031 год идёт ядру, его ещё причёсывают хотя бы хоть как-то
P.S. где-то в далеком далеком интернете тысячу лет спустя

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

52. Сообщение от Аноним (45), 12-Июл-22, 14:43 +1 +/–

Ну так показывал или фантазёр?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #50

53. Сообщение от Аноним (45), 12-Июл-22, 14:46 +1 +/–

Да знаю - синдром утёнка.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #49 Ответы: #84

54. Сообщение от n00by (ok), 12-Июл-22, 14:49 –1 +/–

Попробуйте дочитать моё сообщение до конца - там вся суть. Что касается вопроса, если нет аппаратной предвыборки - можно обеспечить программную, как делали раньше на IA32. Для этого есть либо специальная команда, либо читают память с шагом равным размеру линейки кеша.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48

55. Сообщение от n00by (ok), 12-Июл-22, 14:51 +1 +/–

Ещё раз, для не уловивших суть: предлагаемое в ядро в общем случае НЕ РАБОТАЕТ, в отличие от реализации из glibc и остальных наивных.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #38 Ответы: #58

56. Сообщение от Аноним (56), 12-Июл-22, 15:06 –1 +/–

Хоспадя. Сами в 2022 году писать не умеют, так хоть бы списывать учились. http://fastcode.sourceforge.net/

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #68

57. Сообщение от n00by (ok), 12-Июл-22, 15:06 –1 +/–

Эта тема обещает быть самой весёлой переписью экспертов. ;)
If you fix the issue, kindly add following tag where applicable
Reported-by: kernel test robot <lkp@intel.com>
All errors (new ones prefixed by >>):
>> lib/string.c:902:7: error: conflicting types for 'memchr'
   void *memchr(const void *p, int c, unsigned long length)
         ^
   include/linux/string.h:162:15: note: previous declaration is here
   extern void * memchr(const void *,int,__kernel_size_t);
                 ^
   1 error generated.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43

58. Сообщение от Аноним (-), 12-Июл-22, 16:38 +/–

Вернемся к нашим скачущим баранам. Тогда зачем в ветке про glibc ты приводишь код из glibc, и приводишь код не всех реализаций/оптимизаций?
Про твое "замечание" про чтение начальных нескольких невыровненных байт. Как эта O(1) операция повлияет на скорость, особенно при очень больших N?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #55 Ответы: #60

59. Сообщение от Аноним (59), 12-Июл-22, 16:47 –1 +/–

>Ты ещё исходники индусской 11 не видел
Кстати! Я, старый линуксовод (не помню XP, то есть перешёл до появления XP) недавно купил подержанный неттоп, а на нём обнаружилась 11-я винда. И, знаете ли, даже понравилось! Гламурненькая система. Только обновляется, сцуко, без спроса.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13 Ответы: #65

60. Сообщение от n00by (ok), 12-Июл-22, 17:13 +1 +/–

> Тогда зачем в ветке про glibc ты
> приводишь код из glibc,
В ответ на заявление "Как в glibc 🤗" я показал, что оно - ложно.
> и приводишь код не всех реализаций/оптимизаций?
Затем, что я различаю "необходимое" и "достаточное".
> Про твое "замечание" про чтение начальных нескольких невыровненных байт. Как эта O(1)
> операция повлияет на скорость, особенно при очень больших N?
Для тех, кто не понимает русский язык ("не работает"), не умеет ходить по ссылкам и не читает здесь сообщения, повторяю:
> I think you're missing the point. Loads at unaligned addresses may not
> be allowed by hardware using conventional load instructions or may be
> inefficient. Given that this memchr implementation is used as a fallback
> when no hardware-specific version is available, you should be
> conservative wrt. hardware capabilities and behavior. You should
> probably have a pre-alignment loop.
Exactly!
The initial code is broken, NAK.
> Вернемся к нашим скачущим баранам.
Возвращайтесь. Вы здесь задержались слишком.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #58 Ответы: #62

61. Сообщение от Аноним (61), 12-Июл-22, 17:23 +1 +/–

А зачем в новой реализации исходная строка/указатель двигается?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #64

62. Сообщение от Аноним (-), 12-Июл-22, 17:32 +/–

"как в glibc", было сказано на счет "позволяет за раз сравнивать как минимум 4 байта".
Во время тестирования strlen, я тоже чисто случайно ошибся и читал невыровненные слова. Так вот, этот ошибочный вариант работал чуть медленнее выровненного варианта, примерно также в 4 раза быстрее наивного побайтового.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #60 Ответы: #96

63. Сообщение от Аноним (63), 12-Июл-22, 17:32 +3 +/–

На изучай сколько угодно хоть вин2000 хоть нт4
magnet:?xt=urn:btih:66a26447f563c3dc2336de74ae37dc14d11dd8b9&dn=windows_nt_4_source_code.zip
magnet:?xt=urn:btih:82658c6baab65a855f804a534e55f64fbb2ec977&dn=Windows_2000_source_code.rar

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #46 Ответы: #66, #118

64. Сообщение от Аноним (63), 12-Июл-22, 17:34 –1 +/–

Имя автора северокорейского засланца прочитай и всё поймешь

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #61

65. Сообщение от Аноним (-), 12-Июл-22, 18:36 +1 +/–

В поддержанных неттопах Windows 7 есть, 11-я в новых.
>И, знаете ли, даже понравилось! Гламурненькая система.
Будь осторожен это начало признака деградации.
>Только обновляется, сцуко, без спроса.
Знаете ли вы, что Windows периодически делает скриншоты вашего Рабочего стола и отправляет их на непонятные сервера.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #59 Ответы: #85

66. Сообщение от Аноним (-), 12-Июл-22, 18:37 –1 +/–

Лютое не нужно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #63

67. Сообщение от pavlinux (ok), 12-Июл-22, 18:53 +/–

void *memchr(const void *p, int c, size_t length)
{
    u64 mask, val;
    const void *end = p + length;
    c &= 0xff;
    while ((long ) p & (sizeof(long) - 1)) {
        if (p >= end)
            return NULL;
        if (*(unsigned char *)p == c)
            return (void *) p;
        p++;
    }
    if (p <= end - 8) {
        mask = c;  /* <================= это нахуа? */
        MEMCHR_MASK_GEN(mask);
        for (; p <= end - 8; p += 8) {
            val = *(u64*)p ^ mask;
            if ((val + 0xfefefefefefefeffull) & (~val & 0x8080808080808080ull))
                break;
        }
    }
    for (; p < end; p++)
        if (*(unsigned char *)p == c)
            return (void *)p;
    return NULL;
}

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #86

68. Сообщение от pavlinux (ok), 12-Июл-22, 18:58 +/–

> ... так хоть бы списывать учились. http://fastcode.sourceforge.net/
Эти тоже в Стэнфорде спионерили:  © 1997-2005 Шон Эрон Андерсон  https://graphics.stanford.edu/~seander/bithacks.html

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #56

69. Сообщение от Онаним (?), 12-Июл-22, 19:11 +1 +/–

Ну, бОльшая часть ядра до последнего времени таки здравому смыслу соответствовала.
Последние веяния в виде иоурины, ёбпф и хруста - да, заставляют напрячься. Это то, что в монолит ну никак не вписывается, да.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #33 Ответы: #90

70. Сообщение от с22 (?), 12-Июл-22, 19:30 +1 +/–

В ядре не используются команды фпу, ссе и авх

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #72, #74, #82

71. Сообщение от Аноним (71), 12-Июл-22, 19:32 +1 +/–

Я уж испугался. Думал на расте переписали и уделали Си )

Ответить | Правка | Наверх | Cообщить модератору

72. Сообщение от Аноним (-), 12-Июл-22, 19:32 +1 +/–

glibc используется?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #70

73. Сообщение от иисус господь евреев (?), 12-Июл-22, 19:34 –1 +/–

спасибо за инфу! смысул этих инструкций и новых процев околонулевой. пожалуй , пока останусь ка на коре2дуо.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28 Ответы: #135

74. Сообщение от Аноним (-), 12-Июл-22, 19:43 +1 +/–

Первый найденный случайный файл
https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/lin...
Найди отсутствие AVX

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #70 Ответы: #93

75. Сообщение от qwe (??), 12-Июл-22, 20:02 +1 +/–

А я уж думал, что подобное давно оптимизировали. Интересно, а компиляторы хотя бы до такой наивной оптимизации доросли?
if (strlen(s) == 5) --> if (strnlen(s, 6) == 5)
Это не сильно актуально при малых строках строках, а при огромных - выигрыш существенен. Тем не менее второй вариант кода - большая редкость.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #100, #141

76. Сообщение от Атон (?), 12-Июл-22, 20:03 +1 +/–

Сколько раз в секунду ядро линукса ищет символ в массиве?   Чисто для понимания, насколько ускорится вся работа десктопа.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #78, #91, #98

77. Сообщение от Аноним (77), 12-Июл-22, 20:21 +/–

Fedora 36.
uname -a
Linux 5.18.10-200.fc36.x86_64 #1 SMP PREEMPT_DYNAMIC Thu Jul 7 17:21:38 UTC 2022 x86_64 x86_64 x86_64 GNU/Linux

Ответить | Правка | Наверх | Cообщить модератору

78. Сообщение от Аноним (-), 12-Июл-22, 20:28 +/–

В файловых системах должна часто использоваться. Например, для поиска (отсутствия) слешей.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #76 Ответы: #99, #109

79. Сообщение от Аноним (79), 12-Июл-22, 20:54 +/–

Оно оптимизировано. Просто надо ещё мест, где можно очереднус спектр запустить по сторонним каналам. Обращение за пределы выделенной памяти и прочие плюшки.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

80. Сообщение от _kp (ok), 12-Июл-22, 21:00 +/–

Хмм. А что интенсивный поиск в больших строках в ядре делает?
Ну, если экзотический драйвер, понятно, можно в сам драйвер поместить недостающее.
Но, это не должна быть массовая функция.
Но, видимо кто то хочет 0нанизм с поиском и интенсивным копированием в ядро переместить.

Ответить | Правка | Наверх | Cообщить модератору

81. Сообщение от achtosluchilos (ok), 12-Июл-22, 21:26 –1 +/–

>  On 32-bit hardware, choosing longword to be a 32-bit unsigned
>     long instead of a 64-bit uintmax_t tends to give better
>     performance.
ох уж эта сишка и ее проблемы с типами на разных архитектурах.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22 Ответы: #95, #97

82. Сообщение от 67332 (?), 12-Июл-22, 21:43 +/–

Еще как используются, всякие там хеш-функции и прочие подобные вещи в нескольких вариантах есть.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #70 Ответы: #94

83. Сообщение от кубрик (?), 12-Июл-22, 22:04 +/–

Да, растишке такое и не снилось.

Ответить | Правка | Наверх | Cообщить модератору

84. Сообщение от Тот_Самый_Анонимус (?), 12-Июл-22, 22:24 +/–

Переходи на армянский алфавит! Как не хочешь? У тебя синдром утёнка!!!! (Логика тех, кто использует это словосочетание).

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #53

85. Сообщение от Тот_Самый_Анонимус (?), 12-Июл-22, 22:25 +/–

>>И, знаете ли, даже понравилось! Гламурненькая система.
>Будь осторожен это начало признака деградации.
Это что-то со скрижалей фанатиков.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #65

86. Сообщение от Аноним (56), 12-Июл-22, 22:35 +/–

Ну наверное для MEMCHR_MASK_GEN

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #67

87. Сообщение от Аноним (42), 13-Июл-22, 01:32 +/–

> центр в районе 4х
Точно-точно центр? Судя по цифрам из топика - это теоретический край.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #41

88. Сообщение от Аноним (42), 13-Июл-22, 01:33 +1 +/–

> С какого потолка взял?
Перечитай сабж внимательно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43

89. Сообщение от Аноним (-), 13-Июл-22, 03:25 +/–

> Называется аппаратная предвыборка данных (prefetch).
Интересно, а как предвыборка может изменить тот факт что телепать по 1 байту за раз вместо 4 означает в 4 раза больше инструкций на это самое? Инструкции все моментально чтоли выполняются, такты не занимают? Без предвыборки вы еще и память бонусом к этому дофигища подождете. И там упоминабтся строки до 512 байтов, чтоли. Это наверное не настолько ужасно?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8 Ответы: #92

90. Сообщение от Аноним (-), 13-Июл-22, 03:28 +/–

Что за урина? Это uring чтоли так назвали? Оно может и брейнфак, но ОЧЕНЬ БЫСТРЫЙ брейнфак. И когда вы хотите всякие там 100Gig сеточки, сторажи типа оптана и проч - окей, но этот брейнфак быстрее обычных способов в разы! Поэтому с ним и канителятся.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #69

91. Сообщение от thhh (?), 13-Июл-22, 07:04 +/–

Логика в чем по твоему? Если каждое звено по отдельности не в носит существенного вклада в производительность всей системы, то оптимизировать ничего не нужно?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #76

92. Сообщение от n00by (ok), 13-Июл-22, 09:16 +1 +/–

> И там упоминабтся строки до 512 байтов, чтоли.
Для недочитавших моё сообщение повторяю цитату автора "for long strings". Большая строка - это не 512 байт. В современных реалиях это, должно быть, гигабайты. Разницу скорости чтения из кеша и ОЗУ ищите сами. Чувак копировал пояснения из копии Агнер Фога или Генри Уоррена и не усёк этот нюанс, ему простительно. ;)
> Интересно, а как предвыборка может изменить тот факт что телепать по 1
> байту за раз вместо 4 означает в 4 раза больше инструкций
> на это самое? Инструкции все моментально чтоли выполняются, такты не занимают?
А подготовительные операции мы не считаем, зачем это - вдруг разрушит нашу стройную гипотезу. И статистику по длине строк не собрали. Просто голословно посчитаем себя умнее автора существующей реализации через REP SCASB, но напишем про это не ему, а вот тут.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #89 Ответы: #105, #132

93. Сообщение от n00by (ok), 13-Июл-22, 09:33 +/–

> Первый найденный случайный файл
> https://git.kernel.org/pub/scm/linux/kernel/git/torvalds/lin...
> Найди отсутствие AVX
Нашёл баш-программиста ядра. Смотрим не Makefile, а первый найденный случайный код. Что бы это значило и зачем? ;)
    kernel_fpu_begin();
    crypto_aegis128_aesni_init(&state, ctx->key.bytes, req->iv);
    crypto_aegis128_aesni_process_ad(&state, req->src, req->assoclen);
    crypto_aegis128_aesni_process_crypt(&state, &walk, ops);
    crypto_aegis128_aesni_final(&state, tag_xor, req->assoclen, cryptlen);
    kernel_fpu_end();

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #74 Ответы: #102

94. Сообщение от n00by (ok), 13-Июл-22, 09:40 +/–

Посмотрите, _как_ оно во "всяких там" используется. Человек прав в принципе, но сформулировал некорректно. Не принято использовать. Криптопреобразования работают с данным достаточно больших объёмов и в специфичных случаях, потому имеет смысл озадачиться с сохранением контекста.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #82

95. Сообщение от Онаним (?), 13-Июл-22, 09:42 +1 +/–

Хрустик как-то спасёт тебя от разного размера регистров в проце?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #81

96. Сообщение от n00by (ok), 13-Июл-22, 09:44 +/–

> "как в glibc", было сказано на счет "позволяет за раз сравнивать как
> минимум 4 байта".
Ещё раз: в данном случае оно не сравнивает, оно даже прочитать память не может, в отличие от glibc.
> Во время тестирования strlen, я тоже чисто случайно ошибся и читал невыровненные
> слова. Так вот, этот ошибочный вариант работал чуть медленнее выровненного варианта,
> примерно также в 4 раза быстрее наивного побайтового.
"У меня на виртуалке работает!" (ц)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #62 Ответы: #101

97. Сообщение от n00by (ok), 13-Июл-22, 09:51 +1 +/–

Кстати, может ли Rust защитить от реальной проблемы предлагаемого "ускорения" - невозможность чтения двойных слов по невыровненым адресам на некотором железе?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #81 Ответы: #133

98. Сообщение от n00by (ok), 13-Июл-22, 10:05 +/–

Это просто чувак захотел стать знаменитым. Там стоит почитать ответы. Он как бы исправил исходную ошибку (код вообще нерабочий изначально), вот новое:
Have you had a chance to read how strscpy() is implemented? Do you understand why it's done that way?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #76 Ответы: #142

99. Сообщение от n00by (ok), 13-Июл-22, 10:09 +/–

Теперь прикиньте длину среднего имени файла и затраты на подготовку его быстрой функции (допустим, он в итоге всё-таки напишет рабочий вариант).

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #78 Ответы: #103

100. Сообщение от n00by (ok), 13-Июл-22, 10:33 +/–

> А я уж думал, что подобное давно оптимизировали.
Давно оптимизировали. Предлагаемый код пока вообще не работает.
> Интересно, а компиляторы хотя
> бы до такой наивной оптимизации доросли?
> if (strlen(s) == 5) --> if (strnlen(s, 6) == 5)
       -Wno-stringop-overread
           Warn for calls to string manipulation functions such as "memchr", or "strcpy" that are
           determined to read past the end of the source sequence.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #75 Ответы: #131

101. Сообщение от Аноним (-), 13-Июл-22, 10:37 +/–

> "У меня на виртуалке работает!" (ц)
У тебя вообще ничего не работает, и ты сидишь на оффтопе и рассуждаешь, что должно быть на линуксе.
Пиши memchr, можешь даже с префетчем и выравниванием по байтам, потом сказки рассказывай, что и где не работает.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #96 Ответы: #128

102. Сообщение от pavlinux (ok), 13-Июл-22, 10:39 +/–

> Что бы это значило и зачем? ;)
напечатай из ядра sin(M_PI/19)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #93 Ответы: #104, #125

103. Сообщение от Аноним (-), 13-Июл-22, 10:55 +/–

> затраты на подготовку его быстрой функции
Теоретик, ты даже не знаешь какие затраты. Насколько затраты больше, чем побайтовое чтение (невыравненного начала)?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #99 Ответы: #107

104. Сообщение от Аноним (-), 13-Июл-22, 11:08 +/–

> напечатай из ядра
"В ядре не используются команды" печати.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #102 Ответы: #120

105. Сообщение от Аноним (-), 13-Июл-22, 11:19 +/–

> REP SCASB
Насколько помню, этот вариант проиграл варианту на (условных) переходах.
Продолжай теоретизировать.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #92 Ответы: #106

106. Сообщение от n00by (ok), 13-Июл-22, 11:30 +/–

>> REP SCASB
> Насколько помню, этот вариант проиграл варианту на (условных) переходах.
Как бы не важно, кто и что там якобы помнит, когда вот код из реального мира:

#ifdef __HAVE_ARCH_MEMCHR
void *memchr(const void *cs, int c, size_t count)
{
    int d0;
    void *res;
    if (!count)
        return NULL;
    asm volatile("repne\n\t"
        "scasb\n\t"
        "je 1f\n\t"
        "movl $1,%0\n"
        "1:\tdecl %0"
        : "=D" (res), "=&c" (d0)
        : "a" (c), "0" (cs), "1" (count)
        : "memory");
    return res;
}
EXPORT_SYMBOL(memchr);
#endif
> Продолжай теоретизировать.
Гипотетически Аноним уделал разрабов ядра, а практически он сравнивает свой воображаемый мега-код с "ускорением в 4 раза", которое уже дважды отклонили, как нерабочее.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #105 Ответы: #108

107. Сообщение от n00by (ok), 13-Июл-22, 11:46 +/–

Конечно, не знаю. Пока есть два нерабочих варианта "быстрой функции", и один Анонимный эксперт, который замерял rep scasb для 1 байта на i80386, знать как бы и не о чем.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #103 Ответы: #110

108. Сообщение от Аноним (-), 13-Июл-22, 11:49 +/–

Это было сказано про мое сравнение реализаций strlen.
В ядре линукс мало кого интересует производительность, особенно мало используемых дублирующих функций.
Специально искал этот допотопный memscan?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #106 Ответы: #113

109. Сообщение от n00by (ok), 13-Июл-22, 11:53 +/–

> В файловых системах должна часто использоваться. Например, для поиска (отсутствия) слешей.
Если бы анонимный эксперт отвечал за свои слова, то поиск в тексте ext4 выдал бы ему следующее из fs/ext4/ioctl.c

    if (memchr_inv(head.fmh_reserved, 0, sizeof(head.fmh_reserved)) ||
        memchr_inv(head.fmh_keys[0].fmr_reserved, 0,
               sizeof(head.fmh_keys[0].fmr_reserved)) ||
        memchr_inv(head.fmh_keys[1].fmr_reserved, 0,
               sizeof(head.fmh_keys[1].fmr_reserved)))
        return -EINVAL;

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #78 Ответы: #112

110. Сообщение от Аноним (-), 13-Июл-22, 12:01 +/–

> rep scasb для 1 байта на i80386
Теоретик, как раз на нем REP SCASB или другие стрковые инструкции с префиксом REP могут быть и быстрее, в отличии от суперскалярных процессоров с внеочередным исполнением команд.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #107 Ответы: #124

111. Сообщение от pavlinux (ok), 13-Июл-22, 12:02 +/–

чот я не нашёл профита :)
# ./a.out
ARRAY SIZE: 1048576
LIB: 20754
NEW: 25628

#include <stdio.h>
#include <stdlib.h>
#include <linux/types.h>
#include <string.h>
#include <ctype.h>
#include <time.h>
#include <sys/time.h>
#define A_SZ 1024*1024
unsigned char str[A_SZ] = { '\0' };
long long tv = 0;
unsigned long long _rdtsc()
{
    union ts {
        unsigned long long tx;
        struct dword {
            long tl, th;
        } dw;
    } t;
    asm("rdtsc\n":"=a"(t.dw.tl), "=d"(t.dw.th));
    return t.tx;
}
void gen_array()
{
    int i, c;
    srand(time(NULL));
    for (i = 0; i < A_SZ;) {
        c = rand() % 255;
        if (!isprint(c))
            continue;
        str[i] = c;
        i++;
    }
    printf("ARRAY SIZE: %d\n", i);
}
#define MEMCHR_MASK_GEN(mask) (mask *= 0x0101010101010101ULL)
void *new_memchr(const void *p, int c, size_t length)
{
    __u64 mask, val;
    const void *end = p + length;
    c &= 0xff;
    /* write(1, "strchr\n", 7); */
    while ((long)p & (sizeof(long) - 1)) {
        if (p >= end)
            return NULL;
        if (*(unsigned char *)p == c)
            return (void *)p;
        p++;
    }
    if (p <= end - 8) {
        mask = c;
        MEMCHR_MASK_GEN(mask);
        for (; p <= end - 8; p += 8) {
            val = *(__u64 *) p ^ mask;
            if ((val + 0xfefefefefefefeffull) & (~val & 0x8080808080808080ull))
                break;
        }
    }
    for (; p < end; p++)
        if (*(unsigned char *)p == c)
            return (void *)p;
    return NULL;
}
int main()
{
    unsigned char ch;
    char *ret = NULL;
    int count = 0;
    gen_array();
    /* glibc */
    tv = _rdtsc();
    for (ch = 0x20; ch < 0x7E; ch++)
        ret = memchr(str, ch, A_SZ);
    printf("LIB: %lld\n", _rdtsc() - tv);
    /* new */
    tv = _rdtsc();
    for (ch = 0x20; ch < 0x7E; ch++)
        ret = new_memchr(str, ch, A_SZ);
    printf("NEW: %lld\n", _rdtsc() - tv);
    return (0);
}

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #114, #130

112. Сообщение от Аноним (-), 13-Июл-22, 12:05 +1 +/–

Спасибо, что отвечаешь за мои слова, а то было лень искать примеры.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #109 Ответы: #123

113. Сообщение от n00by (ok), 13-Июл-22, 12:06 +/–

> Это было сказано про мое сравнение реализаций strlen.
Нет никакого сравнения: ни цифр, ни подробностей о железе.
> В ядре линукс мало кого интересует производительность, особенно мало используемых дублирующих
> функций.
А на самом деле анонимный эксперт не осилил поискать __HAVE_ARCH_MEMCHR
> Специально искал этот допотопный memscan?
Да, специально искал и нашёл memchr. Тема же про memchr. ;)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #108 Ответы: #115

114. Сообщение от Аноним (-), 13-Июл-22, 12:12 +/–

Что с чем сравниваешь?
При чем тут ядро линукс?
> /* glibc */
Угадай с 3 раз, какая в glibc реализация memchr: побайтовая, пословная, sse, avx?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #111 Ответы: #116

115. Сообщение от Аноним (-), 13-Июл-22, 12:17 +/–

> __HAVE_ARCH_MEMCHR
производительностью которого заинтересовались и предлагают варианты.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #113 Ответы: #127

116. Сообщение от pavlinux (ok), 13-Июл-22, 12:26 +/–

> Угадай с 3 раз, какая в glibc реализация memchr: побайтовая, пословная, sse,
> avx?
Да пофиг, быстрее и всё.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #114 Ответы: #117

117. Сообщение от Аноним (-), 13-Июл-22, 12:30 +/–

Согласен, надо glibc запихать в ядро.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #116 Ответы: #119

118. Сообщение от commiethebeastie (ok), 13-Июл-22, 12:39 +/–

> На изучай сколько угодно хоть вин2000 хоть нт4
> magnet:?xt=urn:btih:66a26447f563c3dc2336de74ae37dc14d11dd8b9&dn=windows_nt_4_source_code.zip
> magnet:?xt=urn:btih:82658c6baab65a855f804a534e55f64fbb2ec977&dn=Windows_2000_source_code.rar
Гораздо новее есть исходники, windows server 2003 :)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #63

119. Сообщение от pavlinux (ok), 13-Июл-22, 12:44 +/–

> Согласен, надо glibc запихать в ядро.
)))
Не, просто поступил запрос на возможность впаять эту фичу в юзерспейс...
Чтоб не газифицировать лужи, быстрее бенч накидал.
В жлибсе вот эта юзается https://www.felixcloutier.com/x86/pcmpistri.html

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #117 Ответы: #121

120. Сообщение от pavlinux (ok), 13-Июл-22, 12:53 +/–

открой для себя printk
https://www.opennet.ru/man.shtml?topic=printk
" DESCRIPTION
Print a formatted message to the ..."

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #104 Ответы: #122

121. Сообщение от Аноним (-), 13-Июл-22, 12:53 +/–

> Не, просто поступил запрос на возможность впаять эту фичу в юзерспейс...
Облом, кто-то оказался шустрее.
В musl такая же пословная реализация memchr, вроде. Можешь сравнить.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #119

122. Сообщение от Аноним (122), 13-Июл-22, 12:59 +/–

Вот, чёрт.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #120

123. Сообщение от n00by (ok), 13-Июл-22, 13:29 +/–

Отвечаю. Вы, сударь, пустозвон:
* memchr_inv - Find an unmatching character in an area of memory.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #112 Ответы: #126

124. Сообщение от n00by (ok), 13-Июл-22, 13:34 +/–

Ну то есть цифр никаких так и нет, один трындёж.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #110

125. Сообщение от n00by (ok), 13-Июл-22, 13:45 +/–

>> Что бы это значило и зачем? ;)
> напечатай из ядра sin(M_PI/19)
Ну вывести 0.16459459028 как бы не проблема. Вопрос был к утверждавшим, что FPU можно и нужно.
The kernel's printf does not support %n. Floating point formats (%e, %f,
%g, %a) are also not recognized, for obvious reasons. Use of any
unsupported specifier or length qualifier results in a WARN and early
return from vsnprintf().

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #102

126. Сообщение от Аноним (-), 13-Июл-22, 13:46 +/–

> memchr_inv
кстати, оптимизированный, не побайтовый

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #123

127. Сообщение от n00by (ok), 13-Июл-22, 13:49 +/–

Пока нет никаких измерений производительности. С какой целью Вы упорно пишете чушь в ответ на мои сообщения? Вы ещё вчера хотели вернуться к своим баранам.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #115 Ответы: #144

128. Сообщение от n00by (ok), 13-Июл-22, 14:01 +/–

> Пиши memchr, можешь даже с префетчем и выравниванием по байтам, потом сказки
> рассказывай, что и где не работает.
Дублирую цитаты:
I think you're missing the point. Loads at unaligned addresses may not
be allowed by hardware using conventional load instructions or may be
inefficient. Given that this memchr implementation is used as a fallback
when no hardware-specific version is available, you should be
conservative wrt. hardware capabilities and behavior. You should
probably have a pre-alignment loop.
https://lkml.org/lkml/2022/7/11/1323
Exactly!
The initial code is broken, NAK.
https://lkml.org/lkml/2022/7/11/1329
Аноним публично назвал двух уважаемых разработчиков Линукс сказочниками. Надеюсь, ему хватит сил набраться смелости и принести этим людям извинения. Или хотя бы назваться - я не могу всех подряд анонимов презирать.
>> "У меня на виртуалке работает!" (ц)
> У тебя вообще ничего не работает, и ты сидишь на оффтопе и
> рассуждаешь, что должно быть на линуксе.
Кажется, я понял. Тут просто фанатика бомбануло, что я за него сорцы Линукса посмотрел, когда он не смог. Но это не оправдывает его хамство по отношению к другим.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #101 Ответы: #129

129. Сообщение от Аноним (-), 13-Июл-22, 14:07 +/–

Тем временем существует оптимизированный memchr_inv

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #128

130. Сообщение от n00by (ok), 13-Июл-22, 14:34 +1 +/–

> чот я не нашёл профита :)
> # ./a.out
> ARRAY SIZE: 1048576
> LIB: 20754
> NEW: 25628
Если чего ещё не нашли - они там "ускоряют" drivers/misc/lkdtm/heap.c
то есть вот это:

    if (memchr(val, 0xAB, 512) == NULL) {
        pr_info("Memory appears initialized (%x, no earlier values)\n", *val);
    } else {
        pr_err("FAIL: Slab was not initialized\n");
        pr_expected_config_param(CONFIG_INIT_ON_ALLOC_DEFAULT_ON, "init_on_alloc");
    }
...
    if (memchr(val, 0xAB, PAGE_SIZE) == NULL) {
        pr_info("Memory appears initialized (%x, no earlier values)\n", *val);
    } else {
        pr_err("FAIL: Slab was not initialized\n");
        pr_expected_config_param(CONFIG_INIT_ON_ALLOC_DEFAULT_ON, "init_on_alloc");
    }

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #111 Ответы: #146

131. Сообщение от qwe (??), 13-Июл-22, 15:26 +/–

>        -Wno-stringop-overread
>            Warn for calls to string manipulation functions such as "memchr", or "strcpy" that are
>            determined to read past the end of the source sequence.
И как сие работает? Сдается мне, что эта опция совсем не для этого. Я имею ввиду, что часто нет необходимости вычислять всю длину строки, и при сравнении длины строки с N можно дальше N+1 байта не ходить, что очень даже полезно в случае, если строка очень большая.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #100 Ответы: #138

132. Сообщение от Аноним (-), 13-Июл-22, 16:15 +/–

> Для недочитавших моё сообщение повторяю цитату автора "for long strings". Большая строка
> - это не 512 байт. В современных реалиях это, должно быть, гигабайты.
Я что-то не уверен что ядро в принципе таким оперирует. Там длинное это наверное PATH_MAX какой-нибудь. Хоть я и не смотрел какой там наихучший случай конечно.
> Разницу скорости чтения из кеша и ОЗУ ищите сами.
Спасибо, Капитан Очевидность.
> А подготовительные операции мы не считаем, зачем это - вдруг разрушит нашу
> стройную гипотезу.
Ну, э, подготовительные операции или нет, а по эн байтов за раз обычно эффективнее чем по одному.
> И статистику по длине строк не собрали. Просто голословно
> посчитаем себя умнее автора существующей реализации через REP SCASB,
Ммм а как сие на ARM и RISCV?
> но напишем про это не ему, а вот тут.
Ага. Усомнившись в некоторых аспектах спича. И автор наверное все же не полный рак и побенчил свое добро? И что там реально будет лучше - ну я не настолько хорошо все варианты микроархитектур x86 знаю чтобы рассуждать чего в каком случае лучше и для кого из подвидов.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #92 Ответы: #139

133. Сообщение от Аноним (-), 13-Июл-22, 16:20 –1 +/–

> Кстати, может ли Rust защитить от реальной проблемы предлагаемого "ускорения" - невозможность
> чтения двойных слов по невыровненым адресам на некотором железе?
А вот не факт. Скорее всего исключение от железки поймает в тыкву и не факт что сможет нормально обработать. Во всяком случае, ловить переполнение стека без MMU оно не умеет, а с MMU его даже рак хоть на асме поймает.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #97 Ответы: #137

134. Сообщение от Аноним (-), 13-Июл-22, 16:22 +/–

> Такого количества багов, костылей и рудиментов не было даже в ранней винде
> после перехода с мсдос
Это ты погорячился и просто не видел в Win3.x/9x их типа-кернелы - настолько раздристаное месиво что состояло из примерно трех не особо связанных между собой частей.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

135. Сообщение от Аноним (135), 13-Июл-22, 16:32 +/–

https://colfaxresearch.com/skl-avx512/

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #73 Ответы: #136

136. Сообщение от Аноним (135), 13-Июл-22, 16:33 +/–

Английского не знаю. Судя по тексту "Я" сайт перевёл хорошо если не отлично.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #135

137. Сообщение от n00by (ok), 13-Июл-22, 19:20 +/–

Интересно, можно ли нарушение alignment requirements поймать на этапе трансляции. Люди то увидели. А автор даже не знал.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #133

138. Сообщение от n00by (ok), 13-Июл-22, 19:40 +/–

Да, опция для другого. Задействованный механизм позволяет иногда оптимизировать чуть лучше:

$ cat test.c
#include <string.h>
int test(const char* s)
{
  return strlen(s) == 5;
}
int main()
{
  return test("12345");
}
$ gcc -o test.s test.c -S -O2
$ cat test.s
test:
    subq    $8, %rsp
    call    strlen@PLT
    cmpq    $5, %rax
    sete    %al
    addq    $8, %rsp
    movzbl    %al, %eax
    ret
main:
    movl    $1, %eax // strlen вообще не вызывается
    ret

В асм листинге вырезал нерелевантный текст.
То, что Вы предлагаете - это не наивная оптимизация. Подсчёт кол-ва символов в строке помещает всю строку в кеш. Если её длина больше 5 - может именно это программисту и надо?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #131 Ответы: #140

139. Сообщение от n00by (ok), 13-Июл-22, 20:05 +/–

>> Для недочитавших моё сообщение повторяю цитату автора "for long strings". Большая строка
>> - это не 512 байт. В современных реалиях это, должно быть, гигабайты.
> Я что-то не уверен что ядро в принципе таким оперирует.
Разумеется, не оперирует. Но автор написал long. Вспоминаем определение кеш-памяти - это маленькая быстрая память. Значит не попадает в кеш.
> Там длинное
> это наверное PATH_MAX какой-нибудь. Хоть я и не смотрел какой там
> наихучший случай конечно.
Там ускоряют drivers/misc/lkdtm/heap.c
то есть вот это:
    if (memchr(val, 0xAB, 512) == NULL) {
        pr_info("Memory appears initialized (%x, no earlier values)\n", *val);
    } else {
        pr_err("FAIL: Slab was not initialized\n");
        pr_expected_config_param(CONFIG_INIT_ON_ALLOC_DEFAULT_ON, "init_on_alloc");
    }
...
    if (memchr(val, 0xAB, PAGE_SIZE) == NULL) {
        pr_info("Memory appears initialized (%x, no earlier values)\n", *val);
    } else {
        pr_err("FAIL: Slab was not initialized\n");
        pr_expected_config_param(CONFIG_INIT_ON_ALLOC_DEFAULT_ON, "init_on_alloc");
    }
>> Разницу скорости чтения из кеша и ОЗУ ищите сами.
> Спасибо, Капитан Очевидность.
>> А подготовительные операции мы не считаем, зачем это - вдруг разрушит нашу
>> стройную гипотезу.
> Ну, э, подготовительные операции или нет, а по эн байтов за раз
> обычно эффективнее чем по одному.
На одном байте особенно эффективно будет, ага.
Assembly/Compiler Coding Rule 5. (MH impact, MH generality) Selectively inline a function if
doing so decreases code size or if the function is small and the call site is frequently executed.
Assembly/Compiler Coding Rule 8. (ML impact, ML generality) Favor inlining small functions that
contain branches with poor prediction rates. If a branch misprediction results in a RETURN being
prematurely predicted as taken, a performance penalty may be incurred.
>> И статистику по длине строк не собрали. Просто голословно
>> посчитаем себя умнее автора существующей реализации через REP SCASB,
> Ммм а как сие на ARM и RISCV?
$ grep -R "e __HAVE_ARCH_MEMCHR" *
arch/powerpc/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/s390/include/asm/string.h:#define __HAVE_ARCH_MEMCHR    /* inline & arch function */
arch/arm/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/alpha/include/asm/string.h:#define __HAVE_ARCH_MEMCHR
arch/x86/include/asm/string_32.h:#define __HAVE_ARCH_MEMCHR
arch/arm64/include/asm/string.h:#define __HAVE_ARCH_MEMCHRuProf
arch/sh/include/asm/string_32.h:#define __HAVE_ARCH_MEMCHR
>> но напишем про это не ему, а вот тут.
> Ага. Усомнившись в некоторых аспектах спича. И автор наверное все же не
> полный рак и побенчил свое добро? И что там реально будет
> лучше - ну я не настолько хорошо все варианты микроархитектур x86
> знаю чтобы рассуждать чего в каком случае лучше и для кого
> из подвидов.
Как бы он это сделал? Вот реально, без синтетики. С тех пор как AMD CodeAnalyst превратился в uProf, не понятно, как симулировать исполнение и посмотреть что там сколько занимает в тактах.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #132

140. Сообщение от qwe (??), 13-Июл-22, 20:38 +/–

Чуть лучше, только если строка - это константа. Что же касается строки
strlen(s) == 5
То тут довольно очевидно что именно программисту нужно. По крайней мере когда результат выполнения strlen никуда не сохраняется.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #138 Ответы: #149

141. Сообщение от Аноним (141), 13-Июл-22, 20:59 +/–

По мне, слишком редкая операция - сравнение длины строки с заранее известной константой, чтобы тратить ресурсы на оптимизацию.
Если уж прям надо часто работать с длиной строки, то лучше использовать паскалевские-, с++- строки с длиной.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #75

142. Сообщение от Атон (?), 13-Июл-22, 21:36 +1 +/–

> Это просто чувак захотел стать знаменитым. Там стоит почитать ответы. Он как
> бы исправил исходную ошибку (код вообще нерабочий изначально), вот новое:
20 лет никто не замечал что код не работает. этим не рабочим кодом никто не пользовался. теперь им никто не будет пользоваться до 20% быстрее.
ну, ок.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #98 Ответы: #151, #163

143. Сообщение от Непростое кино (?), 13-Июл-22, 22:38 +/–

Я посмотрел код, непонятная магия сравнения байта со словом, если кто может, объясните плиз методу.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #145, #152

144. Сообщение от ммнюмнюмус (?), 13-Июл-22, 22:46 +/–

Может, он и там тупил, ну они его и того?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #127

145. Сообщение от pavlinux (ok), 13-Июл-22, 23:48 +3 +/–

Вот тут почитай: https://graphics.stanford.edu/~seander/bithacks.html#ValueIn...
пункт "Determine if a word has a zero byte" и за ним "Determine if a word has a byte equal to n"

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #143

146. Сообщение от pavlinux (ok), 14-Июл-22, 00:17 +/–

> ... они там "ускоряют"
printk выкинули бы, вот это был бы профит )))

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #130 Ответы: #150

147. Сообщение от ммнюмнюмус (?), 14-Июл-22, 15:17 +/–

А что правда не так с avx-512? Я то наоборот стараюсь использовать векторизацию, вот только железа, поддерживающего что-то выше SSE так и не опробовал (у меня максимум SSE-4.3). Так что тут я слегка профан, и был бы рад пофиксить ещё немного пробелов в знаниях.
Что в нём не так - неоптимальная реализация работы с 512-битными векторами или бессмыссленность такого подхода из за неизбежных узких мест? Насколько я заметил, самая частая ошибка при векторизации - это разложить по вектору элементы некоей сложной обработки вместо того, а не сами группы (на уровне которых линейность таки прослеживается).

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #28 Ответы: #148, #156, #157

148. Сообщение от n00by (ok), 14-Июл-22, 17:18 +/–

Когда контекст исполнения (поток) переключается, регистры процессора надо сохранять. Операция не мгновенная, требует место в ОЗУ и может марать кеш. Было 16 штук 32-х байтных регистров (256 бит), стало вдвое больше и в количестве, и по размеру. Помножьте 2К на 1000 потоков. Интел выиграла в каком-то тесте, а система в целом просела, да ещё и ядро надо допилить.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #147

149. Сообщение от n00by (ok), 14-Июл-22, 17:28 +/–

Мне не очевидно, даже не знаю, когда такое может потребоваться и почему в реальной задаче нельзя проверить s[5].

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #140 Ответы: #153

150. Сообщение от n00by (ok), 14-Июл-22, 17:38 +/–

Я вообще в шоке.))) А если партия даст миллиону китайцев задание отправить такие ускорения?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #146

151. Сообщение от n00by (ok), 14-Июл-22, 17:40 +/–

Пишу же - там читайте ответы. Исходная - в смысле в предлагаемом "ускорении" была ошибка и оно не собиралось даже на каких-то архитектурах. Потом была вторая попытка. Его вежливо спросили, понимает ли он вообще, что пишет. Вроде бы автор уже скис.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #142

152. Сообщение от n00by (ok), 14-Июл-22, 17:53 +/–

На русском есть книга Генри С. Уоррен мл. "Алгоритмические трюки для программистов", см главу "поиск в слове".

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #143

153. Сообщение от qwe (??), 14-Июл-22, 18:43 +/–

> Мне не очевидно, даже не знаю, когда такое может потребоваться и почему
> в реальной задаче нельзя проверить s[5].
Что если длина строки 2 а память, где хранится строка, перед этим была обнулена? А что если проверяемая длина лежит за границей выделенного блока памяти? Вы точно знаете как именно организованы строки в Си?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #149 Ответы: #154

154. Сообщение от n00by (ok), 15-Июл-22, 06:33 +/–

>> Мне не очевидно, даже не знаю, когда такое может потребоваться и почему
>> в реальной задаче нельзя проверить s[5].
> Что если длина строки 2 а память, где хранится строка, перед этим
> была обнулена?
Вот поэтому и пишу "в реальной задаче". Могу придумать гипотетическую задачу, где надо как-то сгруппировать строки по длине. В таком случае эти нули окажутся проверены на предыдущих шагах.
> А что если проверяемая длина лежит за границей выделенного
> блока памяти?
Это частный случай вышеуказанного. В том числе и если по виртуальному адресу нет физической памяти.
> Вы точно знаете как именно организованы строки в Си?
Как считает целесообразным для решения задачи программист, так и организует. Если часто нужна длина, она не вычисляется каждый раз, а хранится отдельно. На практике, если программа более-менее серьёзно работает с текстом, strlen оказывается в каких-то вспомогательных местах, если вообще есть.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #153 Ответы: #155

155. Сообщение от qwe (??), 15-Июл-22, 13:16 +1 +/–

Я спрашиваю про конкретную оптимизацию при использовании конкретной функции из стандартной библиотеки, вы же отвечаете непонятно на что, затем придумываете гипотетические задачи, в которых эта функция не используется вовсе. Если я вызываю strlen(s), то это означает, что мне неизвестна длина строки (внешние данные), а если я вызываю strnlen(s, 6), это означает что мне не нужна точная длина строки, я лишь хочу убедится, что ее длина больше 5.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #154 Ответы: #160

156. Сообщение от Онаним (?), 15-Июл-22, 22:11 +/–

Не так в нём то, что оно превращает в кипятильник весь камень, и частоты падают на всём кипятильнике, а не на конкретном ядре.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #147

157. Сообщение от Онаним (?), 15-Июл-22, 22:11 +/–

(и это не так из эксплуатационного)
Ещё с ним не так то, что разные процы поддерживают разные несовместимые субсеты оного...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #147

158. Сообщение от Аноним (158), 16-Июл-22, 02:09 +/–

Сразу видно человека не разбирающегося в теме

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #10

159. Сообщение от Конь Антон (?), 16-Июл-22, 06:08 +/–

Это некрофилия а не классика
Тупой ты баран.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #49

160. Сообщение от n00by (ok), 16-Июл-22, 07:17 +/–

> Я спрашиваю про конкретную оптимизацию при использовании конкретной функции из стандартной
> библиотеки, вы же отвечаете непонятно на что,
А я увидел человека, кто не может сгенерировать ассемблерный листинг и изучить его.
> затем придумываете гипотетические задачи,
> в которых эта функция не используется вовсе.
Потому что реальную задачу Вы не показали.
> Если я вызываю strlen(s),
> то это означает, что мне неизвестна длина строки (внешние данные), а
Вот именно. На практике для каждой такой строки определяется её длина. Если требуется эффективно находить строки длиной 5 - их длина оказывается уже посчитана при проверке входных данных.

> если я вызываю strnlen(s, 6), это означает что мне не нужна
> точная длина строки, я лишь хочу убедится, что ее длина больше
> 5.
В №75 написано: if (strlen(s) == 5) --> if (strnlen(s, 6) == 5)
Изначально Вы искали строки длиной равной 5 и интересовались, способен ли транслятор заменить вызов стандартной функции на функцию, о которой он ничего не знает.
Вы, наверное, удивитесь, но:
1. в стандарте есть только strnlen_s (определена ли она по умолчанию - implementation defined);
2. исходники популярной программы GNU bash содержат файл bash/lib/sh/strnlen.c с реализацией strnlen.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #155 Ответы: #161

161. Сообщение от qwe (??), 16-Июл-22, 12:31 +1 +/–

> А я увидел человека, кто не может сгенерировать ассемблерный листинг и изучить
> его.
А если человек сгенерировал, изучил, но вам не доложил, как вы его отличите от того, кто не смог? Так вот, если вашей функции test выше скормить программно заполненный массив символов, то в asm листинге таки будет виден вызов strlen. Сюрприз? Мне почему-то показалось, что доказывать это нет необходимости. Мне не нужен вызов strlen("12345"), ибо чтобы узнать результат этого вызова компьютер не нужен. Я спрашивал о strlen(s), где s - это переменная, а не константа, зашитая в коде. Но не напрягайтесь, сейчас мне ваш ответ не нужен, только не после демонстрации вами вашей логики.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #160 Ответы: #162

162. Сообщение от n00by (ok), 16-Июл-22, 13:18 +/–

>> А я увидел человека, кто не может сгенерировать ассемблерный листинг и изучить
>> его.
> А если человек сгенерировал, изучил, но вам не доложил, как вы его
> отличите от того, кто не смог?
Очень просто - априори я верю человеку на слово. Если он пишет "Интересно, а компиляторы хотя бы до такой наивной оптимизации доросли?" - значит ему действительно интересно узнать.
> Так вот, если вашей функции
> test выше скормить программно заполненный массив символов, то в asm листинге
> таки будет виден вызов strlen. Сюрприз? Мне почему-то показалось, что доказывать
> это нет необходимости.
Действительно, сюрприз. В том листинге, что я привёл, в test() есть вызов strlen. Но в main() нет вызова test(). Я полагал, что нет смысла объяснять очевидные вещи.
> Мне не нужен вызов strlen("12345"), ибо чтобы узнать
> результат этого вызова компьютер не нужен. Я спрашивал о strlen(s), где
> s - это переменная, а не константа, зашитая в коде. Но
> не напрягайтесь, сейчас мне ваш ответ не нужен, только не после
> демонстрации вами вашей логики.
Я и не напрягаюсь. Спрашивающий настрочил 4 ответа, но затруднился показать реальный пример со (strlen(s) == 5) - значит он такое никогда не писал. А раз даже он не писал, то и оптимизировать нет смысла.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #161

163. Сообщение от Аноним (163), 16-Июл-22, 14:06 +/–

>20 лет никто не замечал что код не работает
Вся суть линукса в одной фразе

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #142 Ответы: #164

164. Сообщение от n00by (ok), 16-Июл-22, 14:39 +/–

>>20 лет никто не замечал что код не работает
> Вся суть линукса в одной фразе
Вся суть анонимных экспертов. Код не видели, ничего не поняли, но уже что-то мнят.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #163

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. Сообщение от Аноним (1), 12-Июл-22, 09:26	+6 +/–
Я думал и так уже оптимизировали все что можно для 64бит
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #8, #9, #12, #17, #79

2. Сообщение от pashev.ru (?), 12-Июл-22, 09:29	+/–
> Вместо байтов сравнение осуществляется с использованием машинных слов, что позволяет за раз сравнивать как минимум 4 байта. Как в glibc 🤗
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #4, #22

3. Сообщение от pashev.ru (?), 12-Июл-22, 09:31	–3 +/–
> Общий прирост производительности подсистем ядра при использовании оптимизированного варианта "memchr()" пока не оценивался, как не анализировалась и целесообразность замены реализации (в коде ядра вызов функции memchr() встречается 129 раз, в том числе См. абсолютное и относительное улучшение — https://pashev.ru/nnt
Ответить \| Правка \| Наверх \| Cообщить модератору

4. Сообщение от Аноним (-), 12-Июл-22, 09:39	+/–
Там разве не sse и avx(512) с "до 64 байтами" за раз?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2 Ответы: #28, #30, #70

5. Сообщение от Аноним (5), 12-Июл-22, 09:39	–19 +/–
Такого количества багов, костылей и рудиментов не было даже в ранней винде после перехода с мсдос
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #6, #11, #13, #46, #134

6. Сообщение от Аноним (6), 12-Июл-22, 10:05	–1 +/–
а что ты хотел, 31 год идёт ядру, его ещё причёсывают хотя бы хоть как-то
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5 Ответы: #51

8. Сообщение от n00by (ok), 12-Июл-22, 10:06	–7 +/–
Оно и оптимизировано уже более 10 лет. Называется аппаратная предвыборка данных (prefetch). Почему заявивший "The optimized "memchr()" is nearly 4x faster than the original one for long strings" не знает, что на больших блоках узким местом является скорость чтения из памяти - это другой вопрос.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #10, #29, #48, #89

9. Сообщение от _hide_ (ok), 12-Июл-22, 10:08	+/–
Тут, курица или яйцо. Работает медленно -- ищем решение без поиска в лоб, не используем поиск в лоб -- нет оптимизации и работает медленно. Так микрооптимизации очень нужны, если они хорошо поддерживаются.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1

10. Сообщение от _hide_ (ok), 12-Июл-22, 10:11	+6 +/–
Вы немного ошибаетесь. Никакие prefetch и прочие не избавят числодробилку от побайтового перебора. Ну да, память надо прочитать и загнать в кэш, но никто не говорит, что ядро стало работать в 4 раза быстрее, просто -1 узкий момент.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #8 Ответы: #14, #158

11. Сообщение от n00by (ok), 12-Июл-22, 10:12	+1 +/–
Ну да, в то время люди задавались вопросом "какие такие строки, как часто и зачем надо сравнивать в ядре".
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5

12. Сообщение от Аноним (12), 12-Июл-22, 10:12	+/–
Наоборот всегда было главное единообразие чтобы обеспечить переносимость. Наоптимизировать под конкретное железо это к другим проприетарным производителям.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #45

13. Сообщение от КО (?), 12-Июл-22, 10:14	+3 +/–
Ты ещё исходники индусской 11 не видел.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5 Ответы: #24, #59

14. Сообщение от n00by (ok), 12-Июл-22, 10:24	–1 +/–
А ещё я немного смотрю, чего оно там числодробит: nl = memchr(line, '\n', end - buffer);
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #10

16. Сообщение от Бывалый смузихлёб (?), 12-Июл-22, 10:43	+/–
> Вместо байтов сравнение осуществляется с использованием машинных слов, > что позволяет за раз сравнивать как минимум 4 байта. Очень интересно, и каким же образом это делается с учётом что ожидается некоторая универсальность для разных архитектур
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #18, #20, #23, #47

17. Сообщение от Ананас (?), 12-Июл-22, 10:54	+2 +/–
Раздуто, а не оптимизированно
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #19, #42

18. Сообщение от Аноним (12), 12-Июл-22, 10:54	+2 +/–
Он ифдефов конечно же напихал. Но ничего хорошего в этом нет имхо. >> if defined(CONFIG_ARCH_HAS_FAST_MULTIPLIER) && BITS_PER_LONG == 64
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #16

19. Сообщение от Аноним (12), 12-Июл-22, 10:55	+2 +/–
Было бы оптимизировано, то не получилось бы сделать раздуто. Было бы супермеганеподдерживаемораздуто.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #17

20. Сообщение от n00by (ok), 12-Июл-22, 10:58	+1 +/–
Способ назван "сломаным" > I think you're missing the point. Loads at unaligned addresses may not > be allowed by hardware using conventional load instructions or may be > inefficient. Given that this memchr implementation is used as a fallback > when no hardware-specific version is available, you should be > conservative wrt. hardware capabilities and behavior. You should > probably have a pre-alignment loop. Exactly! The initial code is broken, NAK. P.S. At least you may look into strscpy() implementation to get a clue. https://lkml.org/lkml/2022/7/11/1329
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #16

21. Сообщение от n00by (ok), 12-Июл-22, 11:11	+/–
Осталось понять, что он там оптимизировал: $ grep -R "e __HAVE_ARCH_MEMCHR" * arch/powerpc/include/asm/string.h:#define __HAVE_ARCH_MEMCHR arch/s390/include/asm/string.h:#define __HAVE_ARCH_MEMCHR /* inline & arch function */ arch/arm/include/asm/string.h:#define __HAVE_ARCH_MEMCHR arch/alpha/include/asm/string.h:#define __HAVE_ARCH_MEMCHR arch/x86/include/asm/string_32.h:#define __HAVE_ARCH_MEMCHR arch/arm64/include/asm/string.h:#define __HAVE_ARCH_MEMCHR arch/sh/include/asm/string_32.h:#define __HAVE_ARCH_MEMCHR
Ответить \| Правка \| Наверх \| Cообщить модератору

22. Сообщение от n00by (ok), 12-Июл-22, 11:22	–1 +/–
Специально скопирую сюда из /glibc/string/memchr.c что бы люди могли почитать комментарии к коду и сделать выводы. /* Search no more than N bytes of S for C. / void MEMCHR (void const s, int c_in, size_t n) { / On 32-bit hardware, choosing longword to be a 32-bit unsigned long instead of a 64-bit uintmax_t tends to give better performance. On 64-bit hardware, unsigned long is generally 64 bits already. Change this typedef to experiment with performance. / typedef unsigned long int longword; const unsigned char char_ptr; const longword longword_ptr; longword repeated_one; longword repeated_c; unsigned char c; c = (unsigned char) c_in; / Handle the first few bytes by reading one byte at a time. Do this until CHAR_PTR is aligned on a longword boundary. / for (char_ptr = (const unsigned char ) s; n > 0 && (size_t) char_ptr % sizeof (longword) != 0; --n, ++char_ptr) if (char_ptr == c) return (void ) char_ptr; longword_ptr = (const longword ) char_ptr; / All these elucidatory comments refer to 4-byte longwords, but the theory applies equally well to any size longwords. / / Compute auxiliary longword values: repeated_one is a value which has a 1 in every byte. repeated_c has c in every byte. / repeated_one = 0x01010101; repeated_c = c \| (c << 8); repeated_c \|= repeated_c << 16; if (0xffffffffU < (longword) -1) { repeated_one \|= repeated_one << 31 << 1; repeated_c \|= repeated_c << 31 << 1; if (8 < sizeof (longword)) { size_t i; for (i = 64; i < sizeof (longword) 8; i = 2) { repeated_one \|= repeated_one << i; repeated_c \|= repeated_c << i; } } } / Instead of the traditional loop which tests each byte, we will test a longword at a time. The tricky part is testing if any of the four bytes in the longword in question are equal to c. We first use an xor with repeated_c. This reduces the task to testing whether any of the four bytes in longword1 is zero. We compute tmp = ((longword1 - repeated_one) & ~longword1) & (repeated_one << 7). That is, we perform the following operations: 1. Subtract repeated_one. 2. & ~longword1. 3. & a mask consisting of 0x80 in every byte. Consider what happens in each byte: - If a byte of longword1 is zero, step 1 and 2 transform it into 0xff, and step 3 transforms it into 0x80. A carry can also be propagated to more significant bytes. - If a byte of longword1 is nonzero, let its lowest 1 bit be at position k (0 <= k <= 7); so the lowest k bits are 0. After step 1, the byte ends in a single bit of value 0 and k bits of value 1. After step 2, the result is just k bits of value 1: 2^k - 1. After step 3, the result is 0. And no carry is produced. So, if longword1 has only non-zero bytes, tmp is zero. Whereas if longword1 has a zero byte, call j the position of the least significant zero byte. Then the result has a zero at positions 0, ..., j-1 and a 0x80 at position j. We cannot predict the result at the more significant bytes (positions j+1..3), but it does not matter since we already have a non-zero bit at position 8j+7. So, the test whether any byte in longword1 is zero is equivalent to testing whether tmp is nonzero. / while (n >= sizeof (longword)) { longword longword1 = longword_ptr ^ repeated_c; if ((((longword1 - repeated_one) & ~longword1) & (repeated_one << 7)) != 0) break; longword_ptr++; n -= sizeof (longword); } char_ptr = (const unsigned char ) longword_ptr; /* At this point, we know that either n < sizeof (longword), or one of the sizeof (longword) bytes starting at char_ptr is == c. On little-endian machines, we could determine the first such byte without any further memory accesses, just by looking at the tmp result from the last loop iteration. But this does not work on big-endian machines. Choose code that works in both cases. / for (; n > 0; --n, ++char_ptr) { if (char_ptr == c) return (void *) char_ptr; } return NULL; }
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2 Ответы: #26, #81

23. Сообщение от Sw00p aka Jerom (?), 12-Июл-22, 11:59	+/–
>Очень интересно, и каким же образом это делается параллельный аппаратный компоратор, хотя тут есть один момент для строк вида, abac, aaaa и т. д. если ишем a.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #16

24. Сообщение от Аноним (5), 12-Июл-22, 12:08	–11 +/–
Я нормальный линукс десктоп не видел... хотя бы на уровне XP
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #13 Ответы: #25

25. Сообщение от commiethebeastie (ok), 12-Июл-22, 12:13	+3 +/–
Ага, мы уже все видел тулчейн в исходниках XP, можешь не продолжать, вот где костыли так костыли.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #24 Ответы: #27

26. Сообщение от Аноним (-), 12-Июл-22, 12:25	+/–
Покажи ещё sysdeps/x86_64/multiarch/memrchr-evex.S https://sourceware.org/git?p=glibc.git;a=blob;f=sysdeps/x86_...
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #22 Ответы: #36

27. Сообщение от Аноним (5), 12-Июл-22, 12:47	+2 +/–
Плохому линуксоиду виндоус мешает
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #25 Ответы: #34, #44

28. Сообщение от Онаним (?), 12-Июл-22, 12:50	+1 +/–
avx(512) в здравом уме в ядре использовать никто не будет, потому что на интелах оно имеет риск проложить производительность всей числодробилки, а не только одного ядра. "Linus Torvalds: I hope Intel's AVX-512 'dies a painful death'" Ядро поддерживает софт, работающий с AVX512, но это на жуткого любителя.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4 Ответы: #33, #73, #147

29. Сообщение от Аноним (-), 12-Июл-22, 12:51	+2 +/–
Когда-то давно сравнивал свою реализацию strlen (это почти memchr, только чуть другой) Побайтовый наивный алгоритм проиграл по скорости около 4 раз 8-байтовому. Еще написал не совсем правильный sse-алгоритм, он еще в 1.5-2 раза быстрее. Это к разговору про скорость подсистемы памяти.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #8 Ответы: #35

30. Сообщение от Онаним (?), 12-Июл-22, 12:51	+/–
А так да, скорее всего оптимизации касаются как раз SSE(2) и AVX(2) - но честно скажу, не смотрел.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4 Ответы: #31

31. Сообщение от Онаним (?), 12-Июл-22, 12:52	+1 +/–
В принципе и даже на стандартных регистрах можно через поиск нуля после вычитания, но изврат тот ещё.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #30 Ответы: #32

32. Сообщение от Онаним (?), 12-Июл-22, 12:54	+/–
В принципе даже просто выровненный забор и 4-8 сравнений на стандартных регистрах должны дать хороший прирост, если там до этого оно побайтово делалось.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #31