forum.opennet.ru

"Отказаться от UTF-8"

Форум Открытые системы на сервере
Версия для распечатки	Пред. тема \| След. тема

Исходное сообщение

[ Отслеживать ]

Подсказка: Доступны два режима работы форума: "Раскрыть нити" и "Свернуть нити".

. "Отказаться от UTF-8: memcpy()"	+2 +/–
Сообщение от Sergey Maslennikov (ok), 23-Авг-17, 17:04
> Посмотрите memcpy(). Неправильно я ответил. Смысл посмотреть на memcpy() есть, если предположить, что кто-то решился бы копировать внутри программ однобайтно-кодированную кириллицу. В этом случае копирование произошло бы примерно в 1.75 раза быстрее, чем копирование того же текста в UTF-8 [1]. Функция memcpy() может быть по разному реализована, но в реализациях, которые я видел, ожидаемое время копирования должно быть пропорционально размеру копируемых данных. В UTF-8 текст в 1.75 раза длиннее, чем в KOI8-R -- вот и копирует memcpy() его во столько же раз дольше. Это же соотношение можно получить экспериментально [2]. Возможно, я не уловил суть или цель совета использовать memcpy() при оптимизации путём выбора кодировки. Ссылки / сноски: [1] -- если копировать тот же текст, что упомянут в исходном посте; [2] Экспериментальная программка -- обёртка, которую я собираюсь изредка применять для тестирования функций ICU. Здесь в качестве примера тестируемой функции я вставил memcpy(): #include <stdio.h> #include <stdlib.h> #include <time.h> #include <string.h> #include <unicode/utypes.h> #include <unicode/ucnv.h> long delta_t(struct timespec start, struct timespec end) { time_t sec; long nsec; if ((end->tv_nsec-start->tv_nsec)<0) { sec = end->tv_sec-start->tv_sec-1; nsec = 1000000000+end->tv_nsec-start->tv_nsec; } else { sec = end->tv_sec-start->tv_sec; nsec = end->tv_nsec-start->tv_nsec; } return sec * 1000000000l + nsec; } int main() { const char fnm_initial[] = "../../anna-karenina"; FILE fini = fopen(fnm_initial, "r"); if (fini == NULL) { fprintf(stderr, "Can't open initial file.\n"); return -1; } fseek(fini, 0L, SEEK_END); unsigned long len = ftell(fini), size = len + 1ul; fseek(fini, 0L, SEEK_SET); printf("Allocate %lu bytes to copy file \"%s\" ... ", size, fnm_initial); fflush(stdout); char text_koi8 = malloc(size); if (text_koi8 == NULL) { fclose(fini); fprintf(stderr, "Can't allocate memory for \"text_koi8\".\n"); return -2; } printf("Done.\n"); fflush(stdout); /* Allocated / if(fread(text_koi8, 1ul, len, fini) != len) { free(text_koi8); fclose(fini); fprintf(stderr, "Can't read file \"%s\" into the buffer.\n", fnm_initial); return -3; } fclose(fini); text_koi8[len] = '\x0'; UErrorCode uerr = U_ZERO_ERROR; / Here it is the example of the UTF-8 buffer exact size evaluation. It is however faster to allocate 2 * len + 1ul long buffer instaed and shrink it, after converting, by realloc() to the value returned by ucnv_convert(). / unsigned long size_u8 = ucnv_convert("UTF-8", "KOI8-R", NULL, 0ul, text_koi8, size, &uerr); if( uerr != U_BUFFER_OVERFLOW_ERROR && uerr != U_STRING_NOT_TERMINATED_WARNING && U_FAILURE(uerr) ) { free(text_koi8); fclose(fini); fprintf(stderr, "Can't evaluate UTF-8 text buffer size.\n"); return -4; } printf("UTF-8 text buffer size = %lu bytes.\n", size_u8); char text_utf8 = malloc(size_u8); if( text_koi8 == NULL ) { free(text_koi8); fclose(fini); fprintf(stderr, "Can't allocate memory for text_utf8.\n"); return -5; } uerr = U_ZERO_ERROR; ucnv_convert("UTF-8", "KOI8-R", text_utf8, size_u8, text_koi8, size, &uerr); if( U_FAILURE(uerr) ) { free(text_utf8); free(text_koi8); fclose(fini); fprintf(stderr, "Error converting KOI8-R text into UTF-8 text.\n"); return -6; } /* At this point we have two buffers with the same text in koi8-r and utf-8. / / Prepare for measurements / char text_koi8_a = malloc(size); if( text_koi8_a == NULL ) { free(text_utf8); free(text_koi8); fclose(fini); fprintf(stderr, " Can't allocate memory for \"text_koi8_a\".\n"); return -7; } char text_utf8_a = malloc(size_u8); if( text_utf8_a == NULL ) { free(text_koi8_a); free(text_utf8); free(text_koi8); fclose(fini); fprintf(stderr, "Can't allocate memory for \"text_utf8_a\".\n"); return -8; } / Buffers to copy into are ready here. / unsigned long i; struct timespec t0, t1; long Dt_call, Dt_koi8, Dt_utf8, Dt_koi8_total = 0ul, Dt_utf8_total = 0ul; double Dt_utf8_to_Dt_koi8; for(i = 0; i < 220ul; i++) { printf("------------- i = %lu -------------\n", i); / Estimation of time for the function call itself (with copying negligibly small amount of data -- 1 byte) / clock_gettime(CLOCK_MONOTONIC, &t0); memcpy(text_koi8_a, text_koi8, 1ul); clock_gettime(CLOCK_MONOTONIC, &t1); Dt_call = delta_t(&t0, &t1); / (in nanoseconds) / printf("Dt_call = %ld ns\n", Dt_call); / Test for koi8-r / clock_gettime(CLOCK_MONOTONIC, &t0); memcpy(text_koi8_a, text_koi8, size); clock_gettime(CLOCK_MONOTONIC, &t1); Dt_koi8 = delta_t(&t0, &t1) - Dt_call; printf("Dt_koi8 = %ld ns\n", Dt_koi8); fflush(stdout); / Test for utf-8 / clock_gettime(CLOCK_MONOTONIC, &t0); memcpy(text_utf8_a, text_utf8, size_u8); clock_gettime(CLOCK_MONOTONIC, &t1); Dt_utf8 = delta_t(&t0, &t1) - Dt_call; if (i > 9ul) { / Skip first 10 experiments (wait for stabilization) */ Dt_koi8_total += Dt_koi8; Dt_utf8_total += Dt_utf8; } printf("Dt_utf8 = %ld ns\n", Dt_utf8); Dt_utf8_to_Dt_koi8 = (double)Dt_utf8 / (double)Dt_koi8; printf("Dt_utf8 / Dt_koi8 = %.5g\n", Dt_utf8_to_Dt_koi8); fflush(stdout); } puts("==================================="); printf("Dt_koi8_total = %ld ns\nDt_utf8_total = %ld ns\n" "Dt_utf8_total / Dt_koi8_total = %.5g\n", Dt_koi8_total, Dt_utf8_total, (double)Dt_utf8_total / (double)Dt_koi8_total); printf("len_u8 / len = %.5g\n", (double)(size_u8 - 1ul) / (double)len ); free(text_utf8_a); free(text_koi8_a); free(text_utf8); free(text_koi8); return 0; }
Ответить \| Правка \| Наверх \| Cообщить модератору

Оглавление

Отказаться от UTF-8, Sergey Maslennikov, 06-Авг-17, 16:51 [смотреть все]

Приведенное вами условие распаковка - надуманно, высосано из пальца и взято с , ыы, 07-Авг-17, 02:19 (1) //
- А понимаешь, если не паковать, то ответ тривиален В случае русского языка UTF-8, Sergey Maslennikov, 07-Авг-17, 07:50 (2) //
  - тогда в чем проблема, если знаете что под Unicode кодировку выделяются 2 байта и, eRIC, 07-Авг-17, 08:49 (3) //
    - Не помогает Под кириллическую букву И вот если выделенное вместе с запихнутым, Sergey Maslennikov, 07-Авг-17, 18:17 (13)
  - Современность это UTF-8 Переданный файл при наличии шрифтов правильно отобразит, ПавелС, 07-Авг-17, 10:25 (4) //
    - А экзабайты им депутата Яровой , Andrey Mitrofanov, 07-Авг-17, 13:21 (6)
      - Сформированы данными не имеющими к описанной проблеме отношения , ыы, 07-Авг-17, 13:43 (7)
      - А вот тут тогда вступает закон - а где это смогут прочитать Без перекодировщико, Anonimus, 07-Авг-17, 13:46 (8)
    - Ну, мы им инструкцию в регион зашлём На utf-8 напишем, чтоб поняли уже наконец , Sergey Maslennikov, 07-Авг-17, 17:15 (9)
      - У вас там никто задачу сформулировать не может если бы, да кабы , да быстрее , Andrey Mitrofanov, 07-Авг-17, 17:36 (10)
        
        300 АК не хотите Исходное сообщение читали , Sergey Maslennikov, 07-Авг-17, 17:43 (11)
        
        Архиватор выбирается по качелям сжатие время Ну, кому, мож, и керосин экономи, Andrey Mitrofanov, 07-Авг-17, 19:08 (15)
        
        xz был у меня на лаптопе Ну, я внёс свои две копейки Могу ещё добавить, что рас, Sergey Maslennikov, 09-Авг-17, 12:51 (52)
    - Согласен с вами Кириллический текст UTF-8 не отобразится, если в шрифте кирилли, Sergey Maslennikov, 08-Авг-17, 08:40 (20)
      - gt оверквотинг удален Смутные сомнения терзают меня Вот вам строгое доказатель, ыы, 08-Авг-17, 09:49 (21)
        
        А что, если бы я в четвёртом классе учился, вы не стали бы со мной разговаривать, Sergey Maslennikov, 08-Авг-17, 10:30 (22)
        
        Ладно, рассказывай в каком классе на каком курсе учишься, по какой специальн, Andrey Mitrofanov, 08-Авг-17, 11:15 (23)
        
        Нет Завидую предположению о моём классе 4-м или 5-м Мне кажется, что эти товар, Sergey Maslennikov, 08-Авг-17, 15:36 (26)
        Да, верно , Sergey Maslennikov, 08-Авг-17, 15:41 (27)
        
        Ваш вопрос - бестолковый Очевидно же что преобразование многобайтной кодировки , ыы, 08-Авг-17, 11:33 (24)
        
        m многобайт r m одинбайт rВы, конечно, можете считать меня сволочью и недоу, Sergey Maslennikov, 08-Авг-17, 17:00 (28)
        
        m многобайт r m одинбайт r, ыы, 08-Авг-17, 17:31 (30)
        
        Я имел в виду, что английские буквы, запятые, пробелы и знаки всякие в многобайт, Sergey Maslennikov, 08-Авг-17, 17:37 (32)
        
        Нетm многобайт r m одинбайт r Уясните наконец как выглядит текст в многобайт, ыы, 08-Авг-17, 18:29 (36)
        
        The first 128 characters of Unicode, which correspond one-to-one with ASCII, are, Sergey Maslennikov, 08-Авг-17, 18:39 (37)
        Откройте Notepadнапечатайте букву a английскую сохраните как utf-8снова сохрани, ыы, 08-Авг-17, 18:57 (38)
        Ой , Sergey Maslennikov, 08-Авг-17, 19:03 (39)
        Этот ваш Notepad, видимо, что-то специальное для программистов У нас-то, просты, Sergey Maslennikov, 09-Авг-17, 09:10 (40)
        Это ваши проблемы Не мои на 1 байт естественно А вы ожидали чегото еще Сомне, ыы, 09-Авг-17, 10:20 (41)
        Ну, тогда в любой кодировке байтовость одинаковая Или как , Sergey Maslennikov, 09-Авг-17, 10:26 (42)
        Интересная мысль Без указания BOM - и при наличии только английских букв - вам, ыы, 09-Авг-17, 11:04 (44)
        Очень просто The first 128 characters of Unicode, which correspond one-to-one wi, Sergey Maslennikov, 09-Авг-17, 11:10 (45)
        Человеку у которого ASCII она же UTF-8 и наоборот - сам черт не брат , ыы, 09-Авг-17, 12:51 (51)
        Согласен Это он эту UTF-8 придумал , Sergey Maslennikov, 09-Авг-17, 12:55 (54)
        Здается мне, что вы оба не рограммисты BOM - это Byte Order Mask Вы бы хоть ин, Аноним, 11-Авг-17, 08:09 (72)
        Правильно ПОЭТОМУ говорить что у вас UTF-8 имея только английские буквы - нельз, ыы, 11-Авг-17, 09:25 (74)
        Имеется ввиду многобайтные буквы , ыы, 11-Авг-17, 09:35 (75)
        Извините, но Вы написали глупость полнейшую Во-первых задача не требует этого д, Аноним, 11-Авг-17, 09:39 (76)
        Требует m многобайт r m одинбайт r Нет Пока вы не прочитали файлы- вы этого, ыы, 11-Авг-17, 09:52 (78)
        Вы даже не понимаете какую чушь Вы несете Если Вы возьмете файл в WINDOWS-1251 , Аноним, 11-Авг-17, 10:01 (79)
        А вы попробуйте , ыы, 11-Авг-17, 10:09 (80)
        А вот от ответа уходить не надо Отвечайте за свои слова Станет или не станет , Аноним, 11-Авг-17, 10:15 (81)
        А я не ухожу Вы попробуйте прежде чем болтать ерунду , ыы, 11-Авг-17, 10:27 (82)
        Вы глубоко невежественны в предмете разговора Извините Ответ с точки зрения ПО , ыы, 11-Авг-17, 10:33 (84)
        gt оверквотинг удален То есть человек, утверждающий что я Я хаха гов, ыы, 11-Авг-17, 10:38 (85)
        Не позорьтесь Вернитесь к вопросу и спокойно ответьте без Ваших мантр станет WI, Аноним, 11-Авг-17, 10:59 (86)
        Разве спокойно и вежливо объяснять невежественному человеку его заблуждения- это, ыы, 11-Авг-17, 11:14 (87)
        Троль -это тот, кто на простые вопросы не отвечает На ваш ответ Вы вопрос пол, Аноним, 11-Авг-17, 11:28 (89)
        Вот мой ответ http www opennet ru openforum vsluhforumID1 96963 html 84 Отв, ыы, 11-Авг-17, 11:34 (90)
        Вы что, в пятом классе учитесь, какая у ПО может быть точка зрения , Аноним, 11-Авг-17, 11:42 (91)
        Когда вы подрастете, и возможно все таки окончите школу, и возможно сможете пост, ыы, 11-Авг-17, 11:53 (92)
        Какого глагола форм Уверен, что вы их не знаете, как не знаете о чем пишете и н, Аноним, 11-Авг-17, 12:06 (93)
        А вот такой вот роезультат - CODE File usr lib64 python2 7 encodings , Andrey Mitrofanov, 11-Авг-17, 11:17 (88)
        И вот, кстати, заметьте, Notepad оказался не моей проблемой , Sergey Maslennikov, 09-Авг-17, 11:41 (47)
        Вы просто не поняли сути проблемы , ыы, 09-Авг-17, 12:51 (53)
        Во, об этом и была она, но мне нужна была референсная нитка о том Тред - памят, Andrey Mitrofanov, 09-Авг-17, 10:32 (43)
        Ну, а чего, пусть сходят, посмотрят Вам, вот, интересно же , Sergey Maslennikov, 09-Авг-17, 11:26 (46)
        Про памятник, всё-таки, вы со зла В организации, где я работаю, есть небольшая , Sergey Maslennikov, 09-Авг-17, 20:51 (56)
        gt оверквотинг удален Шел 2017 год В космосе летала вторая китайская космичес, ыы, 10-Авг-17, 07:40 (58)
        Снова начали Но, всё-таки, раньше боролись за КОИ, а теперь за вопрос Его и з, Sergey Maslennikov, 10-Авг-17, 08:04 (59)
        
        Мама дорогая, это ж какое-то просто безумие , Anonymoustus, 03-Окт-17, 05:31 (101)
  - UTF-8 придумана не для того чтобы обеспечить максимально быстрое исполнение или , ыы, 07-Авг-17, 13:05 (5) //
    - А что, люди ни этого ли хотят На размер запакованного файла выбор кодировки влия, Sergey Maslennikov, 07-Авг-17, 17:50 (12)
      - представьте себе Люди -хотят как правило работать поменьше и получать побольш, ыы, 07-Авг-17, 19:12 (16)
        
        Верно, но людей больше, чем программистов , Sergey Maslennikov, 08-Авг-17, 17:31 (31)
        
        Вы хотели сказать, программисты не люди , Andrey Mitrofanov, 08-Авг-17, 17:44 (33)
        
        N_людей-непрограммистов N_людей-программистов N_людей-программистовN_людей-, Sergey Maslennikov, 08-Авг-17, 17:51 (34)
        Программистам нужно, чтобы они кому-нибудь были нужны Ну, т е , им пришлось бы , Sergey Maslennikov, 08-Авг-17, 17:57 (35)
      - Оптимальная по каким параметрам Желаю, чтобы всем ц ШариковПППреждеврем, Andrey Mitrofanov, 07-Авг-17, 19:14 (17)
        
        По времени обработки , Sergey Maslennikov, 09-Авг-17, 12:30 (49)
        
        Посмотрите memcpy , Andrey Mitrofanov, 09-Авг-17, 12:46 (50)
        
        А зачем -- она не имеет отношения к разбору текста, только куски целиком копиру, Sergey Maslennikov, 09-Авг-17, 13:06 (55)
        Неправильно я ответил Смысл посмотреть на memcpy есть, если предположить, что , Sergey Maslennikov, 23-Авг-17, 17:04 (95)
Кодировка UTF-8 придумана вовсе не для оптимального хранения текстов, а для одно, XAnder, 07-Авг-17, 19:05 (14) //
- Тогда уж -- в нашу вечность Европейские языки проблема почти не затрагивает , Sergey Maslennikov, 09-Авг-17, 12:27 (48) //
  - Не-не-не Дело тут не в языках, и не в кодировках Собака зарыта уровнем глубже , XAnder, 10-Авг-17, 13:12 (60) //
    - Qubit-ы , Sergey Maslennikov, 10-Авг-17, 13:34 (61)
    - Да, компьютеры на третичной логике похоронили не заговор ли это , ыы, 10-Авг-17, 13:36 (62)
      - Я, вообще-то, про байты, а не про биты , XAnder, 10-Авг-17, 14:14 (63)
        
        А, тогда Qubit-ы, видимо, тоже, не то, что вы чуете Но байт -- это просто степен, Sergey Maslennikov, 10-Авг-17, 14:20 (64)
    - Ну, вот - докатились уже с языками высокого уровня до того, что ОСНОВЫ народ не , asphinx, 10-Авг-17, 15:35 (65)
      - Эх, пойду уроки делать, а то предки заругаютЪ почти без шуток Как бы донести, XAnder, 10-Авг-17, 17:46 (66)
        
        Вот тут мне http apenwarr ca log m 201708 10 тоже очень понравилось , Andrey Mitrofanov, 10-Авг-17, 17:55 (67)
        
        Шикарно излагает В интересном мире мы живём, однако layers are only ever added,, XAnder, 10-Авг-17, 18:28 (69)
        
        gt оверквотинг удален А на заре вычислительной техники - байт то собственно и , ыы, 10-Авг-17, 18:10 (68)
        Я немного абзацы местами переставлю - ничего skip В таких условиях люди беру, asphinx, 10-Авг-17, 23:14 (70)
        
        Вы не поверите Там он и был изначально Потом, правда, заменили на Си, потому ч, XAnder, 11-Авг-17, 07:37 (71)
        
        Да отчего ж не поверю - поверю Глядя на то, какой сейчас код получается на том , asphinx, 11-Авг-17, 09:44 (77)
        
        Забавник За успехи компиляторов ещё в 77ом году Бэкусу Тьюринговскую премию да, Andrey Mitrofanov, 11-Авг-17, 10:28 (83)
        
        Системное низкоуровневое программирование на фортране Под IBM PC XT в 1990-91, asphinx, 11-Авг-17, 14:36 (94)
        
        4 77 же 124 I Раньше были времена, А теперь мгновения Понимался раньше, Andrey Mitrofanov, 11-Авг-17, 09:18 (73)
А у тебя точно все-все французские символы которые Лев Николаевич впендюрил в э, Led, 07-Авг-17, 23:34 (18) //
- АК был с Мошковской библиотеки Там с текстом всё нормально -- французских букв , Sergey Maslennikov, 08-Авг-17, 08:19 (19) //
  - алгоритм в котором участвует абстрактная 1-байтная кодировка и абстрактная же 4-, ыы, 08-Авг-17, 14:17 (25) //
    - Что такое абстрактная кодировка Ну, или -- реальная Или, чем они друг от друга, Sergey Maslennikov, 08-Авг-17, 17:19 (29)
Да Возможен Геморрой, связанный с зоопарком кодировок, эффективных для сжатия , DeadLoco, 10-Авг-17, 04:37 (57) //
- Ну, вы уж слишком категоричны Тред, всё-таки, в теме Оптимизация и тюнинг , т , Sergey Maslennikov, 23-Авг-17, 17:31 (96) //
  - Когда я был маленький и еб ый, я тоже думал, что каждая моя мысль революционн, pavlinux, 24-Авг-17, 01:57 (97) //
    - В смысле, кириллица станет такой же нужной, как DVD-диски , Anonimous, 24-Авг-17, 08:01 (98)
      - В смысле, что писать в программе тип short int, если оно всё равно в процессоре , pavlinux, 08-Окт-17, 02:36 (104)
    - code dump 124 tar 124 splitcat 124 tar 124 restore code , DeadLoco, 24-Авг-17, 23:38 (99)
      - Не, RAID с HotSwap купили Пара дисков укатывают в сейф, пара работают , pavlinux, 26-Авг-17, 04:04 (100)
        
        Это называется решилось Да вы под веществами , ., 03-Окт-17, 05:59 (102)
        
        Да, бэкап есть и стабилен Какими способами, никого ни е т Есть много други, pavlinux, 08-Окт-17, 02:27 (103)

Форумы | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру