The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]



Вариант для распечатки  
Пред. тема | След. тема 
Форум Открытые системы на сервере (Оптимизация и тюнинг)
Режим отображения отдельной подветви беседы [ Отслеживать ]

Оглавление

Отказаться от UTF-8, Sergey Maslennikov (ok), 06-Авг-17, (0) [смотреть все] +4

Сообщения [Сортировка по времени | RSS]


19. "Отказаться от UTF-8"  +1 +/
Сообщение от Sergey Maslennikov (ok), 08-Авг-17, 08:19 
> А у тебя точно все-все французские символы (которые Лев Николаевич впендюрил в
> эту книженцию) в твоёй кои8 правльно сохранились? А в "Войне и
> мире"?

АК был с Мошковской библиотеки. Там с текстом всё нормально -- французских букв нет.  Вот так там, например, в Войне и мире: "Еh bien, mon prince. G#234;nes et Lucques ne sont plus que des apanages, des поместья, de la famille Buonaparte.  Non, je  vous pr#233;viens..."

В целом же, да, вкрапления английских букв и всяких "nbsp;" в тестах нежелательны, т. к. они уменьшают время обработки UTF-8, изменяя результат в её пользу. Т. е., в тестах на кириллице без вкраплений проигрыш UTF-8 оказался бы больше.

Переделывать я всё равно не буду. Правильный тест должен проверять алгоритм, а не собранную программу. Пусть эти тесты сделает тот, кто в этом шарит и мог бы провести их минимальными усилиями. В идеале -- докажет:
существует оптимальный алгоритм преобр. <1-байтная кодировка> -> <универсальное 4-байтное представление> и обратно; существует оптимальный алгоритм преобр. <UTF-8> -> <универсальное 4-байтное представление> и обратно; сравнит их сложности. Ну, или, хотя бы, экспериментальную базу увеличит.

Ответить | Правка | Наверх | Cообщить модератору

25. "Отказаться от UTF-8"  +/
Сообщение от ыы (?), 08-Авг-17, 14:17 
> В идеале -- докажет:
> существует оптимальный алгоритм преобр. <1-байтная кодировка> -> <универсальное 4-байтное
> представление> и обратно; существует оптимальный алгоритм преобр. <UTF-8> -> <универсальное
> 4-байтное представление> и обратно; сравнит их сложности. Ну, или, хотя бы,
> экспериментальную базу увеличит.

алгоритм в котором участвует абстрактная 1-байтная кодировка и абстрактная же 4-байтная кодировка? могу нарисовать. Легко :)

для реальных 1-байтных кодировок и реальных  4-байтных - оптимальный алгоритм будет разным.
это же элементарно. если бы вы поинтересовались как устроены кодировки - вы бы это надеюсь поняли.

Ответить | Правка | Наверх | Cообщить модератору

29. "Отказаться от UTF-8"  +1 +/
Сообщение от Sergey Maslennikov (ok), 08-Авг-17, 17:19 
> ... абстрактная 1-байтная кодировка и ...
> реальных ... кодировок

Что такое абстрактная кодировка? Ну, или -- реальная? Или, чем они друг от друга отличаются?

Ответить | Правка | Наверх | Cообщить модератору

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема




Партнёры:
PostgresPro
Inferno Solutions
Hosting by Hoster.ru
Хостинг:

Закладки на сайте
Проследить за страницей
Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру