forum.opennet.ru

Составление сообщения

Исходное сообщение

"Шрифты, разработанные для офисного пакета МойОфис, опубликов..."
Отправлено Ordu, 22-Дек-16 23:24

Однобайтовые кодировки -- убожество. Они еле-еле справляются два алфавита в себя вместить. Когда же вдруг я скачиваю с ютуба видяшку, у которой в заглавии иероглифы, то... oh shit... Или может быть эта видяшка озаглавлена на немецком, испанском или ещё каком языке, который использует какие-нибудь странные буквы, которых нет в koi8-r?
Это не проблема с utf-8. Ну, точнее это может создавать проблем: с такими файлами трудно из командной строки работать, потому что я не умею на клавиатуре иероглифы набирать. Но в консольке можно скопипастить. А для тех, кто работает с гуёвым файлменагером это вообще не проблема.
И именно поэтому, когда я узрел возможность мигрировать на utf-8 с убогой koi8-r, я сделал это моментально.
> И соответственно программы жрут памяти в 2 раза больше чем нужно.
Гы. Лол. Кто тебе сказал? Грамотно написанные программы вне зависимости от локали используют многобайтовые кодировки для внутреннего представления строк. И если у тебя локаль однобайтовая, то они всё равно перекодируют текст, читая его из файла, в многобайтовую кодировку. На всякий случай. Скажем, на примере браузера: с одного сайта он читает cp1251, с другого koi8-r, а третий в какой-то там кодировке, и весь набит греческими буковками... Как можно единообразно работать со всеми этими веб-страничками? Единственный способ -- использовать внутри программы многобайтовое представление текста. И, я полагаю, веб-браузеры делают именно так. Текстовые редакторы делают так -- может не все, но, например, emacs совершенно точно. И, кстати, тебе не захочется работать с текстовым редактором, который так не делает, потому что у него будут серьёзные проблемы с работой с текстами, прочитанными из файлов с разными кодировками.
Короче: расход памяти практически не изменится от перехода на utf-8, потому что внутренняя кодировка приложений и кодировка локали -- это разные вещи. Изменится объём места, который тексты занимают на диске. Но тут опять же всё очень любопытно. Много ли у тебя на диске текстовых файлов содержащих кириллицу? Именно текстовых -- не .odt, а .txt. Я подозреваю, что очень мало. И если что и лежит, то лежит в более интересных форматах, типа .odt, .fb2 и проч. Но ты заглядывал в спецификацию .odt? Я нет, но я практически уверен в том, что там вся кириллица хранится в utf8, вне зависимости от выбранной тобою локали. Но огорчаться рано: содержимое таких файликов как правило пожато всякими там zip'ами, и таким образом их объём оказывается практически независимым от того, какая кодировка выбрана для символов.
Таким образом, даже расход места на диске практически не изменится. И если ты из-за мнимой экономии памяти страдаешь от использования однобайтовых кодировок, то... Ну, в общем, можешь прекращать.

Исходное сообщение
"Шрифты, разработанные для офисного пакета МойОфис, опубликов..." Отправлено Ordu, 22-Дек-16 23:24
Однобайтовые кодировки -- убожество. Они еле-еле справляются два алфавита в себя вместить. Когда же вдруг я скачиваю с ютуба видяшку, у которой в заглавии иероглифы, то... oh shit... Или может быть эта видяшка озаглавлена на немецком, испанском или ещё каком языке, который использует какие-нибудь странные буквы, которых нет в koi8-r? Это не проблема с utf-8. Ну, точнее это может создавать проблем: с такими файлами трудно из командной строки работать, потому что я не умею на клавиатуре иероглифы набирать. Но в консольке можно скопипастить. А для тех, кто работает с гуёвым файлменагером это вообще не проблема. И именно поэтому, когда я узрел возможность мигрировать на utf-8 с убогой koi8-r, я сделал это моментально. > И соответственно программы жрут памяти в 2 раза больше чем нужно. Гы. Лол. Кто тебе сказал? Грамотно написанные программы вне зависимости от локали используют многобайтовые кодировки для внутреннего представления строк. И если у тебя локаль однобайтовая, то они всё равно перекодируют текст, читая его из файла, в многобайтовую кодировку. На всякий случай. Скажем, на примере браузера: с одного сайта он читает cp1251, с другого koi8-r, а третий в какой-то там кодировке, и весь набит греческими буковками... Как можно единообразно работать со всеми этими веб-страничками? Единственный способ -- использовать внутри программы многобайтовое представление текста. И, я полагаю, веб-браузеры делают именно так. Текстовые редакторы делают так -- может не все, но, например, emacs совершенно точно. И, кстати, тебе не захочется работать с текстовым редактором, который так не делает, потому что у него будут серьёзные проблемы с работой с текстами, прочитанными из файлов с разными кодировками. Короче: расход памяти практически не изменится от перехода на utf-8, потому что внутренняя кодировка приложений и кодировка локали -- это разные вещи. Изменится объём места, который тексты занимают на диске. Но тут опять же всё очень любопытно. Много ли у тебя на диске текстовых файлов содержащих кириллицу? Именно текстовых -- не .odt, а .txt. Я подозреваю, что очень мало. И если что и лежит, то лежит в более интересных форматах, типа .odt, .fb2 и проч. Но ты заглядывал в спецификацию .odt? Я нет, но я практически уверен в том, что там вся кириллица хранится в utf8, вне зависимости от выбранной тобою локали. Но огорчаться рано: содержимое таких файликов как правило пожато всякими там zip'ами, и таким образом их объём оказывается практически независимым от того, какая кодировка выбрана для символов. Таким образом, даже расход места на диске практически не изменится. И если ты из-за мнимой экономии памяти страдаешь от использования однобайтовых кодировок, то... Ну, в общем, можешь прекращать.

Ваше сообщение

Имя*:

EMail:

Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email).
Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.

Заголовок*:

Сообщение*:

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру