forum.opennet.ru

Составление сообщения

Исходное сообщение

"Научные журналы на пути к требованию сопровождать все публик..."
Отправлено Аноним, 23-Апр-12 05:46

> Я пробовал и эти в том числе на своих данных. Скорость там
> в ущерб сжатию - что толку что они прокачивают сотни мегабайт
> в секунду если неспособны их сжать хотя бы еще на 10%.
Да, они ловят только откровенную рыхлость данных. В принципе может помочь какой-то тривиальный препроцессинг, типа дельта кодировария между сэмплами и/или расщепление разрядов отсчетов, так что хотя сами отсчеты не совпадают, после препроцессинга рыхлость сильно возрастет и простой лемпел-зив на ура скостит обнаруженную избыточность. Но это от природы данных зависит. В этом плане умные парни обитают в районе compression.ru - они могут дельно подсказать.

> После того как я сделал предварительное сжатие - отбросив незначащие биты,
> плюс примитивная дельта по кадрам, ни один из доступных под линукс
> алгоритмов не дал более 20% сжатия.
То что с камер обычно валится - имеет некий шум и прочая, что делает такой материалец не подарком для обычных lossless алгоритмов сжатия. Им надо точные совпадения, а с этим получается небогато. Однако есть ряд трюков с препроцессингом. При том ряд методов препроцессинга прост и быстр а результат куда удобнее для LZ-образных чем сразу влобешник с "датчика" с кучей шума.
> Что, в принципе, неудивительно: изображения динамичные и шумные - без потерь
> хорошо не сжать. А чтобы хранить разумное время разумное количество данных
> требуется сжатие хотя бы в несколько раз.
Может быть, вас устроят какие-то lossy данные или специфичные штуки типа huffYUV, ориентированные на нечто подобное? Особенно если после постпроцессинга.
> Просто у каждого своя специфика, кому то обязательно хранить огроменные массивы данных,
> кому-то после обработки они уже не нужны.
А тут имхо есть риск нарваться на ситуацию когда осознаешь что обработка была кривая, а пересчитать уже опаньки - исходного материала то нет. Впрочем вам наверное виднее.
> Ну, например, какие нибудь спецы по крипто могут генерировать сумасшедшие
> по размерам таблицы нужные всего один раз.
Ой, вон в торентах радужные таблицы на десятки и сотни гигз есть. Они нужны не 1 человеку и не 1 раз. А некоторые особо шустрые не только понасчитали но и продают даже.
> Или там результаты по молекулярной динамике - сохранил всю
> симуляцию, обработал и все, дальше саму симуляцию хранить без толку.
А что будет если обнаружится что в обработке был баг?
> Хотя спор по большому счету ни о чем - речь, как оказалось,
> все-таки идет про предоставление доступа к использованным сырцам, а не к
> обрабатываемым данным программами из этих сырцов.
Ну да, сами данные по идее те кто воспроизводить эксперименты будут и сами добыть смогут.
> В этом плане все выглядит гораздо разумней, речь пойдет в среднем про
> несколько мегабайт.
В современном мире нет никаких проблем раздать кусок в 100Гб данных толпе в 1000 человек, если уж такая задача есть. При том не требуется ни супер-серверов, ни архидорогих датацентров.
> Правда, непонятно, что делать с проприетарным софтом типа Comsol.
По уму - закaпывать. Потому что бред это собачий, когда бабло побеждает здравый смысл в ущерб всему остальному. Когда вы получаете выводы прогнав некие данные через некий черный ящик делающий "хзчто, но мамой клянусь что там все замечательно" - достоверность таких результатов под большим вопросом. В силу невозможности полноценной верификации: все упирается в неизвестность содержимого черного ящика и насколько он реально делал именно то что заявлено.

Исходное сообщение
"Научные журналы на пути к требованию сопровождать все публик..." Отправлено Аноним, 23-Апр-12 05:46
> Я пробовал и эти в том числе на своих данных. Скорость там > в ущерб сжатию - что толку что они прокачивают сотни мегабайт > в секунду если неспособны их сжать хотя бы еще на 10%. Да, они ловят только откровенную рыхлость данных. В принципе может помочь какой-то тривиальный препроцессинг, типа дельта кодировария между сэмплами и/или расщепление разрядов отсчетов, так что хотя сами отсчеты не совпадают, после препроцессинга рыхлость сильно возрастет и простой лемпел-зив на ура скостит обнаруженную избыточность. Но это от природы данных зависит. В этом плане умные парни обитают в районе compression.ru - они могут дельно подсказать. > После того как я сделал предварительное сжатие - отбросив незначащие биты, > плюс примитивная дельта по кадрам, ни один из доступных под линукс > алгоритмов не дал более 20% сжатия. То что с камер обычно валится - имеет некий шум и прочая, что делает такой материалец не подарком для обычных lossless алгоритмов сжатия. Им надо точные совпадения, а с этим получается небогато. Однако есть ряд трюков с препроцессингом. При том ряд методов препроцессинга прост и быстр а результат куда удобнее для LZ-образных чем сразу влобешник с "датчика" с кучей шума. > Что, в принципе, неудивительно: изображения динамичные и шумные - без потерь > хорошо не сжать. А чтобы хранить разумное время разумное количество данных > требуется сжатие хотя бы в несколько раз. Может быть, вас устроят какие-то lossy данные или специфичные штуки типа huffYUV, ориентированные на нечто подобное? Особенно если после постпроцессинга. > Просто у каждого своя специфика, кому то обязательно хранить огроменные массивы данных, > кому-то после обработки они уже не нужны. А тут имхо есть риск нарваться на ситуацию когда осознаешь что обработка была кривая, а пересчитать уже опаньки - исходного материала то нет. Впрочем вам наверное виднее. > Ну, например, какие нибудь спецы по крипто могут генерировать сумасшедшие > по размерам таблицы нужные всего один раз. Ой, вон в торентах радужные таблицы на десятки и сотни гигз есть. Они нужны не 1 человеку и не 1 раз. А некоторые особо шустрые не только понасчитали но и продают даже. > Или там результаты по молекулярной динамике - сохранил всю > симуляцию, обработал и все, дальше саму симуляцию хранить без толку. А что будет если обнаружится что в обработке был баг? > Хотя спор по большому счету ни о чем - речь, как оказалось, > все-таки идет про предоставление доступа к использованным сырцам, а не к > обрабатываемым данным программами из этих сырцов. Ну да, сами данные по идее те кто воспроизводить эксперименты будут и сами добыть смогут. > В этом плане все выглядит гораздо разумней, речь пойдет в среднем про > несколько мегабайт. В современном мире нет никаких проблем раздать кусок в 100Гб данных толпе в 1000 человек, если уж такая задача есть. При том не требуется ни супер-серверов, ни архидорогих датацентров. > Правда, непонятно, что делать с проприетарным софтом типа Comsol. По уму - закaпывать. Потому что бред это собачий, когда бабло побеждает здравый смысл в ущерб всему остальному. Когда вы получаете выводы прогнав некие данные через некий черный ящик делающий "хзчто, но мамой клянусь что там все замечательно" - достоверность таких результатов под большим вопросом. В силу невозможности полноценной верификации: все упирается в неизвестность содержимого черного ящика и насколько он реально делал именно то что заявлено.

Ваше сообщение
Имя*:
EMail:	Для отправки ответов на email укажите знак ! перед адресом, например, !user@host.ru (!! - не показывать email). Более тонкая настройка отправки ответов производится в профиле зарегистрированного участника форума.
Заголовок*:
Сообщение*:	>> Я пробовал и эти в том числе на своих данных. Скорость там >> в ущерб сжатию - что толку что они прокачивают сотни мегабайт >> в секунду если неспособны их сжать хотя бы еще на 10%. > Да, они ловят только откровенную рыхлость данных. В принципе может помочь какой-то > тривиальный препроцессинг, типа дельта кодировария между сэмплами и/или расщепление разрядов > отсчетов, так что хотя сами отсчеты не совпадают, после препроцессинга рыхлость > сильно возрастет и простой лемпел-зив на ура скостит обнаруженную избыточность. Но > это от природы данных зависит. В этом плане умные парни обитают > в районе compression.ru - они могут дельно подсказать. >> После того как я сделал предварительное сжатие - отбросив незначащие биты, >> плюс примитивная дельта по кадрам, ни один из доступных под линукс >> алгоритмов не дал более 20% сжатия. > То что с камер обычно валится - имеет некий шум и прочая, > что делает такой материалец не подарком для обычных lossless алгоритмов сжатия. > Им надо точные совпадения, а с этим получается небогато. Однако есть > ряд трюков с препроцессингом. При том ряд методов препроцессинга прост и > быстр а результат куда удобнее для LZ-образных чем сразу влобешник с > "датчика" с кучей шума. >> Что, в принципе, неудивительно: изображения динамичные и шумные - без потерь >> хорошо не сжать. А чтобы хранить разумное время разумное количество данных >> требуется сжатие хотя бы в несколько раз. > Может быть, вас устроят какие-то lossy данные или специфичные штуки типа huffYUV, > ориентированные на нечто подобное? Особенно если после постпроцессинга. >> Просто у каждого своя специфика, кому то обязательно хранить огроменные массивы данных, >> кому-то после обработки они уже не нужны. > А тут имхо есть риск нарваться на ситуацию когда осознаешь что обработка > была кривая, а пересчитать уже опаньки - исходного материала то нет. > Впрочем вам наверное виднее. >> Ну, например, какие нибудь спецы по крипто могут генерировать сумасшедшие >> по размерам таблицы нужные всего один раз. > Ой, вон в торентах радужные таблицы на десятки и сотни гигз есть. > Они нужны не 1 человеку и не 1 раз. А некоторые > особо шустрые не только понасчитали но и продают даже. >> Или там результаты по молекулярной динамике - сохранил всю >> симуляцию, обработал и все, дальше саму симуляцию хранить без толку. > А что будет если обнаружится что в обработке был баг? >> Хотя спор по большому счету ни о чем - речь, как оказалось, >> все-таки идет про предоставление доступа к использованным сырцам, а не к >> обрабатываемым данным программами из этих сырцов. > Ну да, сами данные по идее те кто воспроизводить эксперименты будут и > сами добыть смогут. >> В этом плане все выглядит гораздо разумней, речь пойдет в среднем про >> несколько мегабайт. > В современном мире нет никаких проблем раздать кусок в 100Гб данных толпе > в 1000 человек, если уж такая задача есть. При том не > требуется ни супер-серверов, ни архидорогих датацентров. >> Правда, непонятно, что делать с проприетарным софтом типа Comsol. > По уму - закaпывать. Потому что бред это собачий, когда бабло побеждает > здравый смысл в ущерб всему остальному. Когда вы получаете выводы прогнав > некие данные через некий черный ящик делающий "хзчто, но мамой клянусь > что там все замечательно" - достоверность таких результатов под большим вопросом. > В силу невозможности полноценной верификации: все упирается в неизвестность содержимого > черного ящика и насколько он реально делал именно то что заявлено.
	Введите код, изображенный на картинке:

При общении не допускается: неуважительное отношение к собеседнику, хамство, унизительное обращение, ненормативная лексика, переход на личности, агрессивное поведение, обесценивание собеседника, провоцирование флейма голословными и заведомо ложными заявлениями. Не отвечайте на сообщения, явно нарушающие правила - удаляются не только сами нарушения, но и все ответы на них. Лог модерирования.

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру