> Я пробовал и эти в том числе на своих данных. Скорость там
> в ущерб сжатию - что толку что они прокачивают сотни мегабайт
> в секунду если неспособны их сжать хотя бы еще на 10%.Да, они ловят только откровенную рыхлость данных. В принципе может помочь какой-то тривиальный препроцессинг, типа дельта кодировария между сэмплами и/или расщепление разрядов отсчетов, так что хотя сами отсчеты не совпадают, после препроцессинга рыхлость сильно возрастет и простой лемпел-зив на ура скостит обнаруженную избыточность. Но это от природы данных зависит. В этом плане умные парни обитают в районе compression.ru - они могут дельно подсказать.
> После того как я сделал предварительное сжатие - отбросив незначащие биты,
> плюс примитивная дельта по кадрам, ни один из доступных под линукс
> алгоритмов не дал более 20% сжатия.
То что с камер обычно валится - имеет некий шум и прочая, что делает такой материалец не подарком для обычных lossless алгоритмов сжатия. Им надо точные совпадения, а с этим получается небогато. Однако есть ряд трюков с препроцессингом. При том ряд методов препроцессинга прост и быстр а результат куда удобнее для LZ-образных чем сразу влобешник с "датчика" с кучей шума.
> Что, в принципе, неудивительно: изображения динамичные и шумные - без потерь
> хорошо не сжать. А чтобы хранить разумное время разумное количество данных
> требуется сжатие хотя бы в несколько раз.
Может быть, вас устроят какие-то lossy данные или специфичные штуки типа huffYUV, ориентированные на нечто подобное? Особенно если после постпроцессинга.
> Просто у каждого своя специфика, кому то обязательно хранить огроменные массивы данных,
> кому-то после обработки они уже не нужны.
А тут имхо есть риск нарваться на ситуацию когда осознаешь что обработка была кривая, а пересчитать уже опаньки - исходного материала то нет. Впрочем вам наверное виднее.
> Ну, например, какие нибудь спецы по крипто могут генерировать сумасшедшие
> по размерам таблицы нужные всего один раз.
Ой, вон в торентах радужные таблицы на десятки и сотни гигз есть. Они нужны не 1 человеку и не 1 раз. А некоторые особо шустрые не только понасчитали но и продают даже.
> Или там результаты по молекулярной динамике - сохранил всю
> симуляцию, обработал и все, дальше саму симуляцию хранить без толку.
А что будет если обнаружится что в обработке был баг?
> Хотя спор по большому счету ни о чем - речь, как оказалось,
> все-таки идет про предоставление доступа к использованным сырцам, а не к
> обрабатываемым данным программами из этих сырцов.
Ну да, сами данные по идее те кто воспроизводить эксперименты будут и сами добыть смогут.
> В этом плане все выглядит гораздо разумней, речь пойдет в среднем про
> несколько мегабайт.
В современном мире нет никаких проблем раздать кусок в 100Гб данных толпе в 1000 человек, если уж такая задача есть. При том не требуется ни супер-серверов, ни архидорогих датацентров.
> Правда, непонятно, что делать с проприетарным софтом типа Comsol.
По уму - закaпывать. Потому что бред это собачий, когда бабло побеждает здравый смысл в ущерб всему остальному. Когда вы получаете выводы прогнав некие данные через некий черный ящик делающий "хзчто, но мамой клянусь что там все замечательно" - достоверность таких результатов под большим вопросом. В силу невозможности полноценной верификации: все упирается в неизвестность содержимого черного ящика и насколько он реально делал именно то что заявлено.