|
|
|
|
|
|
7.14, iPony129412 (?), 14:33, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
А если кто-то не «яблочник», то он просто так сразу побежит тратить один конечас на сборку проекта, который ему нужен этак со степенью ‘маловероятно’?
ЗЫ: дет сад уровня местной аудитории
| |
|
|
|
|
|
|
1.4, Аноним (4), 12:17, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]
| –2 +/– |
К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера OCR - весьма слабое место.
| |
|
2.6, corvuscor (ok), 12:30, 12/07/2019 [^] [^^] [^^^] [ответить]
| +1 +/– |
Да нормально он распознает. Более-менее приличный скан пролетает без проблем.
Жаль только, что оно не умеет в форматирование, таблицы. Но можно юзать какой-нибудь ocrmypdf.
| |
|
3.9, evkogan (?), 12:41, 12/07/2019 [^] [^^] [^^^] [ответить]
| +2 +/– |
Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
Им реально можно книги распознавать.
А это только утилита выдрать текст с картинки авось получится, для добавления индексов в поиск пойдет.
| |
|
4.71, none_first (ok), 13:42, 15/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
> Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами.
> Им реально можно книги распознавать.
> А это только утилита выдрать текст с картинки авось получится, для добавления
> индексов в поиск пойдет.
на нек. сканах - файнридер (любой) тупо крашится или выжирает всю память от виндадко ;)
и да, ФР порой текст распознает отвратительно (если скан неважный)
надо понимать (отличать) просто распознавание текста и все задачу по распознаванию сканов (она гораздо масштабнее)
| |
|
|
2.17, Аноним (16), 14:37, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
В свое время распознавал им капчу было норм. Правда я сначала подготавливал картинку.
| |
2.51, Аноним (51), 11:55, 13/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
> К сожалнию, качество распознавания - просто кошмар.
Ваще идеально работает по PDF рендерингам в имиджи.
По хорошим сканам тоже - хватАет.
| |
2.70, none_first (ok), 13:31, 15/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
> К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера
> OCR - весьма слабое место.
Применял с предобработкой Scan Tailor - результат был лучше продуктов ABBYY
"Недостаток" - отсутствие распознавание таблиц (хотя были зачатки) и макета страницы, но это не является задачей движка распознавания самого текста ;)
Графические надстройки (типа YAGF) как-то пытаются выполнять подобные ф-ции...
| |
|
|
2.43, konst555 (?), 00:14, 13/07/2019 [^] [^^] [^^^] [ответить]
| –1 +/– |
мне тоже резануло слух.
Я даже шутку придумал: пока не научится распозновать символы koi8-r - ну ее на фиг.
С другой стороны - все правильно сказано.
| |
|
|
2.37, Аноним (37), 19:58, 12/07/2019 [^] [^^] [^^^] [ответить]
| +3 +/– |
Сейчас придет школота и объяснит тебе, что тессеракт - это один из камней бесконечности, содержащий одну из шести сингулярностей, предшествовавших вселенной.
| |
|
3.74, www2 (??), 22:17, 19/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Тессеракт - это гиперкуб из четырёхмерного пространства, аналог двумерного квадрата и трёхмерного куба. Его "гранями" являются трёхмерные кубы.
| |
|
|
1.18, qaqa (?), 14:44, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]
| +1 +/– |
Никто не скажет, опенсорснутый Cuneiform так ни во что юзабельное и не превратился?
| |
|
2.21, Аноним (20), 14:54, 12/07/2019 [^] [^^] [^^^] [ответить]
| +4 +/– |
Код волшебным образом превращается во что-то только спустя 10 лет лежания без коммитов, а пока прошло только 8.
| |
2.27, Ретроград (?), 17:27, 12/07/2019 [^] [^^] [^^^] [ответить]
| +1 +/– |
Это тот, который даже не запускается в Release, только в Debug? Нет, не вылился. И не нужно.
| |
|
1.22, Аноним (37), 15:00, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Я правильно понимаю, что они и не пытались выяснить, куда девается производительность при сборке mingw64 с OpenMP и просто решили его отключить?
| |
|
2.41, Аноним (41), 22:04, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
OpenMP там, похоже, прикручен для галочки. К примеру, используемое число потоков захардкожено и его нельзя повысить, только понизить через переменную окружения: https://github.com/tesseract-ocr/tesseract/issues/1600
Судя по беглому поиску по исходникам, OpenMP в tesseract используется для оптимизаци низкоуровневых операций (работа с матрицами, сегментация текста). Как следствие, каждому отдельному потоку достаётся сравнительно мало работы, и вместо прирост производительности на коротких текстах легко получить просадку.
| |
|
1.23, Адекват (ok), 16:04, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ] | –9 +/– | К сожалению, если софт опенсорсный и бесплатный - он будет таким всегда, это как... большой текст свёрнут, показать | |
|
2.26, Аноним (26), 16:27, 12/07/2019 [^] [^^] [^^^] [ответить]
| +2 +/– |
Мы тебя услышали! Давай, подскажи *платный* (за деньги!) модуль (чтобы интегрировать в серерную систему) распознавания *под линукс*.
Подсказка: у Abbyy такого нет, не работают они с линуксом, даже за деньги.
ЗЫ. информация давности примерно год, вдруг что-то и поменялось?
| |
|
|
4.35, Michael Shigorin (ok), 19:13, 12/07/2019 [^] [^^] [^^^] [ответить]
| –3 +/– |
Ну далеко не всю жизнь, но достаточно давно, чтоб удивиться тому, почему сами-то встали на полдороги.
| |
|
|
2.31, mandms (?), 17:49, 12/07/2019 [^] [^^] [^^^] [ответить]
| +2 +/– |
И нет и да.
Нет, потому, что проект, приобретя пользователей (кинетическую энергию, в ваших терминах) - то есть раскрутив свой маховик (разов/часов использования, количества пользоватетелей) - привлекает как клиентов бизнес, а как производителя и оказывающего сервис сопровождения корпорацию, одну или больше и продолжает жить на этом. такова тут "передача энергии" в виде денег или "отчужденного труда"
Да, потому, что если проект не раскрутится до многих юзеров и не приобретет многих девелоперов, то поддержки не получит. С сообтветствующим циклом обратной связи которая останавливает или тормозит.
То есть на такой проект кроме естественной силы развития и разгона, порожденного самой идеей и нужности данного софта, действует другая естественная сила торможения.
| |
|
1.24, kknight (ok), 16:06, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я потратил время на создание модели обучения, вручную обводил в Box editor каждую буковку, всё сконвертировал как надо. На результат это сильно не повлияло - как был мусор, так и остался. Не готов пока Тессеракт.
| |
|
2.30, Ретроград (?), 17:32, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
С hires сканов он распознает очень даже нормально, пользовал его для оцифровки книжек. Только там надо минимум 600 dpi, а лучше 1200 и выше.
| |
|
3.32, Tita_M (ok), 18:28, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Части распознанного текста уже не вырезает?
Когда-то давно пробовал им распознавать .djvu файлы. Так он "глотал" случайные части текста и выходной файл получался без части текста. Также попадались файлы с флибусты с подобной проблемой - видимо я не один такой.
| |
|
4.38, forum reader (?), 20:49, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
>Части распознанного текста уже не вырезает?
Вырезает мат и неполиткоректтность
>>В движке LSTM добавлена поддержка белых и чёрных списков; | |
|
|
2.72, none_first (ok), 17:16, 15/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
> Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество
> там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я
> потратил время на создание модели обучения, вручную обводил в Box editor
> каждую буковку, всё сконвертировал как надо. На результат это сильно не
> повлияло - как был мусор, так и остался. Не готов пока
> Тессеракт.
поставьте scantailor, у него есть пакетный режим обработки (по настройкам) из CLI (если надо несколько страниц), получите на выходе картинки в 600dpi, далее tesseract. Я получал результат лучше файнридера (в смысле рапознавания текста)
Скантейлор имеет ф-ции выравнивания строк (эксперементальные) - у меня работало без нареканий. Как пример: фотка (с сильными шумами, с искаженной перспективой) с банковскими реквизитами, сделанная телефоном, через пленку, была распознана достойно
| |
|
1.39, Аноним (39), 21:59, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]
| –1 +/– |
Увы, по прежнему альтернативы Finereader не видно. Тут дело скорей даже не в самом движке сколько в предобученных моделях. В ABBY использовали нейросети достаточно давно плюс сотрудничество с кучей корпоративных клиентов (в т.ч. библиотек), как итог у них значительно лучше предобученные модели. По прежнему гоняю виртуалку когда надо что-то из сканов перегнать в цифру.
| |
|
2.40, Аноним (39), 22:03, 12/07/2019 [^] [^^] [^^^] [ответить]
| +1 +/– |
Плюс GUI для Tesseract-а по сравнению с продуктом ABBY мусор. И это еще одна беда. Более чем уверен что Tesseract где-то продается вместе нормальными моделями распознавания и GUI.
| |
2.42, alexrayne (?), 23:14, 12/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
recognita+ приятная штучка. только падает на вин7. надо из виртуалки видимо пускать
| |
2.45, Аноним (54), 10:35, 13/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Поддержка только Windows не позволяет серьезно рассматривать данный продукт несмотря на повсеместное распространение. Ведь мы же серьезные люди. А так вполне удачен gimageReader. Правда, форматирование не сохраняет.
p.s. Есть сомнение относительно необходимости OCR как класса ПО. По крайней мере некоторые уже имеют проблемы от его использования. Я имею в виду диссертантов и обвинение в плагиате. Поэтому советую, при острой необходимости заимствования, либо точное цитирование (объем которого ничтожен) либо прочитать источник, закрыть его и изложить своими словами.
| |
|
3.46, Аноним (54), 10:37, 13/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Добавление. Не существует программ для распознавания формул. В нашей области это проблема, требующая времени для решения. А распознавание текста - разве что для гуманитариев.
| |
|
|
5.52, Аноним (54), 15:07, 13/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Это? "ABBYY FineReader Engine is the Software Development Kit (SDK) to integrate multilingual text recognition and conversion technologies into external applications".
Пользовательских (числе серверных) продуктов нет для систем, отличных от Windows.
| |
|
|
|
|
|
|
|
4.62, iPony129412 (?), 07:38, 14/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Ты отстал от жизни.
Теперь человеком, является только тот, кто распознаёт автобусы 🚌, переходы, гидранты...
У меня плохо получается, но я учусь.
| |
|
5.65, Аноним (65), 19:09, 14/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
По0моему нужно быть роботом что бы угадать некоторые витрины с автобусами
| |
|
|
|
|
1.67, Аноним (66), 20:36, 14/07/2019 [ответить] [﹢﹢﹢] [ · · · ]
| +/– |
А что мешает запилить на основе нейросетей нормальный распознавальщик? Пусть он будет в 10 раз тормознее на CPU, тут главное - качество.
| |
|
2.69, Ordu (ok), 10:54, 15/07/2019 [^] [^^] [^^^] [ответить]
| +/– |
Из новости:
> Предлагается два движка распознавания: [...] и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. | |
|
|