Релиз системы распознавания текста Tesseract 4.1

12.07.2019 10:18

Подготовлен релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX или SSE4.1.

Основные улучшения в Tesseract 4.1:

Добавлена возможность вывода в XML-формате ALTO (Analyzed Layout and Text Object). Для использования данного формата следует запустить приложение как "tessaract имя_изображения каталог_вывода alto";
Добавлены новые модули рендеринга LSTMBox и WordStrBox, упрощающие проведение обучения движка;
Добавлена поддержка псевдографики в выводе hOCR (HTML);
Добавлены написанные на языке Python альтернативные скрипты для тренировки движка на базе машинного обучения;
Расширены оптимизации с использованием инструкций AVX, AVX2 и SSE;
По умолчанию отключена поддержка OpenMP из-за проблем с производительностью;
В движке LSTM добавлена поддержка белых и чёрных списков;
Улучшены сборочные сценарии на базе Cmake.

исправить +32 +/–

Лицензия: CC BY 3.0

Короткая ссылка: https://opennet.ru/51081-tesseract

Ключевые слова: tesseract, ocr

При перепечатке указание ссылки на opennet.ru обязательно

Обсуждение (73)

1.1, iPony129412 (?), 10:21, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	–5 +/–
YAGF как там с Qt 5?

2.2, Анон__ (?), 10:42, 12/07/2019 [^] [^^] [^^^] [ответить]	+6 +/–
По ссылке влом сходить? Или ща так не модно?

3.3, iPony129412 (?), 12:16, 12/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Я переходил прежде чем писать.

4.5, Sluggard (ok), 12:18, 12/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
И не нашёл отдельный бранч с Qt5-версией? Странно.

5.8, iPony129412 (?), 12:36, 12/07/2019 [^] [^^] [^^^] [ответить]	–3 +/–
И не нашёл, и не собрал, и не затестил. Ужас...

6.10, fske (?), 13:04, 12/07/2019 [^] [^^] [^^^] [ответить]	+4 +/–
Ну яблочник, очевидно же...

7.14, iPony129412 (?), 14:33, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
А если кто-то не «яблочник», то он просто так сразу побежит тратить один конечас на сборку проекта, который ему нужен этак со степенью ‘маловероятно’? ЗЫ: дет сад уровня местной аудитории

8.16, Аноним (16), 14:36, 12/07/2019 [^] [^^] [^^^] [ответить]	–4 +/–
Ты походу адресом сайта ошибся тебе бы в комменты к вилсе на ютубе ... текст свёрнут, показать

9.19, iPony129412 (?), 14:45, 12/07/2019 [^] [^^] [^^^] [ответить]	–3 +/–
- как там Qt5 Вроде что-то было по портированию с Qt4 на Qt5 - да, что-то... текст свёрнут, показать

9.33, Жабры Егорина (?), 18:42, 12/07/2019 [^] [^^] [^^^] [ответить]	–3 +/–
Оу, сюда и скрытые фанаты вилсы оупенсорсники захаживают А линуксоиды-пикабушни... текст свёрнут, показать

8.20, Аноним (20), 14:46, 12/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Тогда не задавай глупых вопросов и не трать наши человекоминуты ... текст свёрнут, показать

8.25, Sluggard (ok), 16:12, 12/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
Зависит от того, насколько ему оно интересно и нужно Если интересно средне 82... текст свёрнут, показать

9.68, iPony129412 (?), 06:26, 15/07/2019 [^] [^^] [^^^] [ответить]	+2 +/–
Нет, тут полно тулкитофобов, которым особо делать нечего Поэтому вероятность вс... текст свёрнут, показать

5.11, Аноним (11), 13:12, 12/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
В Mageia возьмите.

1.4, Аноним (4), 12:17, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	–2 +/–
К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера OCR - весьма слабое место.

2.6, corvuscor (ok), 12:30, 12/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Да нормально он распознает. Более-менее приличный скан пролетает без проблем. Жаль только, что оно не умеет в форматирование, таблицы. Но можно юзать какой-нибудь ocrmypdf.

3.9, evkogan (?), 12:41, 12/07/2019 [^] [^^] [^^^] [ответить]	+2 +/–
Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами. Им реально можно книги распознавать. А это только утилита выдрать текст с картинки авось получится, для добавления индексов в поиск пойдет.

4.71, none_first (ok), 13:42, 15/07/2019 [^] [^^] [^^^] [ответить]	+/–
> Какой нормально, FineReader 3.0 20 давности распознавал лучше. С форматированием, с таблицами. > Им реально можно книги распознавать. > А это только утилита выдрать текст с картинки авось получится, для добавления > индексов в поиск пойдет. на нек. сканах - файнридер (любой) тупо крашится или выжирает всю память от виндадко ;) и да, ФР порой текст распознает отвратительно (если скан неважный) надо понимать (отличать) просто распознавание текста и все задачу по распознаванию сканов (она гораздо масштабнее)

2.7, iPony129412 (?), 12:35, 12/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
Зависит от входных данных. Для сабжа действительно надо что-то простое.

3.63, Дегенератор (ok), 16:31, 14/07/2019 [^] [^^] [^^^] [ответить]	+/–
Это ты про буфер обмена?

2.12, psv (??), 13:57, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
И LSTM модуль тоже пробовали?

2.17, Аноним (16), 14:37, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
В свое время распознавал им капчу было норм. Правда я сначала подготавливал картинку.

2.51, Аноним (51), 11:55, 13/07/2019 [^] [^^] [^^^] [ответить]

+/–

> К сожалнию, качество распознавания - просто кошмар.

Ваще идеально работает по PDF рендерингам в имиджи.

По хорошим сканам тоже - хватАет.

2.70, none_first (ok), 13:31, 15/07/2019 [^] [^^] [^^^] [ответить]	+/–
> К сожалнию, качество распознавания - просто кошмар. ИМХО, для свободного софта сфера > OCR - весьма слабое место. Применял с предобработкой Scan Tailor - результат был лучше продуктов ABBYY "Недостаток" - отсутствие распознавание таблиц (хотя были зачатки) и макета страницы, но это не является задачей движка распознавания самого текста ;) Графические надстройки (типа YAGF) как-то пытаются выполнять подобные ф-ции...

1.13, Аноним (13), 14:11, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
> поддерживающей распознавание символов UTF-8 Смайлики что-ли?

2.28, mandala (ok), 17:30, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
Emoji, еретик! Еще "колобки" бы сказал...

2.43, konst555 (?), 00:14, 13/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
мне тоже резануло слух. Я даже шутку придумал: пока не научится распозновать символы koi8-r - ну ее на фиг. С другой стороны - все правильно сказано.

3.44, konst555 (?), 00:15, 13/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
хотя лучше бы написали: символов, поддерживаемых UTF8

2.73, Фноним (?), 00:19, 17/07/2019 [^] [^^] [^^^] [ответить]	+/–
Конкретных пяти символов же: U,T,F,дефис и восемь

1.15, Сигизмунд (?), 14:34, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	–5 +/–
Я почему то думал что Tesseract это шутер: http://tesseract.gg/

2.37, Аноним (37), 19:58, 12/07/2019 [^] [^^] [^^^] [ответить]	+3 +/–
Сейчас придет школота и объяснит тебе, что тессеракт - это один из камней бесконечности, содержащий одну из шести сингулярностей, предшествовавших вселенной.

3.74, www2 (??), 22:17, 19/07/2019 [^] [^^] [^^^] [ответить]	+/–
Тессеракт - это гиперкуб из четырёхмерного пространства, аналог двумерного квадрата и трёхмерного куба. Его "гранями" являются трёхмерные кубы.

2.59, Led (ok), 19:28, 13/07/2019 [^] [^^] [^^^] [ответить]	+8 +/–
> Я ...думал Шлёма, не звезди.

1.18, qaqa (?), 14:44, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	+1 +/–
Никто не скажет, опенсорснутый Cuneiform так ни во что юзабельное и не превратился?

2.21, Аноним (20), 14:54, 12/07/2019 [^] [^^] [^^^] [ответить]	+4 +/–
Код волшебным образом превращается во что-то только спустя 10 лет лежания без коммитов, а пока прошло только 8.

3.66, Аноним (66), 20:34, 14/07/2019 [^] [^^] [^^^] [ответить]	+/–
Что ещё предскажет нумерология?

2.27, Ретроград (?), 17:27, 12/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Это тот, который даже не запускается в Release, только в Debug? Нет, не вылился. И не нужно.

2.34, Michael Shigorin (ok), 19:12, 12/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
Он непортабельный, плюс ко всему... куски асма без generic.

2.60, Gannet (ok), 00:45, 14/07/2019 [^] [^^] [^^^] [ответить]	+/–
Он подох по ходу. Был УГ и подох УГом.

1.22, Аноним (37), 15:00, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Я правильно понимаю, что они и не пытались выяснить, куда девается производительность при сборке mingw64 с OpenMP и просто решили его отключить?

2.41, Аноним (41), 22:04, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
OpenMP там, похоже, прикручен для галочки. К примеру, используемое число потоков захардкожено и его нельзя повысить, только понизить через переменную окружения: https://github.com/tesseract-ocr/tesseract/issues/1600 Судя по беглому поиску по исходникам, OpenMP в tesseract используется для оптимизаци низкоуровневых операций (работа с матрицами, сегментация текста). Как следствие, каждому отдельному потоку достаётся сравнительно мало работы, и вместо прирост производительности на коротких текстах легко получить просадку.

1.23, Адекват (ok), 16:04, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	–9 +/–
К сожалению, если софт опенсорсный и бесплатный - он будет таким всегда, это как... большой текст свёрнут, показать

2.26, Аноним (26), 16:27, 12/07/2019 [^] [^^] [^^^] [ответить]

+2 +/–

Мы тебя услышали! Давай, подскажи *платный* (за деньги!) модуль (чтобы интегрировать в серерную систему) распознавания *под линукс*.

Подсказка: у Abbyy такого нет, не работают они с линуксом, даже за деньги.

ЗЫ. информация давности примерно год, вдруг что-то и поменялось?

3.29, Ретроград (?), 17:30, 12/07/2019 [^] [^^] [^^^] [ответить]	+3 +/–
Норкоман чтоле? Всю жизнь у них был Finereader Engine под линуксы: https://www.abbyy.com/en-eu/support/frengine/11linux/info/sr/

4.35, Michael Shigorin (ok), 19:13, 12/07/2019 [^] [^^] [^^^] [ответить]	–3 +/–
Ну далеко не всю жизнь, но достаточно давно, чтоб удивиться тому, почему сами-то встали на полдороги.

2.31, mandms (?), 17:49, 12/07/2019 [^] [^^] [^^^] [ответить]	+2 +/–
И нет и да. Нет, потому, что проект, приобретя пользователей (кинетическую энергию, в ваших терминах) - то есть раскрутив свой маховик (разов/часов использования, количества пользоватетелей) - привлекает как клиентов бизнес, а как производителя и оказывающего сервис сопровождения корпорацию, одну или больше и продолжает жить на этом. такова тут "передача энергии" в виде денег или "отчужденного труда" Да, потому, что если проект не раскрутится до многих юзеров и не приобретет многих девелоперов, то поддержки не получит. С сообтветствующим циклом обратной связи которая останавливает или тормозит. То есть на такой проект кроме естественной силы развития и разгона, порожденного самой идеей и нужности данного софта, действует другая естественная сила торможения.

1.24, kknight (ok), 16:06, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я потратил время на создание модели обучения, вручную обводил в Box editor каждую буковку, всё сконвертировал как надо. На результат это сильно не повлияло - как был мусор, так и остался. Не готов пока Тессеракт.

2.30, Ретроград (?), 17:32, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
С hires сканов он распознает очень даже нормально, пользовал его для оцифровки книжек. Только там надо минимум 600 dpi, а лучше 1200 и выше.

3.32, Tita_M (ok), 18:28, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
Части распознанного текста уже не вырезает? Когда-то давно пробовал им распознавать .djvu файлы. Так он "глотал" случайные части текста и выходной файл получался без части текста. Также попадались файлы с флибусты с подобной проблемой - видимо я не один такой.

4.38, forum reader (?), 20:49, 12/07/2019 [^] [^^] [^^^] [ответить]

+/–

>Части распознанного текста уже не вырезает?

Вырезает мат и неполиткоректтность

>>В движке LSTM добавлена поддержка белых и чёрных списков;

5.47, Аноним (47), 11:28, 13/07/2019 [^] [^^] [^^^] [ответить]	–1 +/–
Фу. Не чёрных, а альтернативно белых.

2.72, none_first (ok), 17:16, 15/07/2019 [^] [^^] [^^^] [ответить]	+/–
> Я пробовал Тессерактом распознавать старые листы, сделанные на печатной машинке. Качество > там сильно так себе. По дефолту Тессеракт вообще не справлялся. Я > потратил время на создание модели обучения, вручную обводил в Box editor > каждую буковку, всё сконвертировал как надо. На результат это сильно не > повлияло - как был мусор, так и остался. Не готов пока > Тессеракт. поставьте scantailor, у него есть пакетный режим обработки (по настройкам) из CLI (если надо несколько страниц), получите на выходе картинки в 600dpi, далее tesseract. Я получал результат лучше файнридера (в смысле рапознавания текста) Скантейлор имеет ф-ции выравнивания строк (эксперементальные) - у меня работало без нареканий. Как пример: фотка (с сильными шумами, с искаженной перспективой) с банковскими реквизитами, сделанная телефоном, через пленку, была распознана достойно

1.39, Аноним (39), 21:59, 12/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	–1 +/–
Увы, по прежнему альтернативы Finereader не видно. Тут дело скорей даже не в самом движке сколько в предобученных моделях. В ABBY использовали нейросети достаточно давно плюс сотрудничество с кучей корпоративных клиентов (в т.ч. библиотек), как итог у них значительно лучше предобученные модели. По прежнему гоняю виртуалку когда надо что-то из сканов перегнать в цифру.

2.40, Аноним (39), 22:03, 12/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Плюс GUI для Tesseract-а по сравнению с продуктом ABBY мусор. И это еще одна беда. Более чем уверен что Tesseract где-то продается вместе нормальными моделями распознавания и GUI.

3.54, Аноним (54), 16:26, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Это посмотрите https://help.ubuntu.ru/wiki/yagf

3.55, Аноним (54), 16:28, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
YAGF is a graphical front-end for cuneiform and tesseract OCR tools https://sourceforge.net/projects/yagf-ocr/

2.42, alexrayne (?), 23:14, 12/07/2019 [^] [^^] [^^^] [ответить]	+/–
recognita+ приятная штучка. только падает на вин7. надо из виртуалки видимо пускать

2.45, Аноним (54), 10:35, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Поддержка только Windows не позволяет серьезно рассматривать данный продукт несмотря на повсеместное распространение. Ведь мы же серьезные люди. А так вполне удачен gimageReader. Правда, форматирование не сохраняет. p.s. Есть сомнение относительно необходимости OCR как класса ПО. По крайней мере некоторые уже имеют проблемы от его использования. Я имею в виду диссертантов и обвинение в плагиате. Поэтому советую, при острой необходимости заимствования, либо точное цитирование (объем которого ничтожен) либо прочитать источник, закрыть его и изложить своими словами.

3.46, Аноним (54), 10:37, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Добавление. Не существует программ для распознавания формул. В нашей области это проблема, требующая времени для решения. А распознавание текста - разве что для гуманитариев.

3.48, Аноним (47), 11:28, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Finereader есть под линукс.

4.49, iPony129412 (?), 11:48, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Только серверный

5.52, Аноним (54), 15:07, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Это? "ABBYY FineReader Engine is the Software Development Kit (SDK) to integrate multilingual text recognition and conversion technologies into external applications". Пользовательских (числе серверных) продуктов нет для систем, отличных от Windows.

6.61, iPony129412 (?), 07:37, 14/07/2019 [^] [^^] [^^^] [ответить]	+/–
Ну типа того. Есть разве что ещё вебный сервис от них для обычных пользователей.

4.53, Аноним (54), 15:07, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
Ссылку можно?

2.64, Дегенератор (ok), 16:34, 14/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Кто-то должен страдать )))

1.50, Аноним (50), 11:55, 13/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
Текст из капчи осилит?

2.56, Аноним (56), 17:06, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
сам уже не справляешься?

3.57, Аноним (50), 17:09, 13/07/2019 [^] [^^] [^^^] [ответить]	+1 +/–
Я не робот!

4.58, Аноним (56), 17:36, 13/07/2019 [^] [^^] [^^^] [ответить]	+/–
угу, продолжайте разгадывать, осталось еще четыре стадии

4.62, iPony129412 (?), 07:38, 14/07/2019 [^] [^^] [^^^] [ответить]	+/–
Ты отстал от жизни. Теперь человеком, является только тот, кто распознаёт автобусы 🚌, переходы, гидранты... У меня плохо получается, но я учусь.

5.65, Аноним (65), 19:09, 14/07/2019 [^] [^^] [^^^] [ответить]	+/–
По0моему нужно быть роботом что бы угадать некоторые витрины с автобусами

1.67, Аноним (66), 20:36, 14/07/2019 [ответить] [﹢﹢﹢] [ · · · ]	+/–
А что мешает запилить на основе нейросетей нормальный распознавальщик? Пусть он будет в 10 раз тормознее на CPU, тут главное - качество.

2.69, Ordu (ok), 10:54, 15/07/2019 [^] [^^] [^^^] [ответить]	+/–
Из новости: > Предлагается два движка распознавания: [...] и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности.

игнорирование участников | лог модерирования

Добавить комментарий

Текст: