The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Релиз системы распознавания текста Tesseract 5.2

07.07.2022 16:42

Опубликован релиз системы оптического распознавания текста Tesseract 5.2, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0.

Tesseract включает в себя консольную утилиту и библиотеку libtesseract для встраивания функций распознавания текста в другие приложения. Из поддерживающих Tesseract сторонних GUI-интерфейсов можно отметить gImageReader, VietOCR и YAGF. Предлагается два движка распознавания: классический, распознающий текст на уровне шаблонов отдельных символов, и новый, базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM, оптимизированной для распознавания целиком строк и позволяющей добиться существенного увеличения точности. Готовые натренированные модели опубликованы для 123 языков. Для оптимизации производительности предлагаются модули, использующие OpenMP и SIMD-инструкций AVX2, AVX, AVX512F, NEON или SSE4.1.

Основные улучшения в Tesseract 5.2:

  • Добавлены оптимизации, реализованные с использованием инструкций Intel AVX512F.
  • В C API реализована функция для инициализации tesseract с загрузкой из памяти модели машинного обучения.
  • Добавлен параметр invert_threshold, определяющий уровень инвертирования текстовых строк. По умолчанию выставлено значение 0.7. Для отключения инвертирования следует выставить значение 0.
  • Налажена обработка очень больших документов на 32-разрядных хостах.
  • Осуществлён переход с использования функций std::regex на std::string.
  • Улучшены сборочные сценарии для Autotools, CMake и систем непрерывной интеграции.



  1. Главная ссылка к новости (https://github.com/tesseract-o...)
  2. OpenNews: Релиз системы распознавания текста Tesseract 5.1
  3. OpenNews: Выпуск системы распознавания текста GNU Ocrad 0.28
  4. OpenNews: Новая система оптического распознавания текста EasyOCR
  5. OpenNews: Релиз системы распознавания текстов Cuneiform 1.1.0
  6. OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.4
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/57469-tesseract
Ключевые слова: tesseract, ocr
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (24) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, Аноним (-), 17:06, 07/07/2022 Скрыто ботом-модератором [﹢﹢﹢] [ · · · ]     [к модератору]
  • –9 +/
     

     ....ответы скрыты (4)

  • 1.2, Аноним (2), 17:10, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Гугл последний раз раздавал модели (хоть какие-нибудь) 5 лет назад и не совсем понятно как можно натренировать свои собственные и сколько на это ресурсов потребуется (скорее всего много, недоступно много). Толку то с обновлений, если оно не распознаёт?
     
     
  • 2.4, Аноним12345 (?), 17:13, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    В тессеракте как бы есть модель обучения, но она очень далека от обычных вычислительных мощностей
     

  • 1.5, Жироватт (ok), 17:17, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +6 +/
    Оно почерк моего терапевта распознает?
     
     
  • 2.8, Аноним12345 (?), 17:35, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    Оно даже чек из супермаркета не может распознать
     
     
  • 3.10, tty0 (?), 18:52, 07/07/2022 [^] [^^] [^^^] [ответить]  
  • +1 +/
    Я проверю, но мне так кажется, что проблема только в настройках контрастности (раньше так было). Не забуду - попробую.
     
  • 2.16, Аноним (16), 04:36, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +6 +/
    Нет. Это как исходник на Perl. Сам автор не всегда разобрать может.
     
     
  • 3.17, Жироватт (ok), 08:38, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Жаль. Но вот приложение переводящее с врачебного в нормальный печатный было бы просто бомба
     
     
  • 4.18, Попандопала (?), 10:17, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Иногда лучше многого не знать. D
     
  • 4.26, Johny (?), 08:29, 12/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    В емиас все в utf8
     

  • 1.12, кубрик (?), 22:01, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Годная штука. И нормальные интерфейсы к ней есть.
     
  • 1.13, Геймер (?), 22:48, 07/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +3 +/
    "релиз системы оптического распознавания текста, поддерживающей распознавание символов UTF-8"

    Это как? Может быть WTF?

     
     
  • 2.19, Аноним (19), 10:55, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +4 +/
    рукописный текст на бумаге в UTF-8
     
     
  • 3.21, анон_тот самый (?), 01:04, 09/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    (00)/........ мыслительный процесс останавливается от ваших заявлений. хотя меня больше беспокоит возможность увидеть именно utf-8 на бумаге. правда очень хочу. это было бы чудо)))) в компе понятно, но на бумаге как?))) но по теме все эти OCR жутко лаговые.
     
     
  • 4.22, Аноним (22), 02:52, 09/07/2022 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Оптимизация плохо зделана
     
  • 4.25, Аноним (25), 16:45, 09/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Ну как, как — примерно вот так:
    но на бумаге как
     
     
  • 5.28, анон_тот самый (?), 21:00, 13/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    он что сказал? распечатал ютф-8 на бумаге. на бумаге в принципе ничего кроме чернильных точек быть не может. вы это как то разберитесь. представление шрифта в операционной системе и на бумаге. не вводите народ в заблуждение. а его отображение в системе и при просмотре в проге без правильной кодировки это другое. на бумаге нет кодировок как таковых. а в принтерах сплошной постскрипт.
     
  • 2.20, KhabMan (ok), 14:00, 08/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Осталось изобрести АЦП, оцифровывающий цифровой звук))
     
  • 2.23, InuYasha (??), 10:25, 09/07/2022 [^] [^^] [^^^] [ответить]  
  • +/
    Скорее просто несколько языков отдельно + смайлы и всякая экзотическая пунктуация.
     

  • 1.24, Аноним (24), 14:26, 09/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Эта штука может распознать только текст со скриншота, да и то не всегда.
     
  • 1.27, mandms (ok), 11:26, 13/07/2022 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    > поддерживающей распознавание(...)текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский

    На самом деле начиная с версии 4 распознаются тексты на языках всех республик бывшего СССР кроме туркменского.
    (а всего на 123+ языках)
    То есть, включая: армянский, грузинский, молдавский, все 3 прибалтийских, 4 среднеазиатских кроме туркменского, азербайджанский. [1]

    [1] https://github.com/tesseract-ocr/tesseract/blob/main/doc/tesseract.1.asc#langu
    hye (Armenian), kat (Georgian), kat_old (Georgian - Old),
    ron (Romanian; Moldavian; Moldovan),
    lav (Latvian), lit (Lithuanian), est (Estonian),
    kaz (Kazakh), uzb (Uzbek), uzb_cyrl (Uzbek - Cyrilic),
    kir (Kirghiz; Kyrgyz), tgk (Tajik),
    aze (Azerbaijani), aze_cyrl (Azerbaijani - Cyrilic),

    Только про туркменский не написано что поддерживается (его 3-буквенный код в ISO 639-2 - tuk)

     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру