The OpenNET Project / Index page

[ новости /+++ | форум | теги | ]

Новая версия оболочки для распознавания текста YAGF 0.9.4

04.08.2014 05:39

Вышла новая версия YAGF - графической оболочки для программ оптического распознавания текста Cuneiform и Tesseract. YAGF написана на Qt 4 и позволяет через единый GUI-интерфейс управлять сканированием изображений, их предварительной обработкой и распознаванием большого числа отсканированных страниц.

Основные изменения:

  • Улучшены предобработка изображений и автоматическое исправление наклона страниц;
  • Новый инструмент для ручной корректировки исправления наклона (если она нужна);
  • Поддержка распознавания текста, напечатанного очень мелким шрифтом;
  • Упрощён импорт документов PDF;
  • Более тесная интеграция с Tesseract OCR: (распознавание двуязычных текстов, режим распознавания "только числа", добавлены новые языки распознавания).


  1. Главная ссылка к новости (http://symmetrica.net/cuneifor...)
  2. OpenNews: Новая версия оболочки для распознавания текста YAGF 0.9.3
  3. OpenNews: Релиз YAGF 0.8.9, графической оболочки для систем распознавания текста
Автор новости: Андрей Боровский
Лицензия: CC BY 3.0
Короткая ссылка: https://opennet.ru/40323-yagf
Ключевые слова: yagf, ocr
При перепечатке указание ссылки на opennet.ru обязательно


Обсуждение (29) Ajax | 1 уровень | Линейный | +/- | Раскрыть всё | RSS
  • 1.1, trdm (ok), 10:27, 04/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    Классно. Полезная штучка )
     
  • 1.2, ssh (ok), 10:32, 04/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    Может кто-нибудь поделиться реальным опытом использования Cuneiform и Tesseract в продакшен для распознавания русскоязычных текстов?
     
     
  • 2.4, Аноним (-), 11:08, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Может кто-нибудь поделиться реальным опытом использования Cuneiform и Tesseract в продакшен для распознавания русскоязычных текстов?

    в продакшн файнридером пользуются, если контора адекватная.

     
     
  • 3.8, ssh (ok), 11:37, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +3 +/
    > в продакшн файнридером пользуются, если контора адекватная.

    Я ведь не критерии определения адекватности конторы просил. :)

     
  • 3.32, Андрей Боровский (?), 05:51, 09/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    >> Может кто-нибудь поделиться реальным опытом использования Cuneiform и Tesseract в продакшен для распознавания русскоязычных текстов?

    куниформом не пользуются, так как он не-адаптируем.

    А Tesseract  используется, вот например, люди живут с того, что предлагают кастомизированный софт на основе  тессеракт:

    http://www.customocr.com

    Я с этой конторой никак не связан, есличо. Я связан с другой ;-)

     
  • 2.5, Grammar_Nazi (?), 11:13, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –6 +/
    продакшон...
     
  • 2.7, Аноним (-), 11:33, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Для винды его нет вроде. Тамашний кунаиформ не обновляется сто лет и глючен.
     
     
  • 3.9, ssh (ok), 11:38, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Для винды его нет вроде. Тамашний кунаиформ не обновляется сто лет и
    > глючен.

    Да мне и не для венды. А tesseract?

     
     
  • 4.12, Djam (ok), 13:01, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    часто отвратительное распознавание... В связке Yagf+Cuneiforms. Таблицы, формулы распознавать не умеет. Если текст отсканирован не совсем хорошо, распознает от силы 10-15%...
    Tesseract не пробовал
     
  • 4.16, Аноном (?), 15:00, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Tesseract для русскоязычного бесполезен.
     
     
  • 5.25, AlZr (?), 18:57, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Ничего подобного - если распознавать напечатанный текст, а не рукописный, то распознает очень даже хорошо. Сам пользуюсь, когда надо старые статьи перевести в электронную форму, которые где-то до этого потерялись.
     
  • 3.18, Аноним (-), 16:26, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –3 +/
    Для Windows встроенный в Office Professional распознавальщик имеется неплохой. Так что упомянутый выше FineReader - пятое колесо в телеге типа коммерческого антивируса при наличии загружаемого (для 7-ки) или встроенного (в 8-ку) бесплатного.
     
     
  • 4.21, Аноним (-), 18:04, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > Для Windows встроенный в Office Professional распознавальщик имеется неплохой. Так что
    > упомянутый выше FineReader - пятое колесо в телеге типа коммерческого антивируса
    > при наличии загружаемого (для 7-ки) или встроенного (в 8-ку) бесплатного.

    Только вот он стоит 19 тыс. Сам офис нужен с большой натяжкой, файнридер стоит 6 тыс (и явно лучше для распознавания). Считайте.

     
     
  • 5.22, Аноним (-), 18:41, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –2 +/
    Я говорю как есть в обычном офисе.

    По-моему, не нужен ни MS Office, ни Windows, ни FineRedaer. Причем первые легко заменяются существенно более качественными продуктами, а последний, несмотря на то, что делает свою работу вполне хорошо, не нужен как класс ПО. Из головы писать надо, а не старые чужие тексты тянуть.

     
     
  • 6.28, Клыкастый (ok), 12:46, 05/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    да. проблема только в том, что если нужно распознавание (не раз в год, а в нормальных масштабах), требуется FR и он за собой тащит и венду и офис.
     
  • 6.29, Аноним (-), 13:45, 05/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Яркий пример замкнутого мышления. Не сталкивался с задачей - не нужно никому.
     
  • 4.26, kai3341 (ok), 21:58, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +1 +/
    > пятое колесо в телеге типа коммерческого антивируса при наличии загружаемого (для 7-ки) или встроенного (в 8-ку) бесплатного

    Вы принципиально не правы. Своим наплевательским отношением к уязвимостям Microsoft искусственно создали целую нишу для высасывания бабла у хомяка, а также подарила ему иллюзию выбора.

     
  • 3.27, soarin (?), 09:56, 05/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    Под линуксом он тоже как-то не шибко развивается. Олсо вендовая версия cuneiform лучше распознает русский текст, чем линуксовая. Можешь запустить под вайном и сравнить.
    Но само собой и tesseract, и cuneiform очень сильно уступают тому же fine reader. И годны только для распознавания простого текста без всяких таблиц и сложностей на сканах отличного качества.
     

  • 1.6, Аноним (-), 11:15, 04/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +1 +/
    До Abbyy им все равно далеко.
     
     
  • 2.10, Аноним (-), 12:01, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –2 +/
    плевать на файнридер. Им всем даже до свободного cunieform для винды далеко.
     
  • 2.15, none_first (ok), 13:29, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    зависит от кач-ва текста и задач
     

  • 1.11, Zenitur (ok), 12:37, 04/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • –4 +/
    Вот бы поддержку FineReader для Linux и FreeBSD! А то ncurses для мазохистов.
     
     
  • 2.13, Онвоним (?), 13:08, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    С их мнением и отношением к GNU/Linux - не нужно.
     
  • 2.17, Аноном (?), 15:01, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +/
    > Вот бы поддержку FineReader для Linux и FreeBSD! А то ncurses для
    > мазохистов.

    А она есть.

     
     
  • 3.19, Аноним (-), 17:07, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –2 +/
    В виде продукта для конечного пользователя нет. Но и не нужно (как впрочем и для Windows) ввиду наличия онлайн-версии: http://finereaderonline.com/ru-ru
     
     
  • 4.20, Аноним (-), 18:01, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • +2 +/
    Кончай троллить уже. Или тебе распознать несколько страничек в интернете (про приватность молчу) достаточно? будешь создавать новую учетку каждые 20 (или сколько там?) страниц?
     
     
  • 5.24, Аноним (-), 18:48, 04/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    Так ты много и бесплатно хочешь? Выбирай http://vorabota.ru/rabota-s-tekstami/onlayn-servisi-dlya-besplatnogo-raspozna
     

  • 1.30, Skull_2 (?), 15:23, 07/08/2014 [ответить] [﹢﹢﹢] [ · · · ]  
  • +/
    У меня в git.altlinux.org/people/cas/packages/yagf.git последние два коммита фиксят сборку: нет файла align.png (взял вместо него Align.png) и явно включил unistd.h для sleep()
     
     
  • 2.31, Lazy_Kent (ok), 21:18, 07/08/2014 [^] [^^] [^^^] [ответить]  
  • –1 +/
    > У меня в git.altlinux.org/people/cas/packages/yagf.git последние два коммита фиксят
    > сборку: нет файла align.png (взял вместо него Align.png)

    До этого момента не добрался пока. Буду иметь ввиду.

    > и явно включил unistd.h для sleep()

    На этом споткнулся тоже. Описано здесь: https://gcc.gnu.org/gcc-4.7/porting_to.html

    Андрей, надо починить.


     

     Добавить комментарий
    Имя:
    E-Mail:
    Текст:



    Партнёры:
    PostgresPro
    Inferno Solutions
    Hosting by Hoster.ru
    Хостинг:

    Закладки на сайте
    Проследить за страницей
    Created 1996-2024 by Maxim Chirkov
    Добавить, Поддержать, Вебмастеру