forum.opennet.ru - "Релиз системы распознавания текста Tesseract 5.0" (72)

"Релиз системы распознавания текста Tesseract 5.0"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.0"	+/–
Сообщение от opennews (??), 01-Дек-21, 12:59
Опубликован релиз системы оптического распознавания текста Tesseract 4.1, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=56259
Ответить \| Правка \| Cообщить модератору

Оглавление

Название напоминает о фильме куб 2 , А где же каменты (?), 13:01 , 01-Дек-21, (2) +5

Результаты распознавания напоминают Приключения Алисы в Стране чудес , _hide_ (ok), 15:14 , 01-Дек-21, (26) –3

Всё зависит от того, какие использовать словари Если использовать те, что в ново, _hide_ (ok), 15:31 , 01-Дек-21, (28) +1

А мне о игре, Аноним (33), 16:00 , 01-Дек-21, (33) –2
И ещё массаракш из Обитаемого Острова, Аноним (52), 06:00 , 02-Дек-21, (52) –1

Очень важное изменение , Аноним (3), 13:02 , 01-Дек-21, (3) +17

Всё как у дистрибутивов Теперь по фен-шую , Аноним (4), 13:06 , 01-Дек-21, (4) +3

Всё как у других IT-проектов , Аноним (29), 15:32 , 01-Дек-21, (29) +1
Очевидный фикс, не стоит благодарности , Тот_Самый_Анонимус (?), 18:57 , 01-Дек-21, (41) +2

Это свобода, как говорят у них там, Аноним (51), 03:28 , 02-Дек-21, (51) +2

это единственное, что привело к такому увеличению номера версии блм и прочие че, Аноним (54), 09:33 , 02-Дек-21, (54) –1
Это самое важное Лишь бы не оскорблять нигеров Хотя казалось бы , неужели они , Анонимян (?), 12:09 , 06-Дек-21, (80)

Так 5 0 или 4 1 Вы уж там как-нибудь определитесь , anonymous (??), 13:10 , 01-Дек-21, (5) +3

По ходу зарелизился 4 1, а теперь начинается развитие 5 , anonymous (??), 13:24 , 01-Дек-21, (8)

https github com tesseract-ocr tesseract releases tag 5 0 0, s.d.s. (?), 13:37 , 01-Дек-21, (10)

4 1 0 Release zdenop zdenop released this 07 Jul 2019Похоже, рыбу прошлой новост, nymous (?), 13:55 , 01-Дек-21, (13) +2

Так и естьhttps www opennet ru opennews art shtml num 51081, nymous (?), 13:56 , 01-Дек-21, (14)

5 0 4 1чё не нравится , Аноним (29), 15:33 , 01-Дек-21, (30) +9

Проприетарные типы данных А проприетарной алгебры ещё не появилось , Аноним (6), 13:11 , 01-Дек-21, (6) +4

Тоже удивился , Аноним (15), 14:03 , 01-Дек-21, (15)
Да чушь какая-то в новости У них в коде было условно class MyVector class My, Аноним (17), 14:08 , 01-Дек-21, (17) +2

Это просто перевод кривой Propietary переводится как собственный, что в контекс, Аноним (46), 22:10 , 01-Дек-21, (46) +1

Не знаю на счёт проприетарной алгебры, но незаконные числа уже есть https en w, Аноним (52), 06:05 , 02-Дек-21, (53)

Довольно слабо распознаёт, я не знаю Но лучше всё равно ничего нет Приходится , Аноним (7), 13:23 , 01-Дек-21, (7) +1

Странно, по моему опыту -- распознает шикарно без ошибок распознает даже не сли, Кир (?), 13:31 , 01-Дек-21, (9) +1

Любой текст Мне иероглифы распознавать надо -_-В итоге приходится вручную поси, Аноним (7), 13:38 , 01-Дек-21, (11) +1

Как показывает практика, 90 успеха - в препроцессинге картиночки Большая часть , Аноним (17), 13:47 , 01-Дек-21, (12)
Лучше FineReaderа ничего не знаю , Аноним (18), 14:09 , 01-Дек-21, (18) +4

По моему опыту в 4 х есть проблемки, потратил несколько недель чтобы добиться ко, ананоша (?), 14:11 , 01-Дек-21, (19)

Он чувствителен к искажениям картинки Так то распознаёт хорошо, но именно распо, lockywolf (ok), 17:35 , 01-Дек-21, (38)
А сравнивали apt install cuneiform -y, Аноним (55), 10:38 , 02-Дек-21, (55)

Сравнивали, сравнивали Китайского нет в списке поддерживаемых -- толку с него к, Аноним (7), 12:59 , 02-Дек-21, (62) +1

ну не знаю, для бесплатного вполне прилично Если распечатать текст и отсканиров, Jh (?), 22:52 , 02-Дек-21, (66)

Нестандартные красивые шрифты вообще не распознаёт , Аноним (7), 23:02 , 02-Дек-21, (68)

Сравниили мягкое с тёплым LSTM - это модель для последовательностей, а не карти, Аноним (18), 14:08 , 01-Дек-21, (16)

Так текст - это и есть последовательность Вполне можно распознать символы и для, Nuzhny (?), 15:26 , 01-Дек-21, (27)

Да это понятно Просто сравнили тёплое распознавание векторов символов из пик, Аноним (18), 21:14 , 01-Дек-21, (44)

При посимвольном распознавании будет много опечаток-ошибок, поэтому распознают с, Андрей (??), 16:05 , 01-Дек-21, (34) +3

Djvu распознавать уже осилили , Аноним (-), 14:16 , 01-Дек-21, (20)

За километр распознаю, и со словами мусорное ненужно из прошлого века удаляю , Tesseract50 (?), 14:23 , 01-Дек-21, (21)

Воистину мусорное ненужно из прошлого века, не удаляю только потому что побрезго, Аноним (-), 12:49 , 02-Дек-21, (61)

Предварительно генерируй изображения страниц через ddjvu, распознавай То же и р, Аноним (24), 14:27 , 01-Дек-21, (24) +1
Давно уже видел скрипт на perl, который разбирает djvu на картинки ddjvu , расп, Аноним (63), 16:13 , 02-Дек-21, (63)

Нужно в epub из всяких djvu и pdf и желательно без костылей, а напрямую Finerea, Аноним (-), 17:26 , 02-Дек-21, (65) –1

epub теряет look feel оригинального документа Он может быть довеском к djvu для, Аноним (63), 23:44 , 02-Дек-21, (69)

Ну тут я бы не был столь категоричен Потеря look feel - это скорее проблема fb2, Аноним (73), 11:31 , 03-Дек-21, (73)

больше всего не хватает сегментирования текста как в файнридере, Аноним (22), 14:26 , 01-Дек-21, (22) +3

Оно там есть как минимум с версии 3, но таблицы действительно до сих пор не расп, Аноним (39), 18:15 , 01-Дек-21, (39)

Какие-то бенчмарки 4 1 vs 5 0 уже подвезли , Аноним (24), 14:29 , 01-Дек-21, (25)
Чем оно лучше PaddleOCR 129300 , Иваня (?), 15:38 , 01-Дек-21, (31)

А PaddleOCR чем лучше Распознаёт точнее, работает быстрее , Аноним (24), 16:39 , 01-Дек-21, (37)

да, Неанон (?), 19:43 , 01-Дек-21, (43) –1

А где твои тесты, сравнения, анализ , Аноним (-), 00:55 , 02-Дек-21, (49) +2

т к 4 1 вышел в 2019 думаю заголовок правильный, макпыф (ok), 15:39 , 01-Дек-21, (32)
Насколько я помню, лет 5 назад с тренировкой моделей и распознаванием текста был, Аноним12345 (?), 16:39 , 01-Дек-21, (36)
А нормальное GUI-приложение когда появится, а не васянские поделки , Аноним (-), 18:38 , 01-Дек-21, (40) +5

А какие критерии нормальности Имхо, 95 случаев gImageReader более чем достаточ, Аноним (39), 21:41 , 01-Дек-21, (45)

Ты FineReader видел Можно хотя-бы 10 его функциональности и нормальный человеч, Аноним (-), 00:54 , 02-Дек-21, (48) +5

А что входит в эти 10 процентов , Аноним (50), 01:55 , 02-Дек-21, (50)
Ты цену на его серверную да-да, есть, linoops compatible версию без ограничени, Аноним (59), 12:10 , 02-Дек-21, (59) +1
Сколько стоит лицензия на файнридер , Jh (?), 22:56 , 02-Дек-21, (67) +1

https github com manisandro gImageReader выглядит довольно неплохо , Аноним (24), 13:21 , 03-Дек-21, (75)

Это как Коды utf-8 считываются с QR-кода Как можно по картинке восстановить ко, anonymous (??), 19:21 , 01-Дек-21, (42) +1

распознавание всех символов входящих в кодировку УТФ-8 , Аноним (77), 17:41 , 03-Дек-21, (77)

А готовые натренированные модели не обновлялись Для нейросетей главное даже н, Аноним (47), 00:21 , 02-Дек-21, (47) –1

Забавно Было слово движок , потом человек за недостаточностью грамотности поду, Аноним (79), 12:49 , 05-Дек-21, (79)

Пока в настройках не отключил улучшение качества изображения , утилита завершал, Аноним (55), 10:40 , 02-Дек-21, (56)
Быдстограм нормально парсит Гламурные кисы под колпаком , InuYasha (??), 11:26 , 02-Дек-21, (57) –1
Ну теперь то появится бесплатный софт распозначание текста , Аноним (71), 09:55 , 03-Дек-21, (71) +1

FineReader и так бесплатен в торрентах Лучше него всё равно ничего нет , Аноним (24), 13:16 , 03-Дек-21, (74)

Есь и много, САБЖ, например , Vasyan (??), 22:31 , 07-Дек-21, (82)

Типа раньше небыло , Vasyan (??), 22:30 , 07-Дек-21, (81)

Сообщения [Сортировка по ответам | RSS]

2. Сообщение от А где же каменты (?), 01-Дек-21, 13:01 +5 +/–

Название напоминает о фильме куб 2.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #26, #33, #52

3. Сообщение от Аноним (3), 01-Дек-21, 13:02 +17 +/–

>Ветка "master" в Git переименована в "main".
Очень важное изменение!

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #4, #54, #80

4. Сообщение от Аноним (4), 01-Дек-21, 13:06 +3 +/–

Всё как у дистрибутивов. Теперь по фен-шую.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3 Ответы: #29, #41

5. Сообщение от anonymous (??), 01-Дек-21, 13:10 +3 +/–

Так 5.0 или 4.1?! Вы уж там как-нибудь определитесь.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8, #13, #30

6. Сообщение от Аноним (6), 01-Дек-21, 13:11 +4 +/–

Проприетарные типы данных?
А проприетарной алгебры ещё не появилось?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #15, #17, #53

7. Сообщение от Аноним (7), 01-Дек-21, 13:23 +1 +/–

Довольно слабо распознаёт, я не знаю. Но лучше всё равно ничего нет. Приходится возиться с наложением фильтров, контрастностью, монохромными форматами и всем остальным. Как у гугла на телефонах работает распознование? Другие модели?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #9, #38, #55, #66

8. Сообщение от anonymous (??), 01-Дек-21, 13:24 +/–

По ходу зарелизился 4.1, а теперь начинается развитие 5.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #10

9. Сообщение от Кир (?), 01-Дек-21, 13:31 +1 +/–

Странно, по моему опыту -- распознает шикарно: без ошибок распознает даже не слишком качественные фотки с телефона. Можно пример плохо распознанного текста (ссылочку на картинку)?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #11, #19

10. Сообщение от s.d.s. (?), 01-Дек-21, 13:37 +/–

https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.0

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8

11. Сообщение от Аноним (7), 01-Дек-21, 13:38 +1 +/–

Любой текст. Мне иероглифы распознавать надо. -_-
В итоге приходится вручную посимвольно рисовать во всяких онлайн сервисах, иначе ничего не понятно. Это очень долго.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9 Ответы: #12, #18

12. Сообщение от Аноним (17), 01-Дек-21, 13:47 +/–

Как показывает практика, 90% успеха - в препроцессинге картиночки.
Большая часть маленьких приложух и/или статьи про то, как готовить тессеракт, заточены на распознание чеков и сканов, т.е. черного текста на белом и сфотканного под прямым углом.
Ну а если задача отличается, то какой-нибудь OpenCV и погнали экспериментировать))

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

13. Сообщение от nymous (?), 01-Дек-21, 13:55 +2 +/–

4.1.0 Release
@zdenop zdenop released this 07 Jul 2019
Похоже, рыбу прошлой новости толком не переписали.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #14

14. Сообщение от nymous (?), 01-Дек-21, 13:56 +/–

Так и есть
https://www.opennet.ru/opennews/art.shtml?num=51081

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

15. Сообщение от Аноним (15), 01-Дек-21, 14:03 +/–

Тоже удивился.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

16. Сообщение от Аноним (18), 01-Дек-21, 14:08 +/–

>базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM
>классический, распознающий текст на уровне шаблонов отдельных символов
Сравниили мягкое с тёплым. LSTM - это модель для последовательностей, а не картинок. И кстати уже давно не считается SOTA. Для картинок - CNN.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #27, #34

17. Сообщение от Аноним (17), 01-Дек-21, 14:08 +2 +/–

Да чушь какая-то в новости.
У них в коде было условно class MyVector {}; class MyString {};
Перешли на STL контейнеры. Всё.
По мнению автора новости любой класс, которого нет в std:: уже проприетарный?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #46

18. Сообщение от Аноним (18), 01-Дек-21, 14:09 +4 +/–

Лучше FineReaderа ничего не знаю.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #11

19. Сообщение от ананоша (?), 01-Дек-21, 14:11 +/–

По моему опыту в 4.х есть проблемки, потратил несколько недель чтобы добиться корректного распознавания, но все равно есть ошибки на ровном месте, иногда вместо одного символа определяет два других, смешновато получается. Очень ждал 5ый релиз, надеюсь ситуация улучшилась, осталось дождаться порта на жс :)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9

20. Сообщение от Аноним (-), 01-Дек-21, 14:16 +/–

Djvu распознавать уже осилили?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #21, #24, #63

21. Сообщение от Tesseract50 (?), 01-Дек-21, 14:23 +/–

За километр распознаю, и со словами "мусорное ненужно из прошлого века" удаляю.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #61

22. Сообщение от Аноним (22), 01-Дек-21, 14:26 +3 +/–

больше всего не хватает сегментирования текста как в файнридере

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #39

24. Сообщение от Аноним (24), 01-Дек-21, 14:27 +1 +/–

Предварительно генерируй изображения страниц через ddjvu, распознавай. То же и распознавания любых PDF и касается - Ghostscript в помощь.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20

25. Сообщение от Аноним (24), 01-Дек-21, 14:29 +/–

Какие-то бенчмарки 4.1 vs 5.0 уже подвезли?

Ответить | Правка | Наверх | Cообщить модератору

26. Сообщение от _hide_ (ok), 01-Дек-21, 15:14 –3 +/–

Результаты распознавания напоминают "Приключения Алисы в Стране чудес"

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2 Ответы: #28

27. Сообщение от Nuzhny (?), 01-Дек-21, 15:26 +/–

Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM для исправления ошибок распознавания.
Ну и про SOTA однозначно сказать нельзя так, в картинки уже пришли трансформеры и вполне успешно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16 Ответы: #44

28. Сообщение от _hide_ (ok), 01-Дек-21, 15:31 +1 +/–

Всё зависит от того, какие использовать словари.
Если использовать те, что в новости, то получается не очень. С https://github.com/tesseract-ocr/tessdata получше, но тоже есть косяки.
Поманьячив с фильтрами, получаем вполне корректный текст.
Вывод: нужно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #26

29. Сообщение от Аноним (29), 01-Дек-21, 15:32 +1 +/–

Всё как у других IT-проектов.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4

30. Сообщение от Аноним (29), 01-Дек-21, 15:33 +9 +/–

5 + 0 == 4 + 1
чё не нравится?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5

31. Сообщение от Иваня (?), 01-Дек-21, 15:38 +/–

Чем оно лучше PaddleOCR? 🤔

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #37

32. Сообщение от макпыф (ok), 01-Дек-21, 15:39 +/–

> Релиз системы распознавания текста Tesseract 5.0
> Опубликован релиз системы оптического распознавания текста Tesseract 4.1
т.к. 4.1 вышел в 2019 думаю заголовок правильный

Ответить | Правка | Наверх | Cообщить модератору

33. Сообщение от Аноним (33), 01-Дек-21, 16:00 –2 +/–

А мне о игре

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

34. Сообщение от Андрей (??), 01-Дек-21, 16:05 +3 +/–

При посимвольном распознавании будет много опечаток-ошибок, поэтому распознают словами-последовательностями, для чего собсна и используют ЛСТМ.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16

36. Сообщение от Аноним12345 (?), 01-Дек-21, 16:39 +/–

Насколько я помню, лет 5 назад с тренировкой моделей и распознаванием текста было не очень

Ответить | Правка | Наверх | Cообщить модератору

37. Сообщение от Аноним (24), 01-Дек-21, 16:39 +/–

А PaddleOCR чем лучше? Распознаёт точнее, работает быстрее?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #31 Ответы: #43

38. Сообщение от lockywolf (ok), 01-Дек-21, 17:35 +/–

Он чувствителен к искажениям картинки. Так то распознаёт хорошо, но именно распознаёт.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7

39. Сообщение от Аноним (39), 01-Дек-21, 18:15 +/–

Оно там есть как минимум с версии 3, но таблицы действительно до сих пор не распознает.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #22

40. Сообщение от Аноним (-), 01-Дек-21, 18:38 +5 +/–

А нормальное GUI-приложение когда появится, а не васянские поделки?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #45, #75

41. Сообщение от Тот_Самый_Анонимус (?), 01-Дек-21, 18:57 +2 +/–

>Всё как патрия приказала.
Очевидный фикс, не стоит благодарности.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #4 Ответы: #51

42. Сообщение от anonymous (??), 01-Дек-21, 19:21 +1 +/–

> поддерживающей распознавание символов UTF-8
Это как? Коды utf-8 считываются с QR-кода? Как можно по картинке восстановить кодировку? Я понимаю по картинке получить нормализованный юникод. Но в юникоде ведь code point. А конкретная кодировка может быть любой.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #77

43. Сообщение от Неанон (?), 01-Дек-21, 19:43 –1 +/–

да

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #37 Ответы: #49

44. Сообщение от Аноним (18), 01-Дек-21, 21:14 +/–

>Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM
Да это понятно. Просто сравнили "тёплое" (распознавание векторов символов из пикселов) с "мягким" (постобработка для получения текста, что графовой моделью, что нейронкой).

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #27

45. Сообщение от Аноним (39), 01-Дек-21, 21:41 +/–

А какие критерии нормальности? Имхо, 95% случаев gImageReader более чем достаточно.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #40 Ответы: #48

46. Сообщение от Аноним (46), 01-Дек-21, 22:10 +1 +/–

Это просто перевод кривой. Propietary переводится как собственный, что в контексте типов данных — вполне нормальный эпитет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

47. Сообщение от Аноним (47), 02-Дек-21, 00:21 –1 +/–

А "готовые натренированные модели" не обновлялись? Для нейросетей главное даже не движек, а чтоб сами сети качественными были.

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #79

48. Сообщение от Аноним (-), 02-Дек-21, 00:54 +5 +/–

Ты FineReader видел? Можно хотя-бы 10% его функциональности и нормальный человеческий интерфейс?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #45 Ответы: #50, #59, #67

49. Сообщение от Аноним (-), 02-Дек-21, 00:55 +2 +/–

А где твои тесты, сравнения, анализ?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #43

50. Сообщение от Аноним (50), 02-Дек-21, 01:55 +/–

А что входит в эти 10% процентов?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48

51. Сообщение от Аноним (51), 02-Дек-21, 03:28 +2 +/–

Это свобода, как говорят у них там

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #41

52. Сообщение от Аноним (52), 02-Дек-21, 06:00 –1 +/–

И ещё "массаракш" из Обитаемого Острова

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

53. Сообщение от Аноним (52), 02-Дек-21, 06:05 +/–

Не знаю на счёт проприетарной алгебры, но незаконные числа уже есть:
https://en.wikipedia.org/wiki/Illegal_number

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6

54. Сообщение от Аноним (54), 02-Дек-21, 09:33 –1 +/–

это единственное, что привело к такому увеличению номера версии. блм и прочие чернильники только так узнают безопасность продукта.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

55. Сообщение от Аноним (55), 02-Дек-21, 10:38 +/–

> лучше всё равно ничего нет
А сравнивали?
apt install cuneiform -y

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #62

56. Сообщение от Аноним (55), 02-Дек-21, 10:40 +/–

> YAGF
Пока в настройках не отключил "улучшение качества изображения", утилита завершалась аварийно с любыми движками (так что сабж не при чем).

Ответить | Правка | Наверх | Cообщить модератору

57. Сообщение от InuYasha (??), 02-Дек-21, 11:26 –1 +/–

Быдстограм нормально парсит. Гламурные кисы под колпаком.

Ответить | Правка | Наверх | Cообщить модератору

59. Сообщение от Аноним (59), 02-Дек-21, 12:10 +1 +/–

Ты цену на его серверную (да-да, есть, linoops compatible) версию без ограничений использования видел? А то - да, можно - и интерфейс человеческий, rest api.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48

61. Сообщение от Аноним (-), 02-Дек-21, 12:49 +/–

> Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard
Воистину мусорное ненужно из прошлого века, не удаляю только потому что побрезговал поставить

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21

62. Сообщение от Аноним (7), 02-Дек-21, 12:59 +1 +/–

Сравнивали, сравнивали. Китайского нет в списке поддерживаемых -- толку с него как с козла молока. Последний раз шевелилось 10+ лет назад. Спасибо, сами используйте.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #55

63. Сообщение от Аноним (63), 02-Дек-21, 16:13 +/–

Давно уже видел скрипт на perl, который разбирает djvu на картинки (ddjvu), распознает их tesseract, и запихивает результат обратно в djvu текстовым слоем

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #20 Ответы: #65

65. Сообщение от Аноним (-), 02-Дек-21, 17:26 –1 +/–

Нужно в epub из всяких djvu и pdf и желательно без костылей, а напрямую. Finereader, к примеру, так умеет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #63 Ответы: #69

66. Сообщение от Jh (?), 02-Дек-21, 22:52 +/–

ну не знаю, для бесплатного вполне прилично. Если распечатать текст и отсканировать, то практически 100%.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #7 Ответы: #68

67. Сообщение от Jh (?), 02-Дек-21, 22:56 +1 +/–

Сколько стоит лицензия на файнридер?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #48

68. Сообщение от Аноним (7), 02-Дек-21, 23:02 +/–

Нестандартные красивые шрифты вообще не распознаёт.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #66

69. Сообщение от Аноним (63), 02-Дек-21, 23:44 +/–

epub теряет look&feel оригинального документа. Он может быть довеском к djvu для тех, кто читает с телефона, но реально djvu не заменит для старых сканированных доков.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #65 Ответы: #73

71. Сообщение от Аноним (71), 03-Дек-21, 09:55 +1 +/–

Ну теперь то появится бесплатный софт распозначание текста?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #74, #81

73. Сообщение от Аноним (73), 03-Дек-21, 11:31 +/–

Ну тут я бы не был столь категоричен. Потеря look&feel - это скорее проблема fb2, a не epub

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #69

74. Сообщение от Аноним (24), 03-Дек-21, 13:16 +/–

FineReader и так бесплатен в торрентах. Лучше него всё равно ничего нет.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #71 Ответы: #82

75. Сообщение от Аноним (24), 03-Дек-21, 13:21 +/–

https://github.com/manisandro/gImageReader выглядит довольно неплохо.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #40

77. Сообщение от Аноним (77), 03-Дек-21, 17:41 +/–

"распознавание всех символов входящих в кодировку УТФ-8"

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #42

79. Сообщение от Аноним (79), 05-Дек-21, 12:49 +/–

Забавно! Было слово "движок", потом человек за недостаточностью грамотности подумал (или увидел где-то), что там "ё". Будучи нелюбителем "ё" (или лениво её печатать), стал писать "движек". И вот, теперь это похоже на какую-то чешскую фамилию :)

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #47

80. Сообщение от Анонимян (?), 06-Дек-21, 12:09 +/–

Это самое важное! Лишь бы не оскорблять нигеров. Хотя казалось бы , неужели они читают сорцы?

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #3

81. Сообщение от Vasyan (??), 07-Дек-21, 22:30 +/–

Типа раньше небыло.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #71

82. Сообщение от Vasyan (??), 07-Дек-21, 22:31 +/–

Есь и много, САБЖ, например.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #74

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2024 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

2. Сообщение от А где же каменты (?), 01-Дек-21, 13:01	+5 +/–
Название напоминает о фильме куб 2.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #26, #33, #52

3. Сообщение от Аноним (3), 01-Дек-21, 13:02	+17 +/–
>Ветка "master" в Git переименована в "main". Очень важное изменение!
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #4, #54, #80

4. Сообщение от Аноним (4), 01-Дек-21, 13:06	+3 +/–
Всё как у дистрибутивов. Теперь по фен-шую.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #3 Ответы: #29, #41

5. Сообщение от anonymous (??), 01-Дек-21, 13:10	+3 +/–
Так 5.0 или 4.1?! Вы уж там как-нибудь определитесь.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #8, #13, #30

6. Сообщение от Аноним (6), 01-Дек-21, 13:11	+4 +/–
Проприетарные типы данных? А проприетарной алгебры ещё не появилось?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #15, #17, #53

7. Сообщение от Аноним (7), 01-Дек-21, 13:23	+1 +/–
Довольно слабо распознаёт, я не знаю. Но лучше всё равно ничего нет. Приходится возиться с наложением фильтров, контрастностью, монохромными форматами и всем остальным. Как у гугла на телефонах работает распознование? Другие модели?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #9, #38, #55, #66

8. Сообщение от anonymous (??), 01-Дек-21, 13:24	+/–
По ходу зарелизился 4.1, а теперь начинается развитие 5.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5 Ответы: #10

9. Сообщение от Кир (?), 01-Дек-21, 13:31	+1 +/–
Странно, по моему опыту -- распознает шикарно: без ошибок распознает даже не слишком качественные фотки с телефона. Можно пример плохо распознанного текста (ссылочку на картинку)?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #7 Ответы: #11, #19

10. Сообщение от s.d.s. (?), 01-Дек-21, 13:37	+/–
https://github.com/tesseract-ocr/tesseract/releases/tag/5.0.0
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #8

11. Сообщение от Аноним (7), 01-Дек-21, 13:38	+1 +/–
Любой текст. Мне иероглифы распознавать надо. -_- В итоге приходится вручную посимвольно рисовать во всяких онлайн сервисах, иначе ничего не понятно. Это очень долго.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #9 Ответы: #12, #18

12. Сообщение от Аноним (17), 01-Дек-21, 13:47	+/–
Как показывает практика, 90% успеха - в препроцессинге картиночки. Большая часть маленьких приложух и/или статьи про то, как готовить тессеракт, заточены на распознание чеков и сканов, т.е. черного текста на белом и сфотканного под прямым углом. Ну а если задача отличается, то какой-нибудь OpenCV и погнали экспериментировать))
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #11

13. Сообщение от nymous (?), 01-Дек-21, 13:55	+2 +/–
4.1.0 Release @zdenop zdenop released this 07 Jul 2019 Похоже, рыбу прошлой новости толком не переписали.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5 Ответы: #14

14. Сообщение от nymous (?), 01-Дек-21, 13:56	+/–
Так и есть https://www.opennet.ru/opennews/art.shtml?num=51081
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #13

15. Сообщение от Аноним (15), 01-Дек-21, 14:03	+/–
Тоже удивился.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #6

16. Сообщение от Аноним (18), 01-Дек-21, 14:08	+/–
>базирующийся на применении системы машинного обучения на базе рекуррентной нейронной сети LSTM >классический, распознающий текст на уровне шаблонов отдельных символов Сравниили мягкое с тёплым. LSTM - это модель для последовательностей, а не картинок. И кстати уже давно не считается SOTA. Для картинок - CNN.
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #27, #34

17. Сообщение от Аноним (17), 01-Дек-21, 14:08	+2 +/–
Да чушь какая-то в новости. У них в коде было условно class MyVector {}; class MyString {}; Перешли на STL контейнеры. Всё. По мнению автора новости любой класс, которого нет в std:: уже проприетарный?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #6 Ответы: #46

18. Сообщение от Аноним (18), 01-Дек-21, 14:09	+4 +/–
Лучше FineReaderа ничего не знаю.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #11

19. Сообщение от ананоша (?), 01-Дек-21, 14:11	+/–
По моему опыту в 4.х есть проблемки, потратил несколько недель чтобы добиться корректного распознавания, но все равно есть ошибки на ровном месте, иногда вместо одного символа определяет два других, смешновато получается. Очень ждал 5ый релиз, надеюсь ситуация улучшилась, осталось дождаться порта на жс :)
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #9

20. Сообщение от Аноним (-), 01-Дек-21, 14:16	+/–
Djvu распознавать уже осилили?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #21, #24, #63

21. Сообщение от Tesseract50 (?), 01-Дек-21, 14:23	+/–
За километр распознаю, и со словами "мусорное ненужно из прошлого века" удаляю.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #20 Ответы: #61

22. Сообщение от Аноним (22), 01-Дек-21, 14:26	+3 +/–
больше всего не хватает сегментирования текста как в файнридере
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #39

24. Сообщение от Аноним (24), 01-Дек-21, 14:27	+1 +/–
Предварительно генерируй изображения страниц через ddjvu, распознавай. То же и распознавания любых PDF и касается - Ghostscript в помощь.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #20

25. Сообщение от Аноним (24), 01-Дек-21, 14:29	+/–
Какие-то бенчмарки 4.1 vs 5.0 уже подвезли?
Ответить \| Правка \| Наверх \| Cообщить модератору

26. Сообщение от _hide_ (ok), 01-Дек-21, 15:14	–3 +/–
Результаты распознавания напоминают "Приключения Алисы в Стране чудес"
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2 Ответы: #28

27. Сообщение от Nuzhny (?), 01-Дек-21, 15:26	+/–
Так текст - это и есть последовательность. Вполне можно распознать символы и для каждого выдать топ-3 самых вероятных, а дальше скормить эту последовательность символов в тот же LSTM для исправления ошибок распознавания. Ну и про SOTA однозначно сказать нельзя так, в картинки уже пришли трансформеры и вполне успешно.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #16 Ответы: #44

28. Сообщение от _hide_ (ok), 01-Дек-21, 15:31	+1 +/–
Всё зависит от того, какие использовать словари. Если использовать те, что в новости, то получается не очень. С https://github.com/tesseract-ocr/tessdata получше, но тоже есть косяки. Поманьячив с фильтрами, получаем вполне корректный текст. Вывод: нужно.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #26

29. Сообщение от Аноним (29), 01-Дек-21, 15:32	+1 +/–
Всё как у других IT-проектов.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #4

30. Сообщение от Аноним (29), 01-Дек-21, 15:33	+9 +/–
5 + 0 == 4 + 1 чё не нравится?
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5

31. Сообщение от Иваня (?), 01-Дек-21, 15:38	+/–
Чем оно лучше PaddleOCR? 🤔
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #37

32. Сообщение от макпыф (ok), 01-Дек-21, 15:39	+/–
> Релиз системы распознавания текста Tesseract 5.0 > Опубликован релиз системы оптического распознавания текста Tesseract 4.1 т.к. 4.1 вышел в 2019 думаю заголовок правильный
Ответить \| Правка \| Наверх \| Cообщить модератору