forum.opennet.ru - "Релиз системы распознавания текста Tesseract 5.2" (25)

"Релиз системы распознавания текста Tesseract 5.2"

Форум Разговоры, обсуждение новостей
Вариант для распечатки		Пред. тема \| След. тема
Изначальное сообщение		[ Отслеживать ]

"Релиз системы распознавания текста Tesseract 5.2"	+/–
Сообщение от opennews (??), 07-Июл-22, 17:06
Опубликован релиз системы оптического распознавания текста Tesseract 5.2, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... Подробнее: https://www.opennet.ru/opennews/art.shtml?num=57469
Ответить \| Правка \| Cообщить модератору

Оглавление

Скрыто модератором, Аноним (-), 17:06 , 07-Июл-22, (1) –9

Скрыто модератором, Аноним12345 (?), 17:12 , 07-Июл-22, (3)
Скрыто модератором, Shevchuk (ok), 17:17 , 07-Июл-22, (6) +3

Скрыто модератором, Grishow.Wise (?), 18:42 , 07-Июл-22, (9) +1

Скрыто модератором, Аноним (11), 20:09 , 07-Июл-22, (11)

Гугл последний раз раздавал модели хоть какие-нибудь 5 лет назад и не совсем п, Аноним (2), 17:10 , 07-Июл-22, (2) +1

В тессеракте как бы есть модель обучения, но она очень далека от обычных вычисли, Аноним12345 (?), 17:13 , 07-Июл-22, (4) –1

Оно почерк моего терапевта распознает , Жироватт (ok), 17:17 , 07-Июл-22, (5) +6

Оно даже чек из супермаркета не может распознать, Аноним12345 (?), 17:35 , 07-Июл-22, (8) +4

Я проверю, но мне так кажется, что проблема только в настройках контрастности р, tty0 (?), 18:52 , 07-Июл-22, (10) +1

Нет Это как исходник на Perl Сам автор не всегда разобрать может , Аноним (16), 04:36 , 08-Июл-22, (16) +6

Жаль Но вот приложение переводящее с врачебного в нормальный печатный было бы п, Жироватт (ok), 08:38 , 08-Июл-22, (17)

Иногда лучше многого не знать D, Попандопала (?), 10:17 , 08-Июл-22, (18) +2
В емиас все в utf8, Johny (?), 08:29 , 12-Июл-22, (26)

Годная штука И нормальные интерфейсы к ней есть , кубрик (?), 22:01 , 07-Июл-22, (12)
релиз системы оптического распознавания текста, поддерживающей распознавание си, Геймер (?), 22:48 , 07-Июл-22, (13) +3

рукописный текст на бумаге в UTF-8, Аноним (19), 10:55 , 08-Июл-22, (19) +4

00 мыслительный процесс останавливается от ваших заявлений хотя меня, анон_тот самый (?), 01:04 , 09-Июл-22, (21)

Оптимизация плохо зделана, Аноним (22), 02:52 , 09-Июл-22, (22) –1
Ну как, как 8212 примерно вот так Р 1029 Р 1109 Р 1029 Р Р 177 С 1107 , Аноним (25), 16:45 , 09-Июл-22, (25)

он что сказал распечатал ютф-8 на бумаге на бумаге в принципе ничего кроме чер, анон_тот самый (?), 21:00 , 13-Июл-22, (28)

Осталось изобрести АЦП, оцифровывающий цифровой звук , KhabMan (ok), 14:00 , 08-Июл-22, (20)
Скорее просто несколько языков отдельно смайлы и всякая экзотическая пунктуаци, InuYasha (??), 10:25 , 09-Июл-22, (23)

Эта штука может распознать только текст со скриншота, да и то не всегда , Аноним (24), 14:26 , 09-Июл-22, (24)
На самом деле начиная с версии 4 распознаются тексты на языках всех республик бы, mandms (ok), 11:26 , 13-Июл-22, (27)

Сообщения [Сортировка по ответам | RSS]

1. Сообщение от Аноним (-), 07-Июл-22, 17:06 –9 +/–

Оно всё также ужасно распознаёт (вернее, лишь пытается распознать) текст, где есть рюсске буквы?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #3, #6

2. Сообщение от Аноним (2), 07-Июл-22, 17:10 +1 +/–

Гугл последний раз раздавал модели (хоть какие-нибудь) 5 лет назад и не совсем понятно как можно натренировать свои собственные и сколько на это ресурсов потребуется (скорее всего много, недоступно много). Толку то с обновлений, если оно не распознаёт?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #4

3. Сообщение от Аноним12345 (?), 07-Июл-22, 17:12 +/–

Да уж ...

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1

4. Сообщение от Аноним12345 (?), 07-Июл-22, 17:13 –1 +/–

В тессеракте как бы есть модель обучения, но она очень далека от обычных вычислительных мощностей

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #2

5. Сообщение от Жироватт (ok), 07-Июл-22, 17:17 +6 +/–

Оно почерк моего терапевта распознает?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #8, #16

6. Сообщение от Shevchuk (ok), 07-Июл-22, 17:17 +3 +/–

https://i.imgur.com/hv7kmO2.png

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #1 Ответы: #9

8. Сообщение от Аноним12345 (?), 07-Июл-22, 17:35 +4 +/–

Оно даже чек из супермаркета не может распознать

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #10

9. Сообщение от Grishow.Wise (?), 07-Июл-22, 18:42 +1 +/–

вообще не пример. экранный текст 99.9% софта даже самого корявого прокатывает на 100%. вот лучше фото чека и что распознается в студию.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #6 Ответы: #11

10. Сообщение от tty0 (?), 07-Июл-22, 18:52 +1 +/–

Я проверю, но мне так кажется, что проблема только в настройках контрастности (раньше так было). Не забуду - попробую.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #8

11. Сообщение от Аноним (11), 07-Июл-22, 20:09 +/–

Из моего опыта работы с Tesseract могу сказать, что слова распознаются хорошо, но вот когда на входе пара-тройка букв/цифр и более ничего, то результат очень печальный. Конечно же я при этом включал режим посимвольного распознавания. Текст с экрана. Использовал готовые модели, сам не тренировал.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #9

12. Сообщение от кубрик (?), 07-Июл-22, 22:01 +/–

Годная штука. И нормальные интерфейсы к ней есть.

Ответить | Правка | Наверх | Cообщить модератору

13. Сообщение от Геймер (?), 07-Июл-22, 22:48 +3 +/–

"релиз системы оптического распознавания текста, поддерживающей распознавание символов UTF-8"
Это как? Может быть WTF?

Ответить | Правка | Наверх | Cообщить модератору
Ответы: #19, #20, #23

16. Сообщение от Аноним (16), 08-Июл-22, 04:36 +6 +/–

Нет. Это как исходник на Perl. Сам автор не всегда разобрать может.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #5 Ответы: #17

17. Сообщение от Жироватт (ok), 08-Июл-22, 08:38 +/–

Жаль. Но вот приложение переводящее с врачебного в нормальный печатный было бы просто бомба

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #16 Ответы: #18, #26

18. Сообщение от Попандопала (?), 08-Июл-22, 10:17 +2 +/–

Иногда лучше многого не знать. D

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

19. Сообщение от Аноним (19), 08-Июл-22, 10:55 +4 +/–

рукописный текст на бумаге в UTF-8

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13 Ответы: #21

20. Сообщение от KhabMan (ok), 08-Июл-22, 14:00 +/–

Осталось изобрести АЦП, оцифровывающий цифровой звук))

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

21. Сообщение от анон_тот самый (?), 09-Июл-22, 01:04 +/–

(00)/........ мыслительный процесс останавливается от ваших заявлений. хотя меня больше беспокоит возможность увидеть именно utf-8 на бумаге. правда очень хочу. это было бы чудо)))) в компе понятно, но на бумаге как?))) но по теме все эти OCR жутко лаговые.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #19 Ответы: #22, #25

22. Сообщение от Аноним (22), 09-Июл-22, 02:52 –1 +/–

Оптимизация плохо зделана

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21

23. Сообщение от InuYasha (??), 09-Июл-22, 10:25 +/–

Скорее просто несколько языков отдельно + смайлы и всякая экзотическая пунктуация.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #13

24. Сообщение от Аноним (24), 09-Июл-22, 14:26 +/–

Эта штука может распознать только текст со скриншота, да и то не всегда.

Ответить | Правка | Наверх | Cообщить модератору

25. Сообщение от Аноним (25), 09-Июл-22, 16:45 +/–

Ну как, как — примерно вот так:
РЅРѕ РЅР° Р±СѓРјР°РіРµ РєР°Рє

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #21 Ответы: #28

26. Сообщение от Johny (?), 12-Июл-22, 08:29 +/–

В емиас все в utf8

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #17

27. Сообщение от mandms (ok), 13-Июл-22, 11:26 +/–

> поддерживающей распознавание(...)текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский
На самом деле начиная с версии 4 распознаются тексты на языках всех республик бывшего СССР кроме туркменского.
(а всего на 123+ языках)
То есть, включая: армянский, грузинский, молдавский, все 3 прибалтийских, 4 среднеазиатских кроме туркменского, азербайджанский. [1]
[1] https://github.com/tesseract-ocr/tesseract/blob/main/doc/tes...
hye (Armenian), kat (Georgian), kat_old (Georgian - Old),
ron (Romanian; Moldavian; Moldovan),
lav (Latvian), lit (Lithuanian), est (Estonian),
kaz (Kazakh), uzb (Uzbek), uzb_cyrl (Uzbek - Cyrilic),
kir (Kirghiz; Kyrgyz), tgk (Tajik),
aze (Azerbaijani), aze_cyrl (Azerbaijani - Cyrilic),
Только про туркменский не написано что поддерживается (его 3-буквенный код в ISO 639-2 - tuk)

Ответить | Правка | Наверх | Cообщить модератору

28. Сообщение от анон_тот самый (?), 13-Июл-22, 21:00 +/–

он что сказал? распечатал ютф-8 на бумаге. на бумаге в принципе ничего кроме чернильных точек быть не может. вы это как то разберитесь. представление шрифта в операционной системе и на бумаге. не вводите народ в заблуждение. а его отображение в системе и при просмотре в проге без правильной кодировки это другое. на бумаге нет кодировок как таковых. а в принтерах сплошной постскрипт.

Ответить | Правка | Наверх | Cообщить модератору
Родитель: #25

Архив | Удалить

Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема

Партнёры:

Хостинг:

Закладки на сайте
Проследить за страницей

Created 1996-2025 by Maxim Chirkov
Добавить, Поддержать, Вебмастеру

1. Сообщение от Аноним (-), 07-Июл-22, 17:06	–9 +/–
Оно всё также ужасно распознаёт (вернее, лишь пытается распознать) текст, где есть рюсске буквы?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #3, #6

2. Сообщение от Аноним (2), 07-Июл-22, 17:10	+1 +/–
Гугл последний раз раздавал модели (хоть какие-нибудь) 5 лет назад и не совсем понятно как можно натренировать свои собственные и сколько на это ресурсов потребуется (скорее всего много, недоступно много). Толку то с обновлений, если оно не распознаёт?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #4

3. Сообщение от Аноним12345 (?), 07-Июл-22, 17:12	+/–
Да уж ...
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1

4. Сообщение от Аноним12345 (?), 07-Июл-22, 17:13	–1 +/–
В тессеракте как бы есть модель обучения, но она очень далека от обычных вычислительных мощностей
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #2

5. Сообщение от Жироватт (ok), 07-Июл-22, 17:17	+6 +/–
Оно почерк моего терапевта распознает?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #8, #16

6. Сообщение от Shevchuk (ok), 07-Июл-22, 17:17	+3 +/–
https://i.imgur.com/hv7kmO2.png
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #1 Ответы: #9

8. Сообщение от Аноним12345 (?), 07-Июл-22, 17:35	+4 +/–
Оно даже чек из супермаркета не может распознать
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5 Ответы: #10

9. Сообщение от Grishow.Wise (?), 07-Июл-22, 18:42	+1 +/–
вообще не пример. экранный текст 99.9% софта даже самого корявого прокатывает на 100%. вот лучше фото чека и что распознается в студию.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #6 Ответы: #11

10. Сообщение от tty0 (?), 07-Июл-22, 18:52	+1 +/–
Я проверю, но мне так кажется, что проблема только в настройках контрастности (раньше так было). Не забуду - попробую.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #8

11. Сообщение от Аноним (11), 07-Июл-22, 20:09	+/–
Из моего опыта работы с Tesseract могу сказать, что слова распознаются хорошо, но вот когда на входе пара-тройка букв/цифр и более ничего, то результат очень печальный. Конечно же я при этом включал режим посимвольного распознавания. Текст с экрана. Использовал готовые модели, сам не тренировал.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #9

12. Сообщение от кубрик (?), 07-Июл-22, 22:01	+/–
Годная штука. И нормальные интерфейсы к ней есть.
Ответить \| Правка \| Наверх \| Cообщить модератору

13. Сообщение от Геймер (?), 07-Июл-22, 22:48	+3 +/–
"релиз системы оптического распознавания текста, поддерживающей распознавание символов UTF-8" Это как? Может быть WTF?
Ответить \| Правка \| Наверх \| Cообщить модератору
Ответы: #19, #20, #23

16. Сообщение от Аноним (16), 08-Июл-22, 04:36	+6 +/–
Нет. Это как исходник на Perl. Сам автор не всегда разобрать может.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #5 Ответы: #17

17. Сообщение от Жироватт (ok), 08-Июл-22, 08:38	+/–
Жаль. Но вот приложение переводящее с врачебного в нормальный печатный было бы просто бомба
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #16 Ответы: #18, #26

18. Сообщение от Попандопала (?), 08-Июл-22, 10:17	+2 +/–
Иногда лучше многого не знать. D
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #17

19. Сообщение от Аноним (19), 08-Июл-22, 10:55	+4 +/–
рукописный текст на бумаге в UTF-8
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #13 Ответы: #21

20. Сообщение от KhabMan (ok), 08-Июл-22, 14:00	+/–
Осталось изобрести АЦП, оцифровывающий цифровой звук))
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #13

21. Сообщение от анон_тот самый (?), 09-Июл-22, 01:04	+/–
(00)/........ мыслительный процесс останавливается от ваших заявлений. хотя меня больше беспокоит возможность увидеть именно utf-8 на бумаге. правда очень хочу. это было бы чудо)))) в компе понятно, но на бумаге как?))) но по теме все эти OCR жутко лаговые.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #19 Ответы: #22, #25

22. Сообщение от Аноним (22), 09-Июл-22, 02:52	–1 +/–
Оптимизация плохо зделана
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #21

23. Сообщение от InuYasha (??), 09-Июл-22, 10:25	+/–
Скорее просто несколько языков отдельно + смайлы и всякая экзотическая пунктуация.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #13

24. Сообщение от Аноним (24), 09-Июл-22, 14:26	+/–
Эта штука может распознать только текст со скриншота, да и то не всегда.
Ответить \| Правка \| Наверх \| Cообщить модератору

25. Сообщение от Аноним (25), 09-Июл-22, 16:45	+/–
Ну как, как — примерно вот так: РЅРѕ РЅР° Р±СѓРјР°РіРµ РєР°Рє
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #21 Ответы: #28

26. Сообщение от Johny (?), 12-Июл-22, 08:29	+/–
В емиас все в utf8
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #17

27. Сообщение от mandms (ok), 13-Июл-22, 11:26	+/–
> поддерживающей распознавание(...)текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский На самом деле начиная с версии 4 распознаются тексты на языках всех республик бывшего СССР кроме туркменского. (а всего на 123+ языках) То есть, включая: армянский, грузинский, молдавский, все 3 прибалтийских, 4 среднеазиатских кроме туркменского, азербайджанский. [1] [1] https://github.com/tesseract-ocr/tesseract/blob/main/doc/tes... hye (Armenian), kat (Georgian), kat_old (Georgian - Old), ron (Romanian; Moldavian; Moldovan), lav (Latvian), lit (Lithuanian), est (Estonian), kaz (Kazakh), uzb (Uzbek), uzb_cyrl (Uzbek - Cyrilic), kir (Kirghiz; Kyrgyz), tgk (Tajik), aze (Azerbaijani), aze_cyrl (Azerbaijani - Cyrilic), Только про туркменский не написано что поддерживается (его 3-буквенный код в ISO 639-2 - tuk)
Ответить \| Правка \| Наверх \| Cообщить модератору

28. Сообщение от анон_тот самый (?), 13-Июл-22, 21:00	+/–
он что сказал? распечатал ютф-8 на бумаге. на бумаге в принципе ничего кроме чернильных точек быть не может. вы это как то разберитесь. представление шрифта в операционной системе и на бумаге. не вводите народ в заблуждение. а его отображение в системе и при просмотре в проге без правильной кодировки это другое. на бумаге нет кодировок как таковых. а в принтерах сплошной постскрипт.
Ответить \| Правка \| Наверх \| Cообщить модератору
Родитель: #25