![]() |
Пред. тема | След. тема | ||
Форум Разговоры, обсуждение новостей | |||
---|---|---|---|
Изначальное сообщение | [ Отслеживать ] |
"Релиз системы распознавания текста Tesseract 5.3.4" | +/– | ![]() |
Сообщение от opennews (??), 18-Янв-24, 20:25 | ||
Опубликован релиз системы оптического распознавания текста Tesseract 5.3.4, поддерживающей распознавание символов UTF-8 и текстов на более чем 100 языках, включая русский, казахский, белорусский и украинский. Результат может сохраняться как открытым текстом, так и в форматах HTML (hOCR), ALTO (XML), PDF и TSV. Изначально система была создана в 1985-1995 годах в лаборатории компании Hewlett Packard, в 2005 году код был открыт под лицензией Apache и в дальнейшем развивался при участии работников компании Google. Исходные тексты проекта распространяются под лицензией Apache 2.0... | ||
Ответить | Правка | Cообщить модератору |
Оглавление |
Сообщения | [Сортировка по ответам | RSS] |
1. Сообщение от Аноним (1), 18-Янв-24, 20:25 | +10 +/– | ![]() |
Линуксу не хватает распознавания текстов уровня FineReader | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Ответы: #2, #14, #27 |
2. Сообщение от Аноним (2), 18-Янв-24, 20:31 | –10 +/– | ![]() |
Сейчас это любая нервно-сеть в инете сделает лучше, чем finereader | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #1 Ответы: #3, #8 |
3. Сообщение от Аноним (3), 18-Янв-24, 20:42 | +7 +/– | ![]() |
> в инете | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #2 Ответы: #5 |
4.
Сообщение от robot228![]() | +1 +/– | ![]() |
Есть где сравнение с FineReader? Я слышал китайцы делали но не смог найти инфы. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Ответы: #10 |
5. Сообщение от Аноним (5), 18-Янв-24, 20:45 | +/– | ![]() |
Без обучения все равно результат плохой. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #3 |
7. Сообщение от Аноним (7), 18-Янв-24, 20:46 | +1 +/– | ![]() |
Ещё бы готовые модели расшарили, а то гугл зажал. Те модели 10 летней давности не очень хорошие. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
8. Сообщение от Аноним (1), 18-Янв-24, 21:01 | +3 +/– | ![]() |
Сразу видно, что ты не занимаешься распознаванием документов и не в курсе всех задач, которые присущи данной теме. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #2 Ответы: #9 |
9. Сообщение от Аноним (2), 18-Янв-24, 21:09 | +/– | ![]() |
Ты что-ли занимаешься? Или софт вместо тебя этим занимается? | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #8 Ответы: #31 |
10. Сообщение от Quad Romb (ok), 18-Янв-24, 21:14 | +/– | ![]() |
Fraktur очень медленно распознаёт по сравнению с FR15. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #4 |
11. Сообщение от paulus (ok), 18-Янв-24, 21:26 | +1 +/– | ![]() |
Когда последний раз испытывал, это чудо не могло ничего от слова совсем :( Что-нибудь в лучшую сторону изменилось? | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Ответы: #12, #13 |
12. Сообщение от Quad Romb (ok), 18-Янв-24, 21:29 | +2 +/– | ![]() |
Могёт. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #11 |
13. Сообщение от Аноним (13), 18-Янв-24, 22:38 | +2 +/– | ![]() |
В кедовском Skanpage есть интеграция с тессерактом, на простых отсканированных документах и справках с год назад оно хорошо текст распознавало. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #11 |
14. Сообщение от Матвей (??), 18-Янв-24, 22:42 | +6 +/– | ![]() |
Еще с конца 90х юзал этот файнридер и альтернатив не видел. Но последние 2 года только тессеракт. Мне пофиг, что оно консольное, зато распознает 100% русских текстов самых разных шрифтов и качеств, которые я ей скармливаю. С помощью тессеракта оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #1 Ответы: #19 |
15. Сообщение от Аноним (15), 18-Янв-24, 22:49 | +1 +/– | ![]() |
Пока тессеракт не может распознавать в PDF и ODT с детекцией гарнитур, размеров, таблиц, подчёркиваний, жирности, курсивности, структуры абзаца и прочими фичами Файн Ридер 20летней давности - он так и будет не нужен. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Ответы: #18 |
16. Сообщение от Аноним (15), 18-Янв-24, 22:52 | –1 +/– | ![]() |
> Улучшено распознавание изображений по URL с загрузкой файла при помощи библиотеки libcurl. При загрузке обеспечено выставление заголовка User-Agent. Добавлен новый параметр curl_cookiefile для использования файла с Cookie. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
18. Сообщение от Тот_Самый_Анонимус_ (?), 19-Янв-24, 10:01 | +3 +/– | ![]() |
После файнридера приводить текст к единому стилю — то ещё удовольствие. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #15 |
19. Сообщение от onanim (?), 19-Янв-24, 10:07 | +8 +/– | ![]() |
> оцифровал десятки книг из древних архивов, которых вообще еще нигде в цифровом виде не было. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #14 |
20. Сообщение от Ильч (?), 19-Янв-24, 10:44 | +/– | ![]() |
Это все прекрасно. А какие линуксовые программульки могут распозновать рукописный текст? | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
23.
Сообщение от Аноним![]() | +/– | ![]() |
Не понимаю чего с "этим" возятся, это же позор. Уже давным давно появились более адекватные распознавалки со свободной лицензией и открытым кодом. Например PaddleOCR. А это надо закопать! | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Ответы: #24 |
24. Сообщение от Аноним (24), 19-Янв-24, 15:06 | +/– | ![]() |
Потому что это компактная, не привязанная ни к чему сишная либа, а не очередной кусок питонокода, требующий питоновую инфраструктуру и кучу пакетов для запуска. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #23 Ответы: #25, #30 |
25. Сообщение от Бывалый смузихлёб (?), 19-Янв-24, 15:54 | –2 +/– | ![]() |
> Если языковой барьер не мешает, то пожалуйста. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #24 Ответы: #26 |
26. Сообщение от Аноним (24), 19-Янв-24, 16:10 | +/– | ![]() |
Не запретили. Как и выучить китайский. Речь не о принципиальной невозможности, а о дополнительном геморрое. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #25 |
27. Сообщение от Jh (?), 19-Янв-24, 20:16 | +/– | ![]() |
tesseract хорошо распознает. Я его тестировал на сканах ксерокопий в 200взш которые нам присылали из больниц. В чем проблема, что он распознает таблицы. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #1 Ответы: #28, #29 |
28. Сообщение от Jh (?), 19-Янв-24, 20:18 | +/– | ![]() |
не распознает. А с фанридером лично у меня всегда были проблемы если результат надо было редактировать. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #27 |
29. Сообщение от Jh (?), 19-Янв-24, 20:30 | +/– | ![]() |
И еще есть гуй для этой утилиты - gimagereader. Довольно неполохой | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #27 |
30. Сообщение от cat666 (ok), 19-Янв-24, 21:22 | +1 +/– | ![]() |
Ты даже не в теме. Никакие куски питона там не нужны. Я собирал на C++ и библиотеку и программу распознавания. Всё остальное просто нервно курит в сторонке по качеству распознавания. Много документации на английском, для этого надо просто зайти на GitHub. Китайцы молодцы. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #24 Ответы: #33 |
31. Сообщение от Прадед (?), 20-Янв-24, 09:28 | +/– | ![]() |
Недавно занимался распознаванием документа. Потом уснул.. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #9 Ответы: #32 |
32. Сообщение от Аноним (-), 20-Янв-24, 12:58 | +/– | ![]() |
> Недавно занимался распознаванием документа. Потом уснул.. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #31 |
33. Сообщение от Аноним (33), 20-Янв-24, 15:25 | +1 +/– | ![]() |
Китайцы безусловно молодцы, факт. | ||
Ответить | Правка | Наверх | Cообщить модератору | ||
Родитель: #30 |
Архив | Удалить |
Рекомендовать для помещения в FAQ | Индекс форумов | Темы | Пред. тема | След. тема |
Закладки на сайте Проследить за страницей |
Created 1996-2025 by Maxim Chirkov Добавить, Поддержать, Вебмастеру |