Распознавание текста в Ubuntu

 Совершенно не обязательно в Ubuntu запускать пиратский Finereader с помощью «неэмулятора» wine, чтобы нормально восстанавливать текст из изображений. Для этого давно существует другая программа с интерфейсом CLI, а теперь и с GUI. Программа называется tesseract-ocr, а графический фронтенд к ней – gimagereader.

Программа tesseract-ocr была разработана фирмой HP в 1995 г и особого распространения не получила, хотя и имела открытый код. Где-то в 2005 г за дело взялась вездесущая Google и, кажется, довела продукт до рабочей кондиции. Во всяком случае, мне так думается после сравнения её работы с Finereader: результаты вполне сопоставимы.

Устанавливать продукт надо путём установки GUI командой

sudo apt-get install gimagereader

При этом программа tesseract-ocr установится автоматически и будут удовлетворены все зависимости. Попутно будут подтянуты ещё несколько плагинов к Питону, который надеюсь, каждый уважающий себя убунтоид давно установил. Правда, при таком способе установки в связку GUI-CLI войдёт устаревшая версия 2 программы tesseract-ocr. Она не распознаёт русский язык, что совершенно неприемлемо. Поэтому её нужно обновить до версии 3 с помощью менеджера Synaptic, набрав в окне поиска tesseract-ocr и выполнив стандартные манипуляции по установке. Точно так же с помощью Synaptic'а нужно установить пакет tesseract-ocr-rus для русского языка. Остаётся зайти в директорий /usr/share/applcations и вытянуть значок программы gimagereader на рабочий стол или в лончерную панель. Вот как работает gimagereader:

 

Ну, а если и это уважаемым убунтоидам не по душе, то сообщаю, что уже давно открыт облачный сервис для Finereader, в чём можете убедиться, посетив страничку http://finereader.abbyyonline.com/ru/Task/Queue/ . За один приём облачный сервис распознаёт до 3-х страниц, всего до 50-и страниц в сутки, но нужна регистрация.

Короче, проблема с распознаванием текста в Ubuntu практически закрыта. Успехов!

Версия для печатиВерсия для печати

Рубрики: 

  • 1
  • 2
  • 3
  • 4
  • 5
Всего голосов: 0
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!

Читайте также