Распознавание текста с CuneiForm

Бесплатная "альтернатива" FineReader

Среди множества бесплатных OCR-решений пальму первенства уже довольно долгое время держит продукт под названием CuneiForm. Давайте посмотрим поближе, чем он хорош и плох, и стоит ли покупать FineReader, если есть его бесплатные аналоги.

Найти CuneiForm в Интернете очень легко, достаточно набрать в адресной строке браузера следующий URL: www.cuneiform.ru. Размер дистрибутива программы - чуть более тридцати мегабайт. Если вы - программист, возможно, вас заинтересует исходный код CuneiForm. Его можно найти там же, и размер его в архиве приблизительно такой же.

Работа с программой проста и прозрачна для любого, кто уже хоть раз сталкивался с системами распознавания текста. Впрочем, не думаю, что у тех, для кого CuneiForm станет первым программным продуктом этого класса, возникнут какие-либо проблемы. Сначала загружаем или сканируем картинку, потом выделяем области с текстом (если нужно) и нажимаем "распознать".

Поскольку основной критерий при выборе OCR-системы - это, как ни крути, распознавание, то о нём имеет смысл говорить особенно подробно. В плане скорости распознавания текста у меня на CuneiForm никаких нареканий нет: на целую страницу с текстом у программы уходит меньше пятнадцати секунд с учётом словарной проверки результатов. Но вот что касается качества распознавания... откровенно говоря, в этом плане создателям CuneiForm есть куда стремиться.

 

Для начала я загрузил в CuneiForm страницу, снятую цифровым фотоаппаратом с матрицей в 6.1 мегапикселов. Текста там было немного, поскольку основную часть страницы занимал рисунок. В итоге распознанный текст был совершенно нечитабелен: программа распознала правильно примерно треть слов, остальные же содержали, большей частью, символы, даже близко не похожие на те буквы, из которых был составлен текст.

Ладно. Вполне может быть, что снимок, сделанный "цифровиком", имеет слишком низкое качество для распознавания его в CuneiForm (хотя, помнится, FineReader, установленный у моего друга, прекрасно "кушал" снимки того же фотоаппарата). Для чистоты эксперимента я сделал скриншот этой самой статьи, набираемой в Word'е, и отправил её на распознавание в CuneiForm. Чтобы не описывать долго, что получилось в итоге, приведу текст первого абзаца статьи (того, который выделен жирным) в том виде, в каком его распознала программа:

=рераа "мужества Бесплатных Осп решеначая папе"х первенства уже швспенс рспгсе вре"в рержаат прсрхш пср нааванкаш рпшрсаш Давайте шс"ссраа" псрпкаже -е" сп хсраш аа ппсх аа стскат паа псхупать ршереапег спааестеегсвесппатныеанапсша '

Колдовство над настройками никаких положительных результатов не дало. При переключении с русского словаря на английский CuneiForm терял даже те два с трудом распознанных им слова, которые были в прошлом абзаце, хотя при этом появлялось правильно распознанное слово OCR. При отключении словарного контроля всё ещё более усугублялось, и число правильно распознанных символов - даже не слов - почему-то становилось вообще катастрофически низким.

Ещё одна интересная вещь: CuneiForm никак не хотел видеть текст дальше первого абзаца, и даже когда я размечал документ вручную, указывая программе, что и эту область нужно подвергнуть распознаванию, никаких положительных сдвигов заметно не было. Через некоторое время после повторных попыток хоть как-то улучшить ситуацию CuneiForm и вовсе слетел, вызвав каким-то образом ошибку в ntdll.dll.

Дальше я хотел рассказать про дополнительные возможности CuneiForm (экспорт распознанных документов, работу с таблицами, мастер распознавания...), но потом подумал, что при таком качестве распознавания текста это всё выглядит неинтересно и неубедительно. Всё-таки OCR-система должна сначала хорошо распознавать текст, а потом уже предлагать пользователю всякие дополнительные функции. Иначе получается что-то вроде автомобиля со встроенными телевизором, холодильником и сауной, но без двигателя.

Я бы, может, ещё списал качество распознавания текста на настройки программы - но в ней, в общем-то, фактически нечего настраивать. В диалоге настройки всего три вкладки, и, по большому счёту, кроме словаря, там выбирать особо нечего.

Так что, как видите, бесплатный сыр в очередной раз оказался не так хорош, как коммерческий. И называть CuneiForm реальной альтернативой FineReader'у и рука не поднимается, и язык не поворачивается. Так что слова разработчиков насчёт того, что "о достоинствах системы распознавания CuneiForm свидетельствует ее высокая оценка ведущими мировыми компаниями. Наиболее популярные в России сканеры и многофункциональные устройства Canon, Hewlett-Packard, OKI, Seiko Epson, Olivetti реализуются в комплекте с OCR CuneiForm" выглядят, скажем так, немного странно.

Вадим СТАНКЕВИЧ

Версия для печатиВерсия для печати

Номер: 

19 за 2008 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!
 

Комментарии

Аватар пользователя Andrew
Какая-то мрачная статья получилась. Да, несомненно ABBYY Fine Reader круче и более успешно распознает текст. Но, я сам попробовал распознать несколько отсканированных tiff-файлов (ч/б текст + картинки) с расширением 300 dpi. Так вот CuneiForm оказался не хуже. Допустил лишь одну ошибку в одном слове (букву "л" распознал как "п"). Вот и все!

Да, FineReader гораздо лучше распознает свотографированный текст, но если пользоваться сканером, то и данный бесплатный сыр не намного хуже платного.

Аватар пользователя Инкогнито
Действительно, надо будет самому посмотреть. А то Станкевичу доверия нету.
Аватар пользователя Димка
Полностью согласен с автором статьи.

Два раза пытался перейти на CuneiForm, но оба раза безуспешно.

Аватар пользователя Sens
Вадим, в соседней ветке так много приверженцев Linux, надо было пройтись и по OCR системам с поддержкой кириллицы под эту ОС (особенно интересуют Open Source проекты). ;)

http://www.opennet.ru/opennews/art.shtml?num=6608

http://subscribe.ru/archive/comp.soft.linux.discuss/date/700916?701020

Оказывается, что мальчика то и не было :)

Аватар пользователя Инкогнито
>>>Оказывается, что мальчика то и не было :)

А кто говорил, что мальчик был? Станкевич?

OCR с поддержкой кириллицы для Linux нет. CuneiForm тоже ещё нет под Линь. Свободной она стала всего несколько месяцев назад и об этом писалось, кстати, в КВ. А до этого CuneiForm была закрытой и коммеческой.

Так что говорить о CuneiForm как о представляющей свободные линукс-программы, Сенс - это полная глупость. CuneiForm разрабатывалась как коммерческая.

Аватар пользователя Sens
2 Инкогнито:

> Как что говорить о CuneiForm как о представляющей свободные линукс-программы, Сенс - это полная глупость. CuneiForm разрабатывалась как коммерческая.

Я имел в виду не именно CuneiForm, в коммерческом или некоммерческом варианте, а именно OCR системы под Linux, которые работают с кириллицей :)

Аватар пользователя Инкогнито
>>>Я имел в виду именно OCR системы под Linux

---

Так у Вадима Линукса то нету. Как он пройдётся то по OCR под Linux?

Аватар пользователя вапвапвап
Да он вообще текста не распознает - то есть абсолютно! Можно сколько угодно писать - но если софт фигня - то конфеткой он не станет