О размножении книг и не только...

Когда заходишь в книжный магазин или на книжный базар, возникает ностальгия по старым советским временам, когда цены на книги были не в пример ниже. Да и выбор качественной литературы был, как ни странно, больше.

Итак, если в вашем распоряжении имеется сканер, доступ к интересной для вас литературе и желание сделать настоящую электронную книгу, читаем дальше. Если есть только литература и большое желание - покупаем сканер, благо, для наших целей подойдут даже самые простые модели ценой $45-60, что при стоимости одной хорошей книги 10-20 тыс. рублей довольно быстро окупится.


Для тех, кто хочет сделать это "по-быстрому"...

Если вы не желаете заморачиваться с тонкостями разных форматов и программ, есть такой вариант - сканируем и распознаем книгу в программе ABBYY Fine Reader и сохраняем в любой приглянувшийся формат - среди них есть и популярные DOC и PDF. Плюс такого подхода очевиден - затраты нашего личного времени минимальны - только страницы переворачивай. Такой подход может быть приемлем для научных работ, тонких брошюр или любой литературы, содержащей преимущественно текст без сложного форматирования и формул. Но в остальном - только минусы:

  1. Полученный файл не является ТОЧНОЙ КОПИЕЙ.
  2. Большое количество ошибок и мусора после распознавания, которые приходится исправлять вручную.
  3. Невозможность распознать формулы, порча иллюстраций, содержащих текст (т.к. Fine Reader по умолчанию пытается их распознать).
  4. Отсутствие удобной навигации в полученной книге - при большом объеме это очень неприятно.
 

Ради справедливости надо отметить, что в седьмой версии Fine Reader для PDF была опция "заменять неуверенно распознанные слова их изображениями", что позволяло получить без особых усилий более-менее "читабельный" документ. В восьмой версии эта опция, к сожалению, исчезла, зато появилась возможность выбирать алгоритм сжатия, в частности, CCITT4, полное название - CCITT Group 4 (CCITT - Consultative Committee International Telegraph and Telephone), позволяющий очень сильно и без особых потерь сжать черно-белые изображения (каковыми в большинстве своем и являются книги).

Из вышесказанного следует такой вот вывод: если к вам на время попала хорошая и нужная книга, вполне реально изготовить ее полноценную копию и даже более того. Вам когда-нибудь встречались бумажные книги с возможностью поиска и мгновенного перехода по оглавлению? Уверен, что нет.


Варинат №2 для ленивых, но сознательных

Скачайте замечательную бесплатную программу-просмотрщик графики IrfanView (на момент написания статьи последняя версия - 3.99, домашняя страница - www.irfanview.com). Выберите свой сканер (File - Select TWAIN Source), далее - Acquire/Batch Scanning.

Output File Name можно оставить по умолчанию. Здесь важно определиться с форматом, в который мы будем сохранять наши сканы. Есть два основных варианта. Если ваша книга или журнал напечатаны достаточно крупным и четким шрифтом, отсканируйте книгу в формат TIFF, используя для сохранения файлов алгоритм сжатия CCITT Fax 4 (только для черно-белых изображений!), разрешение при сканировании в большинстве случаев можно указывать 300 dpi. Второй вариант, предоставляющий больше возможностей для дальнейшей обработки, предполагает сохранение сканов не черно-белыми, а серыми (gray) в формат TIF с использованием алгоритма сжатия LZW. Режим сканирования (серый или черно-белый) и разрешение вы должны выбрать в TWAIN-драйвере сканера. Таким образом, сохраняя сканы серыми, мы и в скорости не потеряем, и приобретем дополнительные преимущества: возможность коррекции изображения, искусственное повышение разрешения (ресэмплинг). В минусах разве что увеличение размеров файлов при сканировании, что не так критично, и необходимость (несложной) обработки, если нужно получить черно-белое изображение. Таким образом, второй вариант более предпочтителен.

Так как с каждым сканом нам придется в будущем работать отдельно, желательно сохранять каждый отсканированный разворот в отдельный файл, а не в многостраничное изображение.

Если вы все же заинтересовались, будем разбираться дальше.


Выбираем форму для содержания

С содержанием и так все ясно - это хорошая, нужная книга (журнал, брошюра и пр.), электронную копию которой вы хотите иметь. Ну а что с форматом? Один из них - текстовый - получается после распознавания отсканированного оригинала. Если вас устроят достоинства и недостатки сканирования с последующим распознаванием и сохранением в текстовый формат, замечательно. А если нет? В таком случае есть два варианта - PDF и DjVu. Что бы там ни говорили, эти форматы очень похожи в главном - они являются контейнером для электронного документа.

На мой взгляд, в настоящее время формат DjVu более привлекателен для использования для "самиздата", чем какой-либо другой, и вот почему. В интернете существуют несколько, так сказать, инициативных групп, продвигающих данный формат, существует множество бесплатных программ, в том числе с открытым исходным кодом для создания и просмотра DjVu-файлов, которые динамично развиваются. Есть множество людей, готовых подсказать и помочь разобраться. Есть еще один очень важный довод - файлы DjVu при прочих равных условиях получаются существенно меньше, чем PDF. Но я умышленно не стану приводить результаты сравнения (которое я проводил и для себя лично), дабы не провоцировать очередную Священную Войну на тему "PDF или DjVu".


Врага надо знать в лицо, а друга - тем более!

Итак, с чем же нам предстоит работать? С текстово-графическим форматом DjVu. Изучим его подробнее.

Существующие компактные форматы JPG, GIF, факс-стандарт CCITT и JBIG обеспечивают достаточное сжатие, однако узко специализированы либо на фотографиях, либо на черно-белой графике и тексте. Поэтому смешанные изображения в их исполнении выглядят нечитаемыми. Авторы формата DjVu учли прежний опыт других разработчиков, их продукт представляет собой эдакую матрешку "3 в 1". Иными словами, изображение в формате DjVu состоит из 3 слоев. Первый слой - Mask (монохромная маска-трафарет) - содержит текст и прочие контрастные изображения и имеет разрешение 300 dpi. При таком разрешении текст достаточно хорошо читается, а размер файла остается небольшим. Ввиду того, что легкое размытие фоновой графики даже улучшает восприятие текста, фон без потерь для восприятия сохраняется с разрешением 100 dpi и образует второй слой - Background (цветной фон). В большинстве случаев цвет текста черный. И одинаковый для одного печатного знака. Данный факт позволяет сохранять цветовую информацию о тексте с разрешением всего 25 dpi. Цветовая информация образует третий слой - Foreground (цвета маски).

Как уже было сказано выше, для сжатия фона, маски и цветовой информации о маске применяются различные алгоритмы. Фон сжимается алгоритмом IW44, использующим вейвлет-преобразование. Слой-маска, не содержащая цветовой информации, упаковывается методом JB2, аналогичным применяемому при сжатии факсовых сообщений. Особенностью алгоритма JB2 является то, что он ищет на странице повторяющиеся символы и сохраняет их изображение только один раз. В многостраничных документах каждые несколько подряд идущих страниц пользуются общим "словарём" изображений. Цветовая информация о тексте также кодируется алгоритмом IW44, но разрешение снижается до 25 dpi. Кодер djvu старается создать подобие "графического шрифта" и по возможности довести схожие фрагменты изображения до идентичности. Если рассмотреть буквы в словах при большом увеличении, то видно, что близко стоящие одни и те же буквы абсолютно идентичны, причем таких серий может быть много, совсем не обязательно, чтобы один символ из "графического словаря" был применен ко всем похожим буквам. Напротив, таких эталонов может быть очень много для одной и той же буквы. Но, в целом, это дает существенное уменьшение размера файла. Нечто подобное существует у фирмы Cartesian Products, Inc, она разработала новый формат CPC для черно-белых файлов, очень похожий на CCITT Fax 4, но применяющий "графический OCR", что позволило существенно уменьшить размеры файлов, по сравнению с Fax 4. Эти два формата весьма схожи и взаимно конвертируемы при помощи кодера CPC. К сожалению, формат СРС является закрытым, принадлежит только указанной фирме, бесплатен всего лишь урезанный просмотрщик, и шансов на популярность у формата СРС, видимо, нет. Иными словами, такое сжатие можно с уверенностью назвать адаптивным, т.е. учитывающим особенности сжимаемого материала и восприятия человека.

Андрей АЧИНОВИЧ,
minhex@gmail.com

Версия для печатиВерсия для печати

Номер: 

05 за 2007 год

Рубрика: 

Software
Заметили ошибку? Выделите ее мышкой и нажмите Ctrl+Enter!