Оцифровка книг: общественный проект

Некоммерческая организация Internet Archive приступила к общественному проекту по сканированию всех книг в мире. Такую важную миссию нельзя доверять корпорациям, будь то Google или Microsoft.

База данных мирового интеллектуального достояния не может принадлежать какой-то одной фирме. Она должна быть общественным достоянием. Поэтому организация Internet Archive создала проект, который будет развиваться по модели open source, пишет News.com.

Неделю назад была устроена грандиозная презентация, где присутствовали многочисленные партнеры Internet Archive - компании Smithsonian Institution, Hewlett-Packard, Yahoo и MSN. Как видим, среди партнеров отсутствует компания Google. И это неудивительно, потому что эта фирма ведет свой собственный, аналогичный проект. Он ведется уже 10 месяцев и за это время удостоился немалой доли критики.

"Мы хотим перевести в цифровую форму все человеческие знания, и мы не можем рисковать, что они будут приватизированы", - говорит Дорон Вебер, исполнительный директор филантропической организации Alfred P. Sloan Foundation, которая за последние два года пожертвовала $3 млн. в пользу Internet Archive.

В то же время представители Google клятвенно заверяют, что совершенно не думали "приватизировать" знания. Они точно так же хотели выложить их в открытый доступ и сделать доступными для всех. У открытого проекта Internet Archive, мол, точно такие же цели, что и у Google Print.

Вообще, оцифровка мирового литературного наследия в последнее время стала своеобразной чашей Грааля для многих интернет-компаний. Самым первым в 2004 г. к сканированию книг приступил книжный магазин Amazon, так что теперь на их сайте доступен полнотекстовый поиск по содержанию каждой книги, которая есть в магазине.

Но оцифровка абсолютно всех книг, существующих в мире - это поистине титанический труд. По оценке Internet Archive, 1 млн. книг в цифровом виде - это 6 петабайт данных. Каждая книга сканируется с помощью специального сканера Scribe (на фото). При этом каждую книгу приходится перелистывать вручную, чтобы избежать ее повреждения.

Поначалу Internet Archive будет сканировать только те книги, на которые не распространяется копирайт или если правообладатели дали свое согласие на оцифровку. На самом деле эта работа идет уже давно, но лишь недавно было объявлено о начале глобального совместного проекта под названием Open Content Alliance. Членами этого альянса стали компания Adobe, Колумбийский университет, Европейский архив и др. Компании Yahoo и MSN Search тоже присоединились к проекту. Очевидно, чтобы противостоять аналогичной инициативе Google. Например, MSN Search пожертвовала на оцифровку книг $5 млн., чего хватит на оцифровку 150 тыс. книг в течение следующего года.

На прошлой неделе был открыт сайт OpenLibrary.org, на котором и будут выкладываться все книги, оцифрованные в рамках нового проекта. Сейчас там в демонстрационных целях выложено только 15 книг.

Анатолий АЛИЗАР