Научную информацию надо сохранять и размножать

Недавно на страницах газеты была опубликована прелюбопытнейшая статья Вадима Станкевича ("КВ" №2 от 17.01.07), в которой автор рассуждал о проблемах, связанных с производством и потреблением онлайновой информации.

Вспомнился старый анекдот: "В Литературном институте идет вступительный экзамен. Экзаменаторы долго пытаются выяснить у чукчи, каких же классиков читал абитуриент, на что тот, наконец, гордо ответил: "Чукча - не читатель, чукча - писатель!"".

Совершенно прав В. Станкевич, число "писателей" растет неудержимо. С еще большей скоростью увеличивается объем словесного мусора, к информации не имеющего никакого отношения. Может, это возрастное брюзжание, но мне кажется, что в Usenet Newsgroups не принято было выставлять на всеобщее обозрение такие диалоги, какие теперь сплошь и рядом встречаются в форумах: "Вот встал я с бодуна" - "Гы" - и т.д. А культура письма... О нетикете значительная часть нынешней молодежи, похоже, вообще не ведает.

В чем я расхожусь с автором, так это в степени пессимизма. Коллапса Интернета не будет; найдутся некие новые механизмы, которые позволят эффективно отделять информацию от не-информации. Вспомним недавнюю историю: тематический каталог Yahoo!, ранжирование по частоте поисковых терминов у AltaVista, ранжирование по авторитетности документов у Google - в нужный момент происходили ведь прорывы в сортировке зерен и плевел.

А теперь, веря в светлое будущее, посмотрим, что же, кроме проблемы эффективного обнаружения полезных сведений, волнует меньшую (?) долю пользователей Интернета - читателей. Не буду судить обо всех, но научная аудитория сильно озабочена нестабильностью уже имеющихся ресурсов. Причины, приводящие к исчезновению документов из Сети, разнообразны: финансовые трудности владельца сервера или хозяина ресурса, техническая реорганизация сайта, субъективное решение автора... Даже в консервативном научном мире опубликованная информация тает подобно арктическим льдам. Журнал Science в 2003 г. сообщил, что уже через 27 месяцев после публикации научной статьи недействительными в списке использованной литературы оказываются 13% ссылок на интернет-ресурсы. Мой опыт говорит, что эта оценка излишне оптимистична.

У нестабильности есть следствие: низкое доверие ученых к онлайновым журналам. Авторитетные авторы несут свои работы в редакции "первосортных" печатных изданий, пренебрегая "второсортными" электронными; онлайновые старт-апы в конкурентной борьбе оказываются без мощной интеллектуальной поддержки. Возникает причинно-следственный замкнутый круг, который отнюдь не способствует прогрессу.

Парадокс состоит в том, что статьи, опубликованные в онлайновых изданиях (а они, большей частью, бесплатны для читателя), цитируются не хуже, чем статьи, напечатанные в журналах, распространяемых по подписке.

Что же предпринимает сообщество для сохранения однажды опубликованной в Интернете информации?

Онлайновые журналы практикуют запись годовых комплектов на компакт-диски и рассылку их по ведущим библиотекам.

Богатые страны создают национальные хранилища электронной информации. Так, например, недавно Дж. Буш подписал директиву, согласно которой авторы, получившие гранты от правительственного National Institute of Health, обязаны архивировать свои публикации в PubMed Central (доступ к которому, кстати, бесплатен для всех, в том числе для нас с вами).

В последние годы стремительно растет число университетских репозиториев, в которых собираются копии публикаций сотрудников соответствующих учреждений; есть репозитории и межведомственные, и международные.

Библиотеки, действуя по принципу "Коммерческие компании приходят и уходят, а мы будем существовать всегда", создали консорциум JSTOR для сбора и хранения электронных версий печатных научных журналов.

Копирование научных данных - дело полезное, его надо приветствовать. Слишком многого лишилось человечество в прошлом, передавая, казалось бы, сверхнадежной государственной охране единичные экземпляры важных документов. (Сложно убить мамонта, легко - таракана. С мамонтами люди справились, но с тараканами все как-то не получается...)

Как видим, для сохранения "формальных" статей кое-что предпринимается. А что же с обычными веб-страницами? Кто-то сослался на публикацию коллеги, а ее через месяц и след простыл... Вот ситуация еще неприятнее. Профессор Х в работе доктора Y обнаружил явную чушь, о чем и поведал миру (в интеллигентной, естественно, форме), дав соответствующую ссылку на веб-страницу. Доктор Y быстренько выправил документ и загрузил его на сервер под прежним адресом. Через некоторое время академик Z видит в Интернете "белого и пушистого Y" и "склочного маразматика Х", делая в уме неправедные оргвыводы.

Для тех, кто хочет избежать подобных казусов, в Интернете есть бесплатный сервис WebCite (www.webcitation.org), где любой пользователь может составить заявку на архивирование любой веб-страницы.

Процесс архивирования прост: в разделе ARCHIVE следует заполнить бланк (обязательные поля: URL документа и свой e-mail; необязательные: название, автор, издатель, дата публикации, ключевые слова). WebCite копирует страницу и хранит на своем сервере ее HTML-код вместе со встроенными рисунками. Заказчик по почте получает подтверждение об успешности операции и адрес архивной копии вот такого формата: www.webcitation.org/5UrfCH93a. Теперь всегда можно в списке цитированной литературы к библиографическому описанию добавлять и ссылку на архивную копию как на доказательство существования в Сети именно этой информации именно в указанный день.

Процесс архивирования допускает автоматизацию. Из раздела BOOKMARKLET сервиса загрузите апплет, который встроит в Bookmarks или Favorites браузера команду Webcite this page, и тогда создание копий потребует не больших усилий, чем сохранение адресов посещаемых страниц.

Если веб-страница изменяется со временем, можно сохранять ее варианты, и все они останутся доступными в архиве.

Будет ли этот сервис надежным и постоянно бесплатным, покажет время. Пока что некоторые детали вселяют надежду на его развитие в благоприятном для нас направлении. Система разработана и базируется в Канаде, в университете Торонто, похоже, имеет устойчивое финансирование, число ее приверженцев растет. Вот характерный пример: крупное онлайновое издательство BioMed Central требует от своих авторов обязательных ссылок на архивированные копии веб-страниц в списке цитируемой литературы.

Конечно, не все идеально у WebCite. Случается, что некоторые страницы не архивируются - если авторы запретили кэширование мета-тэгами, если роботу закрыт доступ к серверу, если страница содержит сложный код JavaScript; наблюдались проблемы и с CSS. Пока что WebCite не имеет функции поиска по создаваемой базе данных. Отсутствует возможность архивирования сайта. Но придираться не будем - что зависит от создателей сервиса, они, надеемся, исправят в будущем.

Одного только опасаюсь: выстоит ли WebCite под ударами тех, о ком В. Станкевич предупреждал в январе?

Александр РАГОЙША,
[email protected]