РОССИЙСКИЙ НАУЧНЫЙ ЭЛЕКТРОННЫЙ ЖУРНАЛ Электронные библиотеки
2002 | Том 5 | Выпуск 1

Электронная библиотека старопечатных книг
в Библиотеке Российской академии наук

А.Ц. Масевич, Е.А. Савельева, А.К. Багажков, В.П. Захаров
Библиотека Академии Наук, г. Санкт-Петербург

Статья подготовлена в рамках проекта LibWeb-2 (гранты РФФИ 01-07-90445-в и РГНФ - грант 01-01-120216).


Изменения в области развития современных информационных технологий и средств передачи данных создали условия для новых подходов и решений проблем хранения документальной информации. В обобщенном виде такие подходы сегодня трактуются как создание "цифровых" или "электронных" библиотек. В общем случае под электронной библиотекой понимается распределенная информационная система, позволяющая накапливать, хранить и использовать разнообразные коллекции электронных документов. На смену информационному обслуживанию на бумажных носителях (печатные издания или рукописи) приходит обеспечение пользователей на основе электронных копий документов. Доступ в удобном для пользователей виде обеспечивается через глобальные сети передачи данных. Отдельные электронные коллекции могут распространяться также на компакт-дисках.

Создание электронных библиотек ведётся по всему миру. Широко известны программа по электронным библиотекам в США Digital Libraries Initiative (DLI), программа электронная "библиотека XXI века" в Японии, национальная программа eLib по созданию электронных библиотек в Великобритании и др. Существует уже немалое количество публикаций на эту тему, см., напр. [1-7]. Выходят отдельные книги (первая, известная нам [8], вышла еще в далеком 1984г., последняя (2000г.) уже существует в русском переводе [9]). Издаются целые журналы, посвященные данной проблематике (самый известный из них, вероятно, D-Lib [10]). Число определений, что такое электронная (цифровая, виртуальная) библиотека, исчисляется, по-видимому, сотнями или тысячами. Приведем хотя бы одно из них, весьма общее и всеобъемлющее: "Цифровая библиотека - это совокупность услуг и информационных объектов, их организация, структура и представление, которые помогают пользователям работать с информационными объектами, доступными непосредственно или косвенно через электронные/цифровые средства связи" [11]. Помимо естественного разнообразия мнений, наполнение данного понятия зависит также от среды, в которой создаются электронные библиотеки, и от задач, которые они призваны решать.

Начинаются эти работы и в России, в частности, принята и начинает реализовываться межведомственная программа "Электронные библиотеки России". Один из первых комплексных проектов по созданию электронных библиотек в нашей стране - "Создание распределенной электронной библиотеки на основе сети LibWeb информационных центров и библиотек России" (совместный проект РГНФ и РФФИ, научный руководитель Ю.Е.Хохлов) - родился в недрах библиотечного сообщества. Библиотека Российской академии наук, как одна из крупнейших российских и мировых библиотек, также участвует в нём. Важным аспектом нашего участия является оцифровка уникальных и особо ценных документов из фондов БАН с целью обеспечения их сохранности и предоставления к ним широкого доступа.

Перед учреждениями - хранителями значительных коллекций старопечатных книг стоят две взаимоисключающие задачи. С одной стороны, необходимо давать информацию об этих фондах, вводить ее в научный оборот, делать сами документы доступными возможно большему числу читателей. С другой стороны, каждое предоставление оригинала старопечатной книги читателю отрицательно отражается на ее физическом состоянии. Общепринятым решением проблемы сегодня является создание массива цифровых копий старопечатных книг, иначе говоря, электронных коллекций.

В настоящей статье излагаются принятые в БАН России подходы к созданию таких электронных библиотек, предусматривающие комплексное решение задачи. Эти подходы предусматривают разработку основных принципов создания электронных библиотек, методики работы, основных функций программных средств, структуры массива цифровых копий, доступа к нему, поиска документов, создания и индексирования метаданных (научных описаний старопечатных изданий). Все эти вопросы рассматриваются на примере реализации в БАН двух частных проектов: "Мультимедийная система "Издания Санкт-Петербургской Академии наук и академической типографии в 18 веке"" и "Электронная коллекция "Издания типографии Свято-Успенской Почаевской лавры (17 - нач. 20 веков) в собраниях научно-исследовательского отдела редкой книги и славянского фонда БАН"".

Определение электронной библиотеки

Под электронной библиотекой мы понимаем гетерогенную информационную систему, содержащую массив электронных текстов первичных документов (в текстовом и/или в графическом формате) и метаданных об этих документах (библиографических описаний, данных о физическом состоянии книг), а также комплекс программных и аппаратных средств, обеспечивающих создание и модификацию данных, доступ пользователей, выгрузку и обмен данными. Кроме того, система должна иметь средства генерации информационных продуктов различного типа: гипертекстов (HTML, XML), электронных изданий (формат PDF), оригинал-макетов печатных изданий.


Основные принципы разработки

Многоаспектность и междисциплинарный подход. Электронная каталогизация редких изданий - сложная междисциплинарная и многоаспектная проблема. Ее решение предусматривает участие книговедов, каталогизаторов, историков, искусствоведов, системных аналитиков, программистов, специалистов по консервации и реставрации документов.
* Совместимость. Создаваемые системы должны быть взаимосвязаны с другими системами БАН. Они должны встраиваться в автоматизированную систему БАН. При этом все основные проектные решения должны соответствовать национальным и международным стандартам. Система должна иметь средства загрузки, выгрузки и двустороннего конвертирования метаданных в принятом в стране формате библиографической записи. (Российская версия формата UNIMARC - RUSMARC).

Однократный ввод и многоцелевое использование данных. Электронная копия издания, а также метаданные, ее сопровождающие (электронная библиографическая запись), создаются однократно с возможностью дальнейших модификаций. Однажды введенные данные в дальнейшем будут использоваться в различных целях, а именно:

Создание информационных продуктов различного типа : баз данных, гипертекстовых систем, печатных изданий (библиографических указателей, печатных репродукций документов);

Ретроспективная конверсия карточных каталогов (создание электронного каталога коллекции) на основе массивов метаданных. В данной статье, посвященной электронным коллекциям, фигурируют также собственно документы, поэтому вместо принятого обычно для каталогов терминов "библиографические описания" или "библиографические записи" мы употребляем метаданные". При этом имеется в виду, что из массива электронной библиотеки выделяются библиографические элементы (т.е. метаданные) и, если нужно, преобразуются к формату электронного каталога, принятого в конкретной библиотеке.

Выгрузка данных для передачи в другие организации. При этом метаданные об объектах могут быть представлены пользователю с той степенью детализации, которая требуется для удовлетворения конкретной информационной потребности - в виде организованного массива сканированных изображений (электронных копий документов), отдельных подмассивов, копий или описания отдельных документов или их фрагментов.

Использование систем в качестве справочного аппарата для научно-исследовательской работы.

Мониторинг физического состояния документов и учет и планированию работ по реставрации и консервации документов.

Возможность модификации данных. Электронные библиотеки представляют собой открытые системы. Это означает, что при их использовании данные могут подвергаться модификации. Например, в момент создания системы могут быть созданы полные копии документов или копии их фрагментов, представляющих особый научный или художественный интерес. В тех случаях, когда создаются копии отдельных страниц книги (как правило, в случае ориентации разработки на определенный информационный продукт, электронное или традиционное издание) впоследствии при необходимости могут быть отсканированы и добавлены и другие страницы. В свою очередь метаданные могут содержать лишь краткую опознавательную информацию о книге или детальное научное описание. В ходе использования системы краткая запись может быть при необходимости и при наличии возможности дополнена и превращена в научное описание со значительной степенью детализации.
Автономное использование элементов системы. Электронные копии документов и метаданные, а также их фрагменты могут быть использованы независимо друг от друга.

Краткие описания проектов

Мультимедийная система "Издания Санкт-Петербургской Академии наук и академической типографии в 18 веке".

Предполагаемые результаты проекта:

  • Базы данных библиографических и авторитетных записей.
  • Массивы графических изображений, включая полные копии документов.
  • Информационный продукт: Гипертекстовая система, доступная в режимах on-line и off-line.

Проект выполняется при поддержке РГНФ (грант 00-05-12019в).

Система содержит библиографические записи на издания Академии наук с 1726 по 1825 года, а также издания, напечатанные в этот же период типографией Академии наук, хранящиеся в фондах отдела изданий Академии наук и НИИ отдела редкой книги БАН. Примерное количество книг в фондах Академического собрания и в Бронированном фонде БАН около 2000 единиц.

Предполагается создание детальных библиографических описаний изданий. Кроме того, в ходе реализации проекта принято решение осуществить роспись содержания периодических изданий. При этом каждая библиографическая запись индексируется предметной рубрикой. Создаются авторитетные записи на авторов и персоналии.

В соответствии с планом работы над системой по созданию электронных копий документов должно предшествовать создание массива метаданных. На настоящий момент составлено 660 описаний на книги и 1220 аналитических описаний, а также 600 авторитетных записей на авторов и лица, упомянутые в документе и на учреждения и предметные рубрики. Созданные в ходе реализации проекта авторитетные записи предполагается использовать в других подсистемах БАН. С другой стороны в этой работе учитывается опыт различных подразделений БАН. Например, в научно-исследовательском отделе библиографии и библиотековедения выпускается в печатном виде "Указатель к газете "Санкт-Петербургские ведомости". За почти 10 летний срок существования указателя в нем описано почти 16 тысяч имен. Каждой статье указателя имен (т.е. каждой персоне) присваивается индекс специально созданной классификации. (Военные, священнослужители и.д.). В авторитетных записях, созданных в рамках нашего проекта, используются накопленные нашими коллегами данные и их классификация.

Из выше изложенного можно заключить, что данная система не вполне отвечает нашему определению электронной библиотеки. В ней на настоящий момент преобладает текстовая информация. Однако, на следующем этапе (в 2002 г.) в систему планируется ввести значительное количество графической информации - полностью отсканированных книг, а также образцов книжной орнаментики. Кроме этого предполагается использовать графические данные в качестве иллюстративного материала (например, портреты персон).


Рис.1 Представление краткой биографической справки, созданной на основе авторитетной записи.

На предварительном этапе разработки осуществлено полное сканирование одного документа (рис), а также некоторых материалов по книжной орнаментики, разработана методика сканирования, созданы программные средства, которые описываются ниже.

Рис. 2. Просмотр полной копии книги в режиме preview.


Электронная коллекция "Издания типографии Свято-Успенской Почаевской лавры в собраниях научно-исследовательского отдела редкой книги и славянского фонда БАН"

Ожидаемые результаты проекта:

  • Электронные копии документов.
  • База данных книжной орнаментики изданий Почаевской лавры.
  • База данных научных описаний документов.
  • Информационные продукты: гипертекстовая система, доступная в режимах on-line и off-line (см рис. 3), печатное издание.

Проект выполняется при поддержке "Института "Открытое общество"" (грант PFG024).


Рис.3 Страница гипертекстового варианта электронной коллекции "Издания типографии Свято-Успенской Почаевской лавры в собраниях научно-исследовательского отдела редкой книги и славянского фонда БАН".

Собрание изданий типографии Почаевской лавры в собрании научно-исследовательского отдела редкой книги БАН сравнительно невелико - около 120 названий и 150 единиц хранения, но оно, тем не менее, хорошо представляет издательскую деятельность Почаевской лавры, одного из важных центров украинского книгопечатания XVIII - XX веков. Кроме этого в систему введены записи на так называемые псевдопочаевские старообрядческие издания, то есть издания, где Почаевская лавра ложно указана в выходных данных в качестве места издания.

Всего в систему введено около 200 детальных научных описаний каждого экземпляра коллекции (библиографические метаданные в формате UNIMARC-БАН). На сегодняшний день создано 6 полных копий документов (общим объемом 900 страниц) планируется создание еще 9 полных копий. Во всех остальных документах (кроме псевдопочаевских книг) осуществлено сканирование тех страниц, на которых присутствуют элементы книжной орнаментики (иллюстрации, виньетки, наборные орнаменты, инициалы). Кроме того, во всех изданиях отсканированы образцы шрифтов Всего в настоящее время отсканировано более 980 изображений, причем каждое из них сохранено в нескольких файлах с различными форматами.
Кроме того, описаны и частично отсканированы отдельные знаки бытования книг - владельческие знаки, экслибрисы, старые шифры хранения и т.д.

Помимо сканированных изображений планируется использование цифровых фотографий. На фотографиях представляется общий вид документа и некоторые его особенности: переплет, обрезы и т.д.

В гипертекстовой и печатной версиях систем предполагается создать серию традиционных указателей (указатели имен, заглавий, учреждений), а также указатель книжной орнаментики (указатели виньеток, инициалов, иллюстраций, наборных орнаментов) (рис 4).


Рис 4. Фрагмент одного из указателей орнаментики (указатель наборных украшений, черновой вариант)

Помимо полных электронных копий документов и их фрагментов разрабатываемая система будет содержать научные публикации по истории книгоиздательской деятельности Почаевского монастыря, особенностям Почаевских изданий, истории собраний редкой книги БАН и др. Публикации будут представлены в форме гипертекстов со ссылками на текстовые и графические данные. В порядке эксперимента подготовлено издание книги "Акафист св. великомученицы Варвары" в транслитерации в современный русский алфавит с научными комментариями.

Краткое описание технологии сканирования, аппаратных и программных средств.

Научные описания документов создаются в среде CDS/ISIS в формате UNIMARC-БАН. В формат введен блок полей локального использования для описания каждого типа элементов книжной орнаментики. Специалист по старопечатной книге вносит в эти поля номер листа, на котором находится изображение, краткое описание и комментарий по нему. После этого каждому изображению автоматически по определенному алгоритму присваивается имя (набор цифр и однобуквенный код категории элемента орнаментики), которое автоматически вносится в поле. После этого система генерирует для каждой книги направление на сканирование - список подлежащих сканированию элементов с указанием страниц и некоторых идентификационных признаков изображения. При этом автоматически создаются в файле, а затем распечатываются закладки на соответствующие страницы. Книги с закладками и направлением поступают на сканирование, где полученным графическим файлам присваивается имя, указанное в направлении и на закладке. С этим же именем (но с другим расширением) система генерирует и файл HTML, который используется в гипертекстовой системе.

При создании полных копий книг используется автоматизированная система обработки массивов сканированных изображений, разработанная в Научно-исследовательском отделе информатики и автоматизации БАН.

Сканер - HP ScanJet CX-2, разрешение 300 dpi, цветность 24 бита. Применение планшетного сканера безусловно имеет отрицательные стороны. Однако приобретение дорогостоящей техники - книжного сканера - в данный момент не представляется возможным.

Программы для обработки изображений - Adobe PhotoShop 5.5, DjVuShop 2.
Форматы сжатия DjVu, jpeg.

Формат сканирования - tiff, при этом объем одной страницы составляет в среднем 20 Мб, сжатое изображение в формате jpeg занимает объем около 1 Мб; сжатое изображение в формате DjVu в фото режиме занимает 600 Кб, в текстовом режиме - 40 Кб, при этом удается добиться более высокого качества изображения, чем в формате jpeg.

Просмотр полных копий книг осуществляется посредством DjVu броузера, встроенного в Internet Explorer. При просмотре реализовано увеличения и уменьшение изображения, просмотр всех страниц в режиме предварительного просмотра (preview) (рис.2) с выбором нужной страницы, листанием, увеличением фрагментов и другими сервисными возможностями.

Изображения фрагментов книг, элементов книжной орнаментики представляются в формате jpeg.

Заключение

Таким образом, оба проекта представляют собой комплексные, многоаспектные научные разработки. Особенностью нашей разработки является ориентация на детальное научное описание объекта, а не на краткое опознавательное описание. По этой причине подход требует значительных трудозатрат. Однако, как было сказано выше, детальность разработки может быть определена при постановке задачи, а также изменена в ходе реализации.
В ходе реализации проектов разрабатываются и корректируются методы, технические решения, технологические схемы, а также осуществляются содержательные описания. Результатом обоих проектов, помимо собственно информационных продуктов, станет технология создания электронных библиотек старопечатных изданий с набором созданных форматных и программных средств.

Литература

1. Борбинья Х.Л. Сетевые электронные библиотеки: исследования новой парадигмы// Библиотеки и ассоциации в меняющемся мире: Новые технологии и новые формы сотрудничества: Мат. конф. [Крым-97]. - М.,1998. - Т.1. - С.262-266.- Англ.
2. Гениева Е.Ю. Виртуальная библиотека - символ открытого общества// Библиография. - 1996. - №4. - С.3-5.
3. Allen David B. The national electronic library: a guide to the future for library managers// Collect Manag. - 1997. - 22. - №1-2. - P.219-222.
4. Butler Meredith A. Issues and challenges of archiving and storing digital information: Preserving the past for future scholars// J. Libr. Admin. - 1997. - 24, №4. - P.61-79.
5. Coleman J., Willis D. SGML as a Framework for Digital preservation & Access. - Washington, DS: Council on Library & Information Resources Commission on Preservation & Access, 1997. - 47 pp.
6. Digital libraries: Current issues: Digital libr. workshop DL'94; Newark, N.J., USA, May 19-20, 1994; Sel. Papers. - Berlin etc, cop. 1995. - XIII, 321pp.
7. Maignien Y. Digital libraries: A new approach to preservation for a broadened access// Library preservation & conservation in the '90s: proceedings of the satellite meeting of the IFLA session on preservation & conservation, Budapest, August 15-17,1995. - Munchen; Saur, 1998. - P.24-30.
8. Dowlin K.E. The electronic library: The promise and the process. - New York: Neal-Schumann, cop., 1984. - XI,199 pp. ( Applications in inform. Management and technology ser.)
9. У.Армс. Электронные библиотеки. - М.: ПИК ВИНИТИ, 2001.
10. http://www.dlib.org
11. Leiner Barry M. Metrics and the Digital Library (Guest Editorial)// D-Lib Magazine - 1998, July/August.


© А.Ц. Масевич, Е.А. Савельева, А.К. Багажков, В.П. Захаров, 2002
Последнее обновление страницы было произведено: 2003-12-09

Все предложения и пожелания по содержанию и структуре портала направляйте по адресу rdlp@iis.ru