РАЗВЕРНУТЫЙ НАУЧНЫЙ ОТЧЕТ

1. Номер проекта
01-07-90445

2. Название проекта
Создание распределенной электронной библиотеки на основе сети LibWеb информационных центров и библиотек России

3. Коды классификатора, соответствующие содержанию фактически проделанной работы
07-150 07-100 07-185

4. Объявленные ранее (в исходной заявке) цели проекта
Целью проекта является создание распределенной электронной библиотеки (РЭБ), интегрирующей ресурсы ведущих информационных центров и библиотек России на основе сети LibWeb. РЭБ должна представлять собой распределенную систему, интегрирующую гетерогенные данные (текст, графика, видео), трехуровневой архитектуры - электронные коллекции в нижнем слое, множество порталов с проводниками (брокерами) на среднем слое и множеством клиентов с Web-интерфейсами на верхнем слое.В процессе выполнения проекта предполагается добиться следующих результатов:разработать и/или адаптировать основные технологии, методы и средства создания, хранения, обнаружения, извлечения и анализа данных в электронных коллекциях для науки, образования и культуры;осуществить выбор основных стандартов представления информации и метаинформации, протоколов организации доступа к распределенным и разнородным электронным коллекциям и т.д.;создать модельную РЭБ с разнородными ресурсами, провести проверку правильности выбора моделей, технологий, стандартов и методик создания и использования распределенных ЭБ.

5. Степень выполнения поставленных в проекте задач
Поставленные в проекте на 2003 года задачи выполнены. В том числе:проводилась адаптация технологий для работы с полнотекстовыми электронными коллекциями, разрабатывались средства генерации и интеграции метаинформации, проводилась работа по созданию прототипа модельной РЭБ LibWeb на основе свободного программного обеспечения поддержки протокола OAI-HMP;разработан типовой дистрибутив РЭБ, поддерживающий стандарты, признанные мировым сообществом;разработан сервер, поддерживающий протокол Z39.50;

6. Полученные за отчетный период важнейшие результаты

Основным результатом работ по совершенствованию программного обеспечения РЭБ на базе программного продукта Greenstoone Digital Library Software (GDLS) стала его адаптация к использованию русскоязычными пользователями, не являющимися специалистами в области программирования и администрирования компьютерных систем. Greenstone - пакет программного обеспечения, которое предназначено для обслуживания цифровых библиотечных коллекций и формирования новых коллекций. Эта система обеспечивает организацию информации и публикацию ее в Интернете или на CD-ROM. Greenstone создана в рамках Проекта Новозеландской Цифровой Библиотеки (NDZL) в Университете Вайкато, и распространяется при содействии ЮНЕСКО и Human Info NGO. Оно является свободно распространяемым программным обеспечением, доступным по адресу http://greenstone.org в соответствии с Лицензией GNU о публичном доступе. С целью повышения удобства работы в ходе работ по проекту был внесен ряд изменений в функциональность системы:

1. В исходном программного продукте перед добавлением коллекций все исходные файлы должны были быть заранее загружены на сервер системы или размещены на внешнем интернет-ресурсе, что создавало сложности для пользователей со средним уровнем подготовки, требовало использования дополнительного программного обеспечения (например, FTP-клиентов) и затрудняло администрирование и обеспечение информационной безопасности системы. Для преодоления этой проблемы был разработан дополнительный программный модуль на языке Perl и внесены изменения в исходный код программного продукта, позволяющие в комплексе производить дозагрузку файлов на сервер в интерактивном режиме, используя возможности протокола HTTP.

2. В исходном программном продукте редактирование метаданных коллекций выполнялось путем прямой правки конфигурационного файла, что требовало от конечного пользователя глубокого знания архитектуры системы, и программного синтаксиса. Для преодоления этой проблемы были разработаны программные модули на языках Perl и JavaScript, внесены изменения в шаблоны страниц и исходный код продукта, в комплексе реализующие удобный редактор метаданных и настроек коллекции. При вызове данного интерфейса производится автоматический парсинг (синтаксический разбор) конфигурационного файла и все содержащиеся в нем настройки представляются пользователю в виде экранной формы, упрощающей ввод и редактирование данных. В том случае, если какой-либо параметр предполагает возможность выбора значений из ограниченного набора опций, она отображается в форме в виде выпадающего списка или селектора, содержащего все возможные варианты настройки. Прочие настройки реализуются в виде полей с проверкой формата вводимых данных. После окончания работы с редактором производится извлечение данных из экранной формы и обратное формирование конфигурационного файла в соответствии с принятыми в системе синтаксическими правилами описания коллекций.

3. Ролевая модель разделения доступа в исходном продукте GDLS включала только две роли - администратора, имеющего доступ ко всем функциям системы, включая настройку параметров и управление пользователями, и коллектора, располагающего правами как на пополнение фондов электронной библиотеки, так и на их редактирование и публикацию. Таким образом, не представлялось возможным реализовать традиционную схему премодерируемого пополнения коллекций с помощью членов сообществ. Для решения данной проблемы в исходный код системы разделения доступа NDZL на языке C были внесены изменения, позволяющего присваивать пользователю новую роль - коллектора без права публикации. Таким образом, к существующей роли коллектора переходят функции редактора (менеджера) библиотеки, а пополнение коллекций может осуществляться любым зарегистрированным членом сообщества. Пополнения в фондах, внесенные такими коллекторами, становятся доступными широкому кругу посетителей электронной библиотеки только после проверки и одобрения редактором.

Помимо указанных усовершенстований в программном обеспечении проведен значительный объем работ по улучшению существующей пользовательской документации продукта и русификации его пользовательских интерфейсов. Исходная документация была представлена в виде четырех взаимосвязанных руководств, не учитывающих ролевой специфики пользователей системы, что вызывало потребность в перекрестном изучении разделов, затрудняло восприятие материала и поиск необходиомой справочной информации. В ходе редактирования документации были скомпонованы два руководства, ориентированных соответственно на администраторов и конечных пользователей системы. Первое руководство содержит подробные сведения об архитектуре продукта, процессах его инсталляции и настройки и рассчитано на достаточно подготовленного технического специалиста, осуществляющего поддержку функционирование библиотеки. Второе руководство рассчитано на пользователя с базовыми навыками работы на компьютере и содержит информацию и инструкции по повседневной работе в пользовательских интерфейсах системы.В ходе литературной правки пользовательской документации и русифицированных интерфейсов были:

  • устранены жаргонизмы и необоснованно используемые техницизмы;
  • унифицирована и приведена к общепринятой используемая терминология;
  • проверена полнота и достоверность описания основных функций и операций и при необходимости внесены дополнения и изменения;
  • откорректирована структура документов с точки зрения логической связности и удобства поиска информации, добавлены оглавления и прочие служебные разделы (аннотации, введения, указатели).

Кроме того, при правке интерфейсов были выявлены случаи неполной русификации системных сообщений и подсказок и выполнен их перевод на русский язык, а также разработано около 30 недостающих анимированных графических интерфейсных элементов (кнопок и меню) на русском языке.

В процессе работ по настоящему этапу Проекта в 2003 году также был существенно доработан и развит сервер Z39.50 ZooPARK, что выразилось в выходе в свет версии 4.0. Ниже приведены основные основные работы по развитию сервера, выполненные в 2003 году:

  • модернизация ядра сервера Z39.50 ZooPARK в соответствии с требованиями IndexData/YAZ-2.0.3;
  • модернизация встроенного провайдер Zebra в соответствии с требованиями IndexData/Zebra-1.3.11;
  • включение встроенного WEB-сервера, работающего в том же порту, что и сервер Z39.50, и поддерживающего:
    • доступ к html-документам;
    • доступ к встроенному шлюзу Z39.50 - HTTP;
    • обработку запросов XML/SOAP/SRU;
    • расширение диагностики BIB-1;
  • модернизизация основных динамических провайдеров данных сервера ZooPARK - Z-ISIS, Z-REMOTE, Z-MSSQL, Z-MSADO;
  • модернизация логики перекодировки в различные кодовые таблицы;
  • унификация настройки конфигурационных файлов баз данных для всех провайдеров в части декларирования поддерживаемых схем и форматов;
  • добавление поддержки выбора схемы данных в запросах на представление;
  • модернизация подсистемы сбора статистики запросов;
  • включение возможности отслеживания полного маршрута прохождения запросов в распределенных системах;
  • расширение списка тестовых баз данных;
  • представление документации в формате HTML и доступность ее через встроенный WEB-сервер.

В качестве типового программного решения для доступа к информационным ресурсам из Интернет по стандартным протоколам (Z39.50, HTTP) был принят Z39.50-WWW шлюз, разработанный в ОИГГМ СО РАН и успешно функционирующий в настоящее время практически на всех площадках участников Проекта. Использование этого шлюза позволило более качественно организовать публичный доступ как к конкретным информационным ресурсам участников Проекта, так и как к единому информационному ресурсу LibWeb. В 2003 году был создан динамически загружаемый модуль - шлюз Z39.50-WWW для платформ Windows 2000/XP/2003 и Unix (FreeBSD, Linux, Solaris) в виде динамически загружаемой библиотеки (DLL для платформы Windows 2000/XP/2003 или SO - для Unix). Разработанный шлюз обеспечивает основные функции Z39.50-клиента.

4. Сопоставление полученных результатов с мировым уровнем
Для создания РЭБ LibWeb используются современные методы создания распределенных информационных систем, основанных на использовании протоколов, обеспечивающих интероперабельность гетерогенных систем, широкого использования метаданных для описания объектов РЭБ LibWeb и организации процессов информационного поиска, а также RDF/XML схемы для реализации архитектуры распределенных сред.

5. Методы и подходы, использованные в ходе выполнения проекта
Основные подходы, используемые в ходе выполнения проекта направлены на выработку решений по эффективной интеграции разнородных информационных ресурсов и коллекций. Особый упор создательно делался на использование решений, уже апробированных при создании электронных библиотек.