С.Х.Ляпин, А.В.Куковякин
НП «Центроконцепт» (Архангельск)
e-mail: ly
apin@atknet
.ru
T
-
Media
: от музейной библиотеки к информационной среде для интеграции музейных ресурсов и сервисов
1. Введение
.
Важным этапом в деле интеграции музейных ресурсов и развития связанных с этим сервисов было бы создание информационной среды, позволяющей эффективно работать как с текстовой
информацией (ее типичными представителями являются полнотекстовые ресурсы музейных библиотек и каталоги-описания музейных фондов), так и с нетекстовой
, прежде всего графической, которая представлена цифровыми образами (копиями) экспонатов, составляющих главное содержание систем учета музейных фондов.
К такого рода интеграции можно идти разными путями, причем как с точки зрения методологии, так и с точки зрения технологии.
В докладе рассматривается один из подходов к решению этой задачи, методологически основанный на теории мультимодальных культурных концептов и ее применению к созданию систем интеллектуального информационного поиска [1], а технологически – на развитии электронной библиотеки T-Libra с гибким полнотекстовым поиском, созданной в архитектуре Web-browser / Web-server / SQL-server (разработка ООО «Константа» и НП «Центроконцепт», г. Архангельск) [2], в направлении ее мультимодального и функционального расширения [3].
2. Музейная библиотека: новое реноме
. Кроме прочего, этот подход предполагает переосмысление места и роли музейной библиотеки, вообще использования «текста» в общемузейном деле.
В традиционной музейной деятельности, где главными фигурами выступают Хранитель и Экскурсовод, «текст» играет второстепенную роль: он нужен лишь в качестве вспомогательного материала для подготовки экспозиций и экскурсий.
Характерно, однако, что даже в рамках традиционных музейных технологий его роль заметно возрастает при подготовке научных и методических публикаций, музейно-образовательных программ, а также презентационных материалов – то есть тогда, когда музей обращается к более широкой аудитории, находящейся за его стенами.
Создание в музее современной интегрированной информационной среды заставляет нас по-новому взглянуть на место и роль текстовой информации, имеющей прямое или косвенное (общекультурное) отношение к музейному «контенту».
Во-первых, в самом тексте (представленном, например, в фондах музейных библиотек) содержится разносторонняя информация о различных культурно-исторических феноменах, так или иначе связанных с музейными предметами; эту информацию можно извлекать, различным образом структурировать и тематизировать с помощью современных информационных систем.
Во-вторых, текстовая информация – это метаданные, это библиографические, иконографические и другие описания музейных предметов; в этом качестве «текст» является связующим звеном между всеми видами информации, представленными в интегрированной информационной среде.
В-третьих, взаимодействие «текста» и нетекстовой информации (графика, звук, видео и т.п.) крайне важно для создания полноценных виртуальных тематических экспозиций, ориентированных на сферы образования, науки, культурного туризма, досуга, и тем самым на продвижение новых интеллектуальных продуктов и сервисов на рынок.
Таким образом, музейная библиотека – естественная среда обитания текстовых ресурсов – вполне может изменить свой статус, и из вспомогательной музейной службы превратиться в точку опоры для создания качественно новой информационной инфраструктуры музея, вплоть до развертывания на ее основе публичного музейного информационного центра [4] с предоставлением многофункционального доступа к музейным ресурсам и сервисам (включая принципиально новые ресурсы и сервисы, создаваемые, например, в рамках развития виртуального музея или дистанционных музейно-образовательных программ).
Заметим в этой связи, что по своему назначению музейная библиотека многофункциональна даже в большей мере, чем ее более известные родственники: публичные, университетские и академические библиотеки. Причина, разумеется, в наличии собственно музея, в тесной содержательной связи ресурсов музейной библиотеки («текстов») с основными ресурсами музея («экспонатами»). К научной, образовательной, просветительской функциям обычных библиотек здесь добавляется еще и функция информационного обеспечения экспозиционно-выставочной деятельности.
Поэтому желательно, чтобы электронная библиотека для музея предусматривала, как минимум, две вещи.
Во-первых, гибкий и удобный инструментарий для работы с библиографическими и полнотекстовыми ресурсами, в том числе для тематизируемого полнотекстового поиска и презентации его результатов с точностью до отдельного предложения или авторского абзаца (общее требование к любой полноценной библиотечной системе).
Во-вторых, такой инструментарий, который открывает возможность мультимодального расширения библиотеки, то есть включения в ее ресурсную базу нетекстовых
модальностей информации (графика, звук, видео и т.д.), а в ее функционал – унифицированного поиска по гетерогенным базам данных с последующим автоматизированным созданием на его основе различных тематических экспозиций (специальное требование для музейной библиотеки).
3.
T-Libra
как основа для
T-Media
. Этими возможностями обладает многофункциональная электронная библиотека T-Libra, созданная в архитектуре «клиент-сервер», адаптированной к условиям Интернет (Web-browser / Web-server / SQL-server), и работающая под управлением СУБД Sybase ASA v.7.0.
Версии ЭБ T-Libra 5.0. и 5.1. с 2003 года используются в Институте управления (г. Архангельск) и в его филиалах в рамках как аудиторной, так и дистанционной технологий обучения.
В настоящее время на платформе T-Libra ведется разработка нескольких специализированных региональных библиотек (для медицины, экологии, культуры), виртуальной Интернет-лаборатории гуманитарной направленности [5], корпоративной библиотеки НП «Центроконцепт», музейной библиотеки ГМО «Художественная культура Русского Севера», а также образовательных серверов для поддержки дополнительного и профессионального образования.
При этом архитектура создаваемых библиотек проектируется с использованием различных вариантов СУБД (Sybase ASA, MS SQL Server, Oracle SQL Server, MySQL) и двух вариантов бизнес-логики приложений (внутренней логики, существенно использующей особенности этих СУБД и реализуемой на языке SQL, и внешней логики, встроенной в СGI-расширение Веб-сервера и реализуемой на объектно-ориентированном языке C++).
Это делает возможным использование информационной системы в самых разных по масштабу и технологическому оснащению организациях: от национальных и университетских библиотек, имеющих возможность содержать и профессионально сопровождать мощные коммерческие СУБД и ориентированных (в перспективе) на тера- и петабайтовые объемы хранимой информации, до районных, школьных и персональных библиотек, ориентированных на бесплатно распространяемые СУБД (типа MySQL) и объемы первичной электронной информации от нескольких сотен до нескольких тысяч полнотекстовых «единиц хранения» (от нескольких десятков до нескольких сотен гигабайт в формате SQL-базы данных).
В варианте ЭБ T-Libra v.5.2. имеются следующие основные функциональные разделы.
Административный раздел
включает в себя набор программных средств, позволяющий: а) регистрировать и вести учет пользователей; б) обеспечивать защиту информационной системы от копирования и несанкционированного доступа; в) устанавливать и гибко изменять правила допуска различных групп пользователей к различным ресурсам электронной библиотеки. Он дает также необходимые инструменты администратору и операторам системы для ее сопровождения и развития, в том числе модуль импорта новых текстов в SQL-базу данных и программу ParaGen для автоматического генерирования (русскоязычной) лексико-грамматической парадигматики и пополнения электронного словаря.
Пользовательский раздел
включает в себя три функциональные подсистемы, предназначенные для эффективного поиска и презентации информации: Каталог, Депозитарий, Полнотекстовый поиск.
Каталог
. Подсистема предназначена для поиска по библиографической информации, организованной в виде SQL-базы данных, и последующей презентации в среде Веб-браузера всех ресурсов, имеющихся в электронной библиотеке.
БД подсистемы “Каталог” пополняется с помощью программ импорта из любых электронных каталогов, поддерживающих стандарты семейства MARC, или из библиографических файлов-описаний, создаваемых пользователем. Подсистема может быть дополнена программами автоматизированного создания библиографических файлов на основе информации, взятой из внешних электронных ресурсов.
Поиск по SQL-базе данных “Каталог” осуществляется с учетом лексико-грамматической парадигматики естественного языка по 8-ми полям: “Автор”, “Заглавие”, “Ключевые слова”, “Аннотация”, “Год издания”, “Предметная область”, “Библиотечные фонды”, “Носитель информации”.
Имеется полная и краткая форма поиска (в последней поля “Заглавие”, “Ключевые слова”, “Аннотация” объединены логическим сложением).
Булева алгебра (операции логического сложения, умножения, отрицания) включена в функционал соответствующих полей и структуру формы поиска.
Поле “Предметная область” фактически представляет собой «каталог в каталоге» – настраиваемый мультирубрикатор, включающий в себя набор стандартных классификаторов (ББК, УДК, ГРНТИ, ВАК), а также рубрикатор “Депозитарий”, создаваемый с учетом интересов конкретного корпоративного пользователя.
Депозитарий
. Подсистема содержит файловые ресурсы различного формата (*.pdf, *.doc, *.txt, *.html и т.д.), соотнесённые с теми или иными предметными областями (учебными дисциплинами; научными направлениями; тематикой мероприятий; каталогами выставок и т.д.). Она имеет собственный рубрикатор ресурсов, с помощью специализированного интерфейса настраивается на интересы корпоративного пользователя и позволяет несколькими нажатиями на интерфейсные кнопки получить сначала описания ресурсов (метаданные), а затем и сами электронные ресурсы: полные тексты (учебников, учебных пособий, справочников, монографий и т.п.), графические документы, аудио-, видео-файлы и т.д.
Полнотекстовый поиск и его функциональные возможности.
Специализированная подсистема «Полнотекстовый поиск» организована как совокупность гибких параметризируемых запросов к полнотекстовой SQL-базе данных. Подсистема ориентирована на компьютерную поддержку тех видов деятельности пользователя, в основе которой лежит многоплановая работа с текстом первоисточника.
Все реализованные в T-Libra v.5.2. запросы предназначены для экспликации терминологических полей
разного типа, вида и уровня.
Термины выступают здесь в роли своеобразных смысловых «зарядов», а их различным образом упорядоченные совокупности репрезентируют смысловые поля, в явном или чаще неявном виде содержащиеся в первичном тексте.
В архитектуре подсистемы предусмотрены: а) блок электронных словарей с программой автоматической генерации лексико-грамматических парадигм естественного языка (в версии 5.2. имеется около 1 млн. словоформ русского языка); б) блок гибких параметризируемых поисковых запросов (в версии 5.2. представлены 2 типа и 6 видов таких запросов); в) блок функциональных моделей смыслового (концепт-ориентированного) поиска (в версии 5.2. не представлен).
Методологически и технически в системе запросов выделяются: а) единицы поиска
(в зависимости от вида запроса это могут быть термины, цепочки терминов, многослойные терминологические структуры и т.д.), б) единицы результатов поиска
(произвольный абзац, частотно-ранжированная совокупность терминов и т.д.), в) единицы представления результатов поиска
(авторский абзац, таблица частотно-ранжированных терминов и т.д.).
Для каждого из запросов имеется возможность формировать «корзину ресурсов», то есть область определения запроса, в пределах которой он выполняется.
В версии 5.2. реализованы 2 типа запросов: «Абзацно-ориентированный поиск» и «Частотно-ориентированный поиск», каждый из которых представлен тремя видами. Первый тип запросов ориентирован на экспликацию линейно упорядоченных терминологических полей в пределах естественной смысловой единицы текста – авторского абзаца. Второй тип – на частотный анализ текста и построение частотно-ранжированных таблиц терминов, «терминограмм» произведения или совокупности произведений.
Пример запроса типа «Абзацно-ориентированный поиск»: Расширенный (многослойный) терминологический поиск.
Производится по нескольким терминам, которые одновременно: а) принадлежат разным тематическим «слоям» терминов, при этом количество слоев варьируется и б) находятся на определенном «расстоянии» между собой. Результатом запроса является совокупность авторских абзацев из выбранного произведения, содержащих указанную многослойную терминологическую структуру.
Запрос позволяет на некотором терминологическом поле, определяемом всеми терминами запроса, фиксировать смысловую связь между терминами, относящимися к разным слоям
. Изменяя пять параметров: 1) содержание списков терминов в каждом из слоев, 2) количество терминов, в
Пример запроса типа «Частотно-ориентированный поиск»: Абсолютный частотный поиск.
Создает частотно-ранжированный список слов (существительных) по «корзине ресурсов» (произведению или нескольким произведениям), собранной из первичных ресурсов. При поиске учитываются все русскоязычные словоформы, которые затем приводятся к нормальной форме: существительное в именительном падеже, единственном числе. Результатом запроса является таблица, содержащая столбец с частотно-ранжированным списком слов, а также столбцы с указанием абсолютной и относительной частоты встречаемости слова (в промилле). Глубина ранжирования может варьироваться пользователем (в диапазоне от 1 до 200 слов); по умолчанию она равна 30 словам.
Запрос дает своеобразную «терминограмму» произведения или их совокупности, неявно определяющую их общую предметно-тематическую ориентацию. Он позволяет текстологически сравнивать друг с другом несколько произведений и/или авторов (путем сравнения соответствующих списков слов), а также сравнивать объективно полученные терминограммы и субъективные экспертные списки терминов.
4. T-Media = T-Libra + Expositor
.
На платформе T-Libra в настоящее время создается информационная система T‑Media, объединяющая полнотекстовые и нетекстовые электронные ресурсы (графика, звук, видео и т.д.), обладающая возможностями унифицированного поиска по гетерогенным базам данных и последующего формирования на этой основе тематических экспозиций: как вручную (с помощью специального модуля Expositor), так и в автоматизированном режиме, с использованием методологии и технологии каскадных концепт-ориентированных запросов.
Технологической основой информационной среды T-Media с возможностями создания мультимодальных тематических экспозиций является подсистема «Полнотекстовый поиск» ЭБ T-Libra, которая организована как совокупность гибких параметризируемых запросов к полнотекстовой SQL-базе данных.
Эта подсистема, как сказано выше, связана с подсистемой файловых баз данных «Депозитарий», содержащей файловые ресурсы различных форматов (*.pdf, *.doc, *html и т.д.) и информационных модальностей (тексты; графика, в том числе тексты в виде графики; аудио-файлы, видео-файлы, и т.п.). Обе вышеназванные подсистемы имеют собственные настраиваемые рубрикаторы ресурсов. Вместе с тем обе они объединены в единую интегрированную среду с помощью подсистемы «Каталог», обладающей настраиваемой структурой полей и возможностями поиска по текстовым метаданным (библиографическим, иконографическим и т.д. описаниям первичных ресурсов), организованным в виде SQL-базы данных.
Таким образом, в качестве основы для интеграции ресурсов различной информационной модальности может быть избран текст
, то есть (полно)текстовая модальность информации
, а для создания унифицированной поисковой системы в мультимодальной среде – гибкая параметризируемая система поиска по текстовым метаданным и полнотекстовым ресурсам, существующим в формате SQL-баз данных.
Для создания произвольной тематической экспозиции администратор и/или удаленный пользователь может выбрать путь ее «ручного» комплектования из множества предварительных результатов запросов к различным подсистемам T-Media (из авторских абзацев, отобранных по данной теме, графических файлов и т.д.).
Сделать это можно в специализированном функциональном разделе T-Media – модуле Expositor, с применением технологии графического интерфейса “drag and drop”.
Этот модуль имеет двухоконный интерфейс, который включает в себя окно «Инструменты для экспозиции» и окно «Монтаж экспозиции».
В окне «Инструменты» имеются следующие функциональные разделы:
а) «корзина ресурсов», которая формируется из результатов запросов ЭБ T-Libra с мультимодальным расширением, или вручную.
В нее входят: авторские абзацы, найденные с помощью полнотекстового поиска; электронные карточки Каталога (необходимые, например, для составления списка литературы по теме экспозиции); текст, созданный непосредственно администратором / пользователем при составлении экспозиции; графические файлы из Депозитария или других источников (в том числе тексты в виде графики, архивные материалы и т.п.); аудио-файлы из Депозитария или других источников (не из T-Media); видео-файлы из Депозитария или других источников (не из T-Media); прочее (например, ссылки на релевантные Веб-сайты);
б) меню, позволяющее работать с экспозицией как целостным объектом (содержит функции «редактировать экспозицию»; «опубликовать экспозицию», «записать экспозицию в файл» и т.д.);
в) меню для выбора шаблонов художественного и технического оформления экспозиции.
В окне «Монтаж экспозиции» имеется функциональный раздел для создания многоуровневого оглавления экспозиции, а также монтажный стол, на котором с применением технологии “drag and drop” (перетаскиванием объектов из корзины ресурсов в блок-ячейки монтажного стола) происходит создание заготовок для будущих html-страниц экспозиции.
Элементы оглавления задают логику развертывания экспозиции и соотносятся со страницами экспозиции по принципу «один ко многим».
В готовой экспозиции (пока она остается функциональной частью архитектуры Web-browser / Web-server / SQL-server, т.е. пользователь работает с информационной системой в режиме онлайн) один из ее элементов содержит возможность прямого выхода в поисковую систему T-Libra.
Сами же итоговые html-страницы экспозиции формируются по окончанию монтажных работ, и могут быть отделены от Интернет/Интранет-среды, в которой они создавались, и записаны на независимые переносимые носители информации.
5.
T-Media = T-Libra + Expositor + Conceptor
.
Тематическая экспозиция может быть составлена не только «ручным» путем, описанным в п.4., но и в автоматизированном режиме.
Это делается с помощью концепт-ориентированной информационной системы (Conceptor
)
, соединяющей «текст» и нетекстовые модальности информации как в содержательном плане, (через «библиотеки концептов» и релевантные тезаурусы), так и в технологическом (например, через механизм нелинейного каскадного концепт-ориентированного запроса и презентации его результата).
При этом исходной точкой построения этого концепт-ориентированного запроса является либо один из запросов к полнотекстовой SQL-базе данных, позволяющий эксплицировать терминологические поля и связанный с ними смысловой микроконтекст в пределах произвольного авторского абзаца, либо запрос к файловой БД «Депозитарий», позволяющий эксплицировать тот или иной нетекстовый цифровой объект («экспонат») и связанное с ним описание (текстовые метаданные).
Результат этого промежуточного запроса – та или иная терминологическая структура, своеобразный терминологический инвариант содержания множества авторских абзацев (или текстовых метаданных), – становится, в свою очередь, началом нелинейного каскадного запроса, выполняющегося в мультимодальной информационной среде с активным использованием других текстовых метаданных, через которые осуществляется выход на релевантные нетекстовые объекты [6].
В ходе его выполнения для предварительного моделирования предметной области применяется частотный анализ текста по выбранной корзине ресурсов, актуализируются релевантные тезаурусы, а также статическая и/или динамическая «библиотека концептов».
Результатом запроса является совокупность мультимодальных культурных концептов, представленная в виде констелляций релевантных «текстов» и нетекстовых единиц информации, связанных между собой («по смыслу») теми или иными терминологическими кластерами (Рис.1).
Рис. 1. Блок-схема ЭБ T-Libra с мультимодальным расширением
и концепт-ориентированным поиском (функциональным блоком Conceptor).
Разумеется, эти результаты могут быть затем помещены в тематическую экспозицию, создаваемую вручную в функциональном блоке Expositor.
Создание тематических экспозиций с помощью функционального блока Conceptor больше подходит для научных исследований, что тоже является важной составной частью музейной деятельности.
Таким образом, в целом можно сказать, что информационная система T-Media есть электронная библиотека T-Libra c мультимодальным расширением (концепт-ориентированным поиском в мультимодальной среде в сочетании с соответствующей подсистемой презентации результатов этого поиска, т.е. модулем Conceptor) плюс модуль Expositor для создания интерактивных тематических экспозиций.
6. Взаимодействие с системами автоматизированного учета музейных фондов
.
Информационная система T-Media, основанная на многофункциональной электронной библиотеке T-Libra с соответствующими расширениями, включает в себя инструментарий, позволяющий непосредственно вводить в ее Депозитарий любые нетекстовые объекты (оцифрованные «экспонаты» музея) вместе с их структурированным описанием в соответствующих полях Каталога.
Вместе с тем она, разумеется, не заменяет собой существующие специализированные системы автоматизированного учета музейных фондов. Взаимодействие с базами данных этих систем будет происходить путем конвертации данных.
7. Заключение.
В настоящее время описанный выше подход реализуется для бимодального случая (символьный текст + графический образ) в рамках пилотного проекта «Виртуальный музей Северной иконы» (совместно с Государственным музейным объединением «Художественная культура Русского Севера», г. Архангельск).
Литература
.
[1] См.: С.Х.Ляпин
. О концептах и концептологии (в поисках нового подхода к моделированию деятельности) // XIX World Congress of Philosophy. – Moscow 22-28 August 1993. – Book of abstracts. Сборник резюме. Vol. I. Секция 13 (Философия деятельности). – с.322; С.Х.Ляпин
. Концептология: учение о концептах, методология культурогенных трансляций, технология эвристического развертывания смысла // Вестник СЗО РАО. – №3, 1998, СПб.-Архангельск: Поморский гос. университет им. М.В.Ломоносова, 1998. – с.28-41; С.Х.Ляпин.
Культурные концепты для интеграции текста и нетекстовых модальностей информации // Материалы Восьмой ежегодной конференции АДИТ-2004, Самарский областной историко-краеведческий музей им. П.В.Алабина, 31 мая - 5 июня 2004, Самара, 2004, с. 61-62.
[2] С.Х.Ляпин, А.В.Куковякин
. Многофункциональная электронная библиотека T-Libra: WWS-архитектура, интегрированный каталог, настраиваемый мультирубрикатор, гибкий параметризируемый полнотекстовый поиск // Труды 5-ой Всероссийской научной конференции «Электронные библиотеки: перспективные методы и технологии, электронные коллекции» - RCDL2003, Санкт-Петербург, Россия, 2003. - Изд-во СпбГУ, 2003, с. 292-299; http://rcdl2003.spbu.ru/proceedings/J4.pdf
[3] С.Х.Ляпин, А.В.Куковякин
. Мультимодальное расширение электронной полнотекстовой библиотеки: концепция, методология, технология // Материалы 6-й ежегод. межд. конф. EVA 2003 Москва. - Москва, ГТГ, 1-5 дек. 2003 года. - М.: Изд. Центр ПИК Минкультуры России; Государственная Третьяковская Галерея, 2003, с. 11-2-1 – 11-2-4. http://www.evarussia.ru/upload/doklad/doklad_928.doc; С.Х.Ляпин, А.В.Куковякин
. Многофункциональная электронная библиотека T-Libra с гибким полнотекстовым поиском и мультимодальным расширением // Труды межд. конф. «Программа ЮНЕСКО «Информация для всех»: Всеобщий доступ к информации». СПб, 23-25 июня 2004 года. http://confifap.cpic.ru/upload/spb2004/reports/doklad_236.doc; С.Х.Ляпин, А.В.Куковякин
. T-Media: интегрированная среда для объединения текстовых и нетекстовых информационных ресурсов и создания интерактивных тематических экспозиций // Материалы Восьмой ежегодной конференции АДИТ-2004, Самарский областной историко-краеведческий музей им. П.В.Алабина, 31 мая - 5 июня 2004, Самара, 2004, с. 53-54.
[4] Тема создания музейных публичных информационных центров на базе музейных библиотек была одной из центральных на научно-практическом семинаре «Музейные библиотеки в современном обществе», состоявшемся 13-15 апреля 2004 г. в Музеях Московского Кремля (см.: www.kreml.ru/ru/main/science/conferences2004/MuseumLibrary), а также на специальной секции «Музейные библиотеки. Музейные публичные информационные центры», работавшей на конференции АДИТ-2004 в Самаре, 31 мая – 5 июня 2004 г. (координаторы секции – О.В.Синицына и С.В.Костанян). См.: http://www.adit.ru/conference/adit2004/program.htm
[5] С.Х.Ляпин, А.В.Куковякин
. Виртуальная лаборатория для гуманитарных исследований на основе электронной библиотеки с гибким полнотекстовым поиском // Труды 6-й Всероссийской конференции «Научный сервис в сети ИНТЕРНЕТ», г. Новороссийск (п. Дюрсо), 20-25 сентября 2004 года. – М.: Изд-во Московского государственного университета, 2004 (в печати).
[6] С.Х.Ляпин, А.В.Куковякин
. Концепт-ориентированный поиск в электронной полнотекстовой библиотеке с мультимодальным расширением // Труды 6-й Всеросс. науч. конф. «Электронные библиотеки: перспективные методы и технологии, электронные коллекции», RCDL’04, Пущино, 29 сент. - 1 окт. 2004 г. (в печати).