РефератыИнформатика, программированиеИнИнформационно-поисковые тезаурусы

Информационно-поисковые тезаурусы

ТЕМА : ИНФОРМАЦИОННО-ПОИСКОВЫЕ ТЕЗАУРУСЫ


1. Информационно-посковый тезаурус


Словари типа тезаурус или идеографические впервые разработаны в лингвистике. Тезаурусы предназначены для облегчения поиска языковых средств выражающих данное понятие (идею). Классическим примером поискового тезауруса является: тезаурус английских слов и выражений первое издание которого было подготовлено Роджестоном 1852 г. подобные тезаурусы созданы и для других естественных языков. Лингвистический тезаурус разработан в связи с автоматизированной подготовкой текста.


Синтагматические связи –

это соотношение единицы языка в данном высказывании.


В институте русского языка РАН создан тезаурус семантических (смысловых) и синтагматических связей между словами и словосочетаниями , русский язык как словарно-программное средство. Объём тезауруса 64 000 слов и словосочетаний.


ИПТ предназначен:


1. обеспечивать перевод с естественного языка на дескрипторный т.е для координатного индексирования документов и запросов.


2. отражать парадигматические отношения между лексическими единицами ИПТ, которые используются при составлении стратегии поиска.


Парадигматические отношения-

это логические и ассоциативные отношения между ЛЕ ИПЯ.


3. служить терминологическим пособием.


ИПТ –

это нормативный словарь дескрипторного ИПЯ с зафиксированными в нём парадигматическими отношениями ЛЕ.


Многоязычный ИПТ

– это ИПТ содержащие ЛЕ взятые из нескольких естественных языков и представляющий эквивалентные по смыслу понятия на каждом из этих языков.


Целью создания ИПТ является повышение показателя поиска информации в ИПТ.


Макротезаурус –

ИПТ включающий ЛЕ высокой общности и покрывающий широкую область знания.


Микротезаурус

– специализированный ИПТ небольшого объёма составленный на основе выборки из более полного ИПТ и дополнительно включающий конкретные русские понятия определённой тематики.


Специализированный ИПТ

или синоним монотематического ИПТ – ИПТ построенный для отражения области знания или практической деятельности.


Политематический ИПТ –

ИПТ построенный для широкой совокупности областей знания.


Специализированный ИПТ

– существует в большинстве науки и техники.


Количество разработанных микротезаурусов исчисляется только в нашей стране в несколько тысяч.


Макротезаурус и политематический ИПТ

– предназначены для использования лексико-тематической основы при построении микротезауруса.


Политематический ИПТ включает только основную лексику той или иной отрасли и наиболее очевидные парадигматические отношения.


Микротезаурус включает специфические термины собствен. наимен. и развитую парадигмат.


В состав ИПТ входит вводная часть, основная часть (лексико-семантический указатель) и дополнительные части.


Вводная часть включает титульный лист и текстовые введения.


Введение содержит следующие данные:


1. цель создания и область применения ИПТ;


2. ссылки на источники используемые для сбора лексики ИПТ (др. ИПТ, терминологические словари);


3. описание порядка составления ИПТ;


4. описание состава и структуры ИПТ;


5. количественные характеристики ИПТ (общее число статей, число дескрипторов и аскрипторов);


6. перечень отношений между ЛЕ и методикой основания для их установления.


7. перечень всех символов и специальных сокращений допустимых для представления ЛЕ.


8. порядок алфавитного расположения ЛЕ.


9. описание состава и формы представления дополнительных данных в словарных статьях.


Лексико-семантический указатель

– это основная часть ИПТ в которой в едином алфавитном ряду перечислены все дескрипторы и аскрипторы с указанием их парадигматических отношений.


ЛЕ ИПТ –

слово, словосочетание, или лексическое значение компонентов сложного слова естественного языка включённое в ИПТ в качестве дескриптора или аскриптора.


Аскриптор (не дескриптор) –

ЛЕ ИПТ которая в поисковых образах документов (запросов) подлежит замене на дескриптор при поиске или обработке информации.


В рамках дескрипторной статьи термины располагаются в следующем порядке:


1. заглавный дескриптор выделен при помощи шрифта. Например заглавными буквами;


2. дополнительные данные;


3. лексическое примечание (краткое объяснение уточнение значения дескриптора);


4. аскрипторы или дескрипторы синонимы (которые следуют за индексом «С»);


5. вышестоящие дескрипторы следующие за индексом «в»;


6. нижестоящие дескрипторы следующие за индексом «а»;


7. дескрипторы связанные другими видами отношений.


Вышестоящий дескриптор,

широкий дескриптор- это дескриптор обозначающий либо родовое понятие, либо целое по отношению к данному дескриптору обозначающий часть этого целого.


Нижестоящий дескриптор или узкий дескриптор -

дескриптор обозначающий либо видовое понятие, либо часть представляющую вышестоящий дескриптор.


Ассоциативный дескриптор – дескриптор связанный с другими семантической связью характер которой не указан.

Основными типами связи является: причина-следствие, процесс-объект, функциональное сходство, антонимия.


Неоднозначность ЛЕ устраняется релятором или лексическим примечанием.


Релятор является ЛЕ и поясняет её значение относя её к определённой понятийной категории или предметно-тематической области.


Дополнительные части ИПТ:


- систематический указатель;


- иерархический и другие указатели и списки специальных категорий ЛЕ.


Дополнительные указатели служат для раскрытия учёта и контроля парадигматических отношений между дескрипторами, что требуется при составлении поисковых предписаний.


Списки указателей являются перечнем дескрипторов сгруппированных согласно принятой в ИПТ рубрикации.


При построении систематического указателя используется следующая общая категория:


1. название дисциплин и отраслей деятельности;


2. предметы, материалы;


3. методы, процессы, операции, явления;


4. свойства, величины, параметры, характеристики;


5. отношения структуры, модели, законы, правила, абстрактные понятия.


Каждый дескриптор относится только к одной рубрике. Внутри рубрики дескриптор располагается в алфавитном порядке.


Иерархический –

представляет собой перечень списков дескрипторов, причём каждый список начинается с дескриптора не имеющего вышестоящих.


После каждого дескриптора приведены непосредственно нижестоящие дескрипторы с указанием иерархических , путём применения нумерации. Либо графические обозначения уровня.


Основные преимущества дескрипторных ИПЯ:


Меньшая по сравнению с классификационным ИПЯ трудоёмкость разработки;


Возможность осуществить поиск по любому заранее заданному сочетанию характеристик входящих в ИПЯ;


Возможность автоматического процесса индексирования документов.


Недостатки дескрипторных ИПЯ:


В основных отраслях характер дескрипторного ИПЯ затрудняет их использование для обмена информацией между системами с различными ИПЯ;


Неадекватное значение термина выбран в качестве дескриптора в различных дескрипторных ИПС.


2. Анализ информационно-поискового тезауруса


2.1 Информационно-поисковый тезаурус по сохранности документов (БАН)


1. Первый отечественный двуязычный тезаурус по сохранности документов, подготовленный в Библиотеке Российской академии наук. тезаурус насчитывает 5 166 терминов.


Издание представляет собой образец смешанного двуязычного (русско-английского) тезауруса. Основным языком выбран английский. Это значит, что в качестве дескрипторов выбра

ны английские термины, а русские термины приводятся как синонимы.


Настоящий информационно-поисковый тезаурус предназначен для индексирования документов и обработки запросов по обеспечению сохранности (хранению) документов в традиционных и нетрадиционных информационных системах. Тезаурус может использоваться как специальный двуязычный словарь при выполнении переводов с русского на английский и с английского на русский язык, а также как терминологический словарь справочник.


В состав тезауруса входят:


- лексико-семантический указатель;


- иерархический указатель;


- хронологический идентификатор.


2.Дескрипторы часто определяют как классы условной эквивалентности терминов, поскольку имеется поисковая и обычная (общеязыковая) эквивалентность языковых единиц, и эти два вида лексической равнозначности терминов в дескрипторных словарях могут не полностью совпадать. Так, например, у лексических единиц, входящих в дескриптор «DERATISATION c. Дератизация, н. MICE, RATS», содержание понятий «мыши» и «крысы» относятся к семантическим категориям «живые организмы», «биологический фактор», а понятие «дератизация» – к лексической категории «операции». Но поскольку при проведении поиска информации различия в категориальном значении указанных слов являются не очень существенными и более важным является их информационно-поисковая эквивалентность, в тезаурусе по сохранности документов понятия «мыши» и «крысы» являются нижестоящими по отношению к термину «deratisation».


В лексико-семантическом указателе тезауруса расположены дескрипторные и аскрипторные статьи.


В рамках дескрипторной статьи термины располагаются в следующем порядке:


- заглавные дескрипторы выделены заглавными буквами;


- дополнительные данные;


- аскрипторы или дескрипторы синонимы, которые следуют за индексом «с»;


- вышестоящие дискрипторы следующие за индексом «в»;


- нижестоящие дескрипторы следующие за индексом «н».


Пример:


ACCTSS CONTROL


cVisitorscontrol


Контроль и управление доступом


вORGANIZATION OF SECURITY SISTEMS


нACCESS CONTROL


3. В дескрипторных статьях тезауруса отсутствуют:


- лексическое примечание;


- дескрипторы связанные другими видами отношений.


2.2 Тезаурус терминов по морскому делу и парусному туризму. (информационно-поисковый тезаурус). Составитель В.Н. Белозеров. Москва 2001


1. Тезаурус содержит около 2200 терминов с определениями и тезаурусными связями.


Настоящий словарь-справочник по морскому делу и парусному туризму является терминологическим словарем, в котором для каждого термина дано его определение, при необходимости — примечания о характере использования, а также семантические связи с другим понятиями.


Наличие явного указания на семантические связи понятий в совокупности с раскрытием их содержания в определениях и комментариях позволяет использовать словарь как "программированный учебник", который ведет читателя от слова к слову, сообщая сведения о понятиях всей сферы интереса.


В состав словаря входит вся специальная терминология, необходимая для изложения материала по организации и проведению туристских плаваний на транспортабельных разборных судах по внутренним водоемам и прибрежным районам морей. Терминология этого вида деятельности дополнена лексикой классического парусного дела, парусного спорта, навигации, гидрографии, организации морских перевозок, что позволяет использовать словарь как справочник по морскому делу в целом.


Словарь состоит из настоящего введения и алфавитного лексико-семантического указателя терминологии. Элементом алфавитного указателя является словарная статья, состоящая из заглавной лексической единицы, определения, примечания и ссылок.


Тематику словаря можно отнести к следующим рубрикам Государственного рубрикатора научно-технической информации:


· 71.37.01 Общие вопросы туристско-экскурсионного обслуживания


· 73.34.01 Общие вопросы водного транспорта


· 77.01.33 Терминология. Справочники, словари, учебная литература по физической культуре и спорту


· 77.29.32 Парусный спорт. Виндсерфинг


· 77.29.33 Спортивный туризм


2. Заглавная лексическая единица возглавляет словарную статью и в дескрипторных статьях выделена заглавными (прописными) буквами. В некоторых случаях в состав заглавной лексической единицы включены факультативные пояснительные слова в круглых скобках. Например: "УЗЕЛ (скорость)" в отличие от "УЗЕЛ (на тросе)".


Определение следует непосредственно после заглавной лексической единицы, отделено от нее тире и набрано шрифтом с уменьшенной высотой букв (в настоящем варианте петит не реализован). В некоторых случаях, когда определение термина очевидно из его внутренней формы, оно не приводится. В тех же случаях, когда термин можно определить с разных сторон и лишь в совокупности соответствующие определения описывают понятие, приводятся два или даже три определения, разделенные точкой с запятой.


Например:


обычное определение:


КЛИВЕР — треугольный косой парус, передняя шкаторина которого крепится к кливер-лееру, соединяющему стеньгу с ноком бушприта или утлегарем.


определение опущено:


ДАЛЬНОСТЬ ВИДИМОСТИ —


два определения (со стороны значения и со стороны формы):


АЗ — флаг ВМСС, обозначающий русскую букву А; красный с косицами и белым квадратом у древка.


Важной частью статьи являются ссылки на другие термины или другие формы того же термина. Они позволяют знакомиться с содержанием тезауруса методом "навигации" по ссылкам и уточняют значение терминов, дополнительно раскрывая его через связи термина (набранного обычным светлым шрифтом). Если в статье приводится два или более ссылочных термина, имеющих одинаковый характер связи с заглавной лексической единицей, обозначение ссылки приводится только один раз в первой из строк.


Все термины, указанные в ссылках, являются заглавными лексическими единицами соответствующих статей, в которых можно получить дополнительную информацию о данном термине. Исключение составляют ссылки на обозначения и аббревиатуры.


В настоящем тезаурусе используются следующие виды ссылок, которые располагаются в указанном ниже порядке:


с — в дескрипторной статье указывает на синонимичный аскриптор;


см — в аскрипторной статье указывает на синонимичный дескриптор;


исп — в аскрипторной статье указывает на несколько дескрипторов, среди которых нужно выбрать один, наиболее точно выражающий интересующее читателя понятие;


об — условное обозначение данного понятия;


вр — вышестоящее родовое понятие;


вц — вышестоящий термин, обозначающий объект, включающий в себя данное понятие в качестве своей составной части;


вм — множество, один из элементов которого обозначается заглавной лексической единицей;


нв — нижестоящее видовое понятие;


нч — нижестоящий термин, обозначающий часть объекта, выраженного заглавной лексической единицей;


нэ — нижестоящий термин, обозначающий один из элементов множества, выраженного заглавной лексической единицей;


асх — ассоциация по сходству объектов или понятий; асм — ассоциация по смежности объектов, процессов или явлений; ант — антоним, т.е. "противоположное" понятие;


ср — ссылка на аскриптор, предлагающий данную заглавную лексическую единицу в качестве одной из альтернатив для выбора точного термина.


Пример:


АЗИМУТ - направление в пространстве, выраженное относительно стран света


вр: направление


нв: азимут светила; истинный азимут; компасный азимут; магнитный азимут;


асх: пеленг; румб


асм: круговая система азимутов; румбовая система азимутов; четвертная система азимутов


3. Настоящий словарь, рассматриваемый как тезаурус, подготовлен в соответствии с ГОСТ 7.25 — 80.


СПИСОК ЛИТЕРАТУРЫ


1. ГОСТ 7.24-90. Тезаурус информационно-поисковый многоязычный.


2. ГОСТ 7.25-2001. Тезаурус информационно-поисковый одноязычный.


3. ГОСТ 7.74-96. Информационно-поисковые языки. Термины и определения.

Сохранить в соц. сетях:
Обсуждение:
comments powered by Disqus

Название реферата: Информационно-поисковые тезаурусы

Слов:1891
Символов:17325
Размер:33.84 Кб.