Реферат на тему:
"Пошук інформації в Інтернеті
"
2010
Однією з тенденцій розвитку світової спільноти і системи освіти є приєднання зростаючої кількості користувачів до глобальної мережі Інтернет. У будь-якому місці земної кулі стає доступним небачений раніше обсяг інформації. При цьому нерідко поліпшення програмних і технічних характеристик засобів доступу не вирішує, а, навпаки, загострює проблему ефективного добору релевантної (відповідної) інформації, показуючи непідготовленість і учнів, і вчителів до використання можливостей, що відкриваються. Виникає парадокс: чим більше доступної інформації, тим складніше її відібрати.
Саме тому одним із завдань курсу інформатики є навчання учнів здійснювати результативний пошук інформації, що потребує від них знань про способи її подання в електронному вигляді, технології зберігання та передавання за допомогою комунікаційної мережі Інтернет.
Учні повинні навчитися орієнтуватися в інформаційному просторі мережі Інтернет, ознайомитися з механізмами пошуку інформації в тематичних каталогах та індексних базах даних, навчитися використовувати інструменти для організації пошуку в базах даних, будувати запити і правильно оцінювати знайдену інформацію, уточнювати пошуковий запит, уміти отримувати потрібну інформацію із першоджерел.
При навчанні методів пошуку інформації в Інтернеті спочатку необхідно пригадати основні інформаційні і комунікаційні послуги мережі Інтернет, які є джерелами для одержання інформації (мал.5.1), та підкреслити, що кожний із них може стати середовищем пошуку відповідних даних, у кожному з яких існують спеціальні правила організації такого процесу.
Інформаційні ресурси мережі Інтернет |
Файлові архіви |
Електронна пошта |
Телеконференції |
Он-лайн комунікаційні засоби |
Інформаційний простір Веб-сторінок |
Далі доцільно звернути увагу студентів на організацію пошуку інформаційних об'єктів у кожному виділеному ресурсі глобальної мережі Інтернет.
Тепер інформаційний простір Веб-сторінок став універсальним щодо всіх існуючих послуг мережі Інтернет, тому що є не тільки носієм інших інформаційних потоків, а й і містить у собі різні послуги мережі: поштові інтерфейси, систему телеконференцій, системи інтерактивного спілкування та ін. Крім того, кількість Веб-сайтів із часом значно збільшується, тому виникає необхідність розглянути з учнями створення механізмів пошуку, структуризації, впорядкування інформаційного простору Веб-сторінок.
Студенти повинні одержати спочатку загальне уявлення про пошукові служби, з'ясувати їх призначення та структуру. Слід зауважити, що пошукові служби існують для зручності роботи у World
Wide
Web
.
При організації роботи з пошуковою службою задача користувача полягає в поясненні за допомогою спеціальної мови запитів того, що необхідно знайти в Інтернеті, завданням пошукової служби є відображення Веб-сторінки з посиланнями на адреси, за якими можна знайти потрібну інформацію.
Необхідно підкреслити, що на правильно сформульований запит в Інтернеті практично завжди можна одержати відповідь. Але при цьому не слід забувати, що питання ставиться не людині, а машині, яка за допомогою спеціальної програми аналізує інформацію залежно від занесених до неї алгоритмів пошуку. Програми, які опрацьовують запити користувача - це інформаційно-пошукові системи (
ІПС).
За принципом дії розрізняють кілька видів пошукових служб. Найбільш поширеними є три основних типи: пошукові каталоги, рейтингові системи
та індексні бази даних.
Студенти повинні розуміти, що оскільки пошук інформації - це основна задача користувача у WWW-просторі, то у світі постійно з'являються нові типи і види пошукових служб, і вивчити всі їх неможливо, тому суттєвим є з'ясування принципів їхньої організації, роботи та правил використання.
Пошукові тематичні каталоги
організовані за тим самим принципом, що й тематичні каталоги великих бібліотек. Звернувшись на адресу пошукового каталога, користувач знаходить на його основній сторінці скорочений список великих тематичних категорій, наприклад таких, як Освіта (
Education).
Як правило, такі каталоги є ієрархічними гіпертекстовими меню з пунктами і підпунктами, які визначають тематику сайтів, адреси яких містяться в цьому каталозі, з поступовим, від рівня до рівня, уточненням теми (мал.5.2).
Кожний запис у списку категорій - це гіперпосилання.
Вказування на нього відкриває наступну сторінку пошукового каталога, на якому визначена тема подана докладніше, наприклад з предметів: Фізика, Хімія, Математика
та ін. Вибір за допомогою миші назви теми (наприклад Хімія)
відкриває сторінку зі списком розділів {Загальна хімія, Органічна хімія, Неорганічна хімія).
Заглиблюючись у тему, можна дійти до списку конкретних Веб-сторінок і вибрати той ресурс, який краще підходить для розв'язування конкретного інформаційного завдання користувача.
Працювати з пошуковими каталогами просто. У них пошук інформації користувачем відбувається на інтуїтивному рівні і практично завжди закінчується успіхом. Однак за цією простотою приховується найвища складність створення і ведення каталога. Пошукові каталоги створюються, як правило, вручну. Висококваліфіковані редактори особисто переглядають інформаційний простір WWW, відбирають те, що на їхню думку становить загальний інтерес, і заносять адреси до каталога. Як правило, каталоги ресурсів складаються на основі експертних оцінок. Найбільшим пошуковим каталогом світу є пошукова служба Yahoo! (
www.yahoo.com).
На неї постійно працюють понад 150 редакторів, а й при цьому загальний обсяг каталогізованого простору становлять близько 1 млн Веб-сторінок.
Найбільшим російським пошуковим каталогом є служба Атрус (
www.atrus.ru). АУ! (
www.au.ru), в Україні такими є: Ukrainet
Yellow
Pages (
www.ukrainet. lviv.ua/vellow/pages. htm). Nsearch (
www.search. kiev-ua). Шерлок
Холмс
(
www.holms. ukrnet.net).
Далі зі студентами необхідно розглянути основні характеристики Веб-каталогів:
Спрямованість тематики і широта охоплення ресурсів: загальні, спеціалізовані, глобальні, регіональні.
Обсяг бази даних (загальна кількість посилань у каталозі).
Структура рубрик, наявність кількох індексів.
Можливість пошуку за каталогом.
Студенти повинні зрозуміти, що Веб-каталоги є початковими засобами пошуку інформації, і дозволяють розв'язувати стандартні пошукові задачі: пошук сайтів певного тематичного призначення. Але інколи в такий спосіб неможливо знайти потрібну інформацію, або процедура пошуку уповільнюється на невизначений час. Основною перевагою такого засобу пошуку є чітка відповідність змісту сайтів тематиці, яка оголошена для кожного розділу тематики (в окремих випадках - з додатковим упорядкуванням адрес у межах рубрики за результатами експертної оцінки або за рейтингом відвідування). Недоліком тематичних ІПС є порівняно невелике охоплення існуючих ресурсів мережі, оскільки відслідкувати весь обсяг інформації, яка є в Інтернеті, практично нереально навіть для значного колективу персоналу, який використовує сервер. Тому доцільно рекомендувати студентам звертатися до каталогів ресурсів у випадку, коли необхідно швидко відшукати "типову" інформацію за необхідною тематикою (якщо немає потреби відслідковувати будь-які її нюанси).
При формуванні практичних навичок студентів слід розглянути роботу з тематичним каталогом на прикладі. Можна запропонувати студентам знайти інформацію про організований відпочинок узимку або інформацію про погоду на завтра, або інформацію про комп'ютерні курси тощо.
Сутність ідеї рейтингової
системи групується на тому, що на основній сторінці сервера розташовується список найважливіших тем, усередині кожної з яких організовується список тематичних розділів. Вибравши потрібну тему, клієнт одержує обмежений список Веб-вузлів, присвячених даній темі. Поруч із кожним Веб-вузлом наводиться оцінка його популярності, яка вимірюється в кількості відвідувань за останню добу.
Використавши одне з посилань рейтингової системи, користувач переходить на рекомендований Веб-вузол. При цьому збільшується показник лічильника кількості переходів. Ті, хто користуватиметься рейтинговою системою пізніше, побачать зростання популярності даного Веб-вузла.
Пошук джерел інформації за допомогою рейтингової системи можна розглядати як пошук за рекомендаціями.
Але не завжди високий рейтинг об'єктивно відповідає якості Веб-ресурсу, до якого веде популярне гіперпосилання. Однак у тих випадках, коли йдеться про інформацію, що має суспільний інтерес, наприклад, новини політики, економіки, культури, спорту тощо, показнику популярності можна довіряти.
Уперше рейтингова система для пошуку Веб-ресурсів була реалізована на сервері Top
Hit (
www.tophit.com).
У Росії основним засобом рейтингового пошуку є Веб-служба Ремблер (
www.rambler.ru).
В Україні це Top Ping (
www.topping.com.ua), Alpha Counter
(
www.a-counter.com).
Більшість пошукових служб світу належить до індексних баз даних,
які ще називають пошуковими покажчиками.
Їхнє призначення -якнайкраще охопити інформаційний WWW-простір і подати його користувачам у зручному вигляді.
Принцип роботи з пошуковими покажчиками засновано на ключових словах.
Розшукуючи інформацію з певної теми, клієнт повинен дібрати ключові слова, які описують цю тему, і задати їх пошуковій системі як завдання. Відвідувачам такого пошукового сервера надається форма для введення ключового слова (слів) або фрази (мал.5.3).
Після натиснення на кнопку Знайти,
яка розташована поруч із полем уведення, ключова фраза пересилається на сервер, опрацьовується, потім пошукова система знаходить у своїх базах даних (вони називаються індексами
або покажчиками)
адреси Веб-ресурсів, вякихуказані ключові слова, і видає клієнтові Веб-сторінку з посиланнями на ці ресурси (мал.5.4).
Найбільший покажчик, що наближається до 300 млн Веб-документів, має пошукова система Fast
Search (
www.alltheweb.com),
а найзручніший для наукових досліджень покажчик має система Northern
Light (
www.northernlight.com).
У Росії пошукові покажчики розвинуті дуже добре. Можна назвати три найбільших системи: Апорт (www.aport.ru),
Яндех (www.yandex.ru)
і Ремблер (www.rambler.ru).
В Україні - МЕТА (www.meta-
ukraine.com).
Викладачу доцільно порівняти індексні бази даних і пошукові каталоги, акцентувати увагу студентів на позитивних характеристиках кожної з систем пошуку та визначити недоліки тематичних каталогів та індексних баз даних.
Пошукові покажчики створюються автоматичними засобами за мінімумом ручної праці. З одного боку, це дає змогу порівняно швидко опрацьовувати великі масиви Веб-документів і створювати індекси розміром у сотні мільйонів Веб-сторінок. З другого, -ніхто не може гарантувати, що наявність у документі певних слів означає належність документа до конкретної теми. Тому точність пошуку інформації у базі даних, заповнених автоматичними засобами, залишає бажати кращого. Пошукові каталоги, як правило, позбавлені таких недоліків індексних баз даних, як:
неадекватність посилань (посилання веде до документа, який не відповідає темі пошуку);
неактуальність посилань (посилання вказує на документ, якого вже немає в наявності);
дублювання посилань (кілька посилань ведуть до однакових документів, що зберігаються в різних місцях, або до одного документа, який проіндексовано в різний час).
Окрім того, важливо підкреслити, що для оцінювання якості пошуку використовують два параметри: коефіцієнт охоплення
і коефіцієнт влучення. Коефіцієнт охоплення
засвідчує, яку частину загальносвітових ресурсів WWW відображає пошукова система у своїх базах даних. Для пошукових каталогів цей коефіцієнт надзвичайно низький (частки відсотка). Для пошукових покажчиків він порівняно високий (десятки відсотків).
Коефіцієнт влучення
вказує на частину посилань, що повертаються пошуковою системою і дійсно відповідають запитам клієнта. Для пошукових каталогів цей коефіцієнт дуже високий, оскільки такі каталоги складають люди. Для пошукових покажчиків цей коефіцієнт досить низький.
Однак, як свідчить практика, пошукові покажчики дозволяють провести найбільш глибокий пошук у рамках заданої теми. Доцільно пояснити студентам, що робота пошукового покажчика проводиться у три етапи. На першому етапі сканується інформаційний простір і збираються копії Веб-ресурсів. На другому етапі бази даних, складені за результатами сканування, перетворюються так, щоб у них можна було проводити прискорений пошук. На третьому етапі пошуковий покажчик одержує запит від клієнта, проводить пошук у базах даних і видає Веб-сторінку оформлених результатів пошуку.
Далі доцільно проаналізувати особливості кожного етапу. Зрозуміло, що цей матеріал не є обов'язковим, але він має світоглядне значення, саме тому слід зупинитися на поясненні роботи кожного з етапів організації пошукової роботи індексних баз даних.
Для збирання відомостей про ресурси WWW пошуковим покажчиком використовуються спеціальні програмні засоби, які називають пошуковими роботами
або павуками, черв 'яками, гусінню, краулерами
та ін. Як правило, кожний пошуковий покажчик має свою спеціальну програму, побудовану на унікальному алгоритмі. Загальний принцип дії пошукових робіт полягає в тому, що вони починають перегляд мережі з деякої заданої адреси Веб-сторінки, копіюють знайдений документ на сервер пошукової системи, переглядають його, знаходять у ньому всі гіперпосилання, переходять на них, знаходять нові документи, копіюють їх, виявляють у них гіперпосилання, знову виконують перехід та ін. "Павуки" дуже подібні за принципами свого функціонування до комп'ютерних вірусів, можуть "саморозмножуватися" та розсилати свої копії за посиланнями, що вказані на сторінках, які аналізуються, а після виконання поставленого перед ними завдання "самоліквідуються".
Проводити у зібраних копіях Веб-сторінок пошук інформації, яка була замовлена клієнтом, дуже незручно, оскільки це займає багато часу. Тому зібрані дані проходять попереднє опрацювання, яке називається індексацією.
Метою індексації є одержання індексного файлу,
за допомогою якого запит клієнта можна швидко опрацювати. Кожна пошукова система проводить таку індексацію за своїми алгоритмами, які складають комерційну таємницю системи.
Можна навести один із прикладів такого пошукового процесу, коли при індексації формується файл зі словником, до якого входять слова, виявлені на Веб-сторінках, скопійованих з WWW-npoстору і поруч проставляються номери Веб-документів, в яких це слово було виявлене. Часто також може вказуватися і вага слова -
це число, яке свідчить, наскільки часто воно зустрілося у даному Веб-документі. Додатково подається ще адресна таблиця, в якій для кожного номера Веб-документа вказана його URL-адреса.
На наступному етапі ранжування
пошукова система за спеціальними алгоритмами визначає "цінність" кожного зі знайдених ресурсів і впорядковує їх так, щоб "найцінніші" (за вказаними критеріями) розташовувалися на початку списку. Для цього кожному ресурсу ставиться у відповідність деяка умовна ознака. При цьому окремим Веб-ресурсам можуть нараховуватися "призові" бали, а деяким - "штрафні".
"Призові" бали призначаються, наприклад, за таких умов:
якщо ключові слова, які використовувалися клієнтом у запиті, зустрічаються в заголовку Веб-сторінки - це свідчить про те, що Веб-сторінка дійсно присвячена тій темі, яку досліджує клієнт;
якщо ключові слова, які виявлено в документі, мають шрифт збільшеного розміру -це свідчить про те, що вони входять до заголовків розділів всередині документів;
якщо ключові слова неодноразово повторюються всередині документа (особливо, якщо повторення відбувається в перших п'яти-восьми абзацах тексту);
якщо ключові слова входять до так званого альтернативного тексту (
це текст, який підміняє ілюстрації, якщо їх відображення на екрані з деяких причин відключено); наявність ключових слів в альтернативному тексті свідчить про те, що автор документа надає їм особливого значення;
якщо існують посилання з інших Веб-сторінок тощо.
"Штрафні" бали можуть призначатися за те, що:
ключові слова повторюються підряд або регулярно з постійною періодичністю -це свідчить про те, що автор примусово намагається підвищити рейтинг своєї сторінки;
ключові слова зроблені невидимими або непомітними, наприклад, набрані кольором, який збігається з кольором фону (чорним на чорному, білим на білому) або набрані шрифтом мінімального розміру. Це свідчить про те, що автор використав ці слова в документі не для читача, а для того, щоб впливати на результати пошукової роботи.
Далі необхідно звернути увагу студентів на основні характеристики індексних баз даних та прокоментувати кожну з них (мал.5.5).
Характеристики індексних баз даних |
Кількість проіндексованих документів |
Інформаційні джерела, що охоплюються |
Сайти доменів, що охоплюються |
Швидкість індексування нових документів |
Оновлення проіндексованих документів |
Перш ніж працювати з конкретною пошуковою системою, слід розглянути з учнями принципи та прийоми пошуку інформації. Учні повинні засвоїти, що для пошуку за одним ключовим словом необхідно ввести це слово до поля введення і натиснути кнопку Знайти (
Search).
У різних пошукових системах ця кнопка може називатися по-різному, але сутність процесу, що відбувається, від цього не змінюється.
Як правило, пошук за одним словом приводить до одержання величезних списків Веб-сторінок, на яких воно зустрічається. Знайти в цьому списку потрібні ресурси складно, і тому пошук за одним словом малоефективний. Можна для прикладу звернутися із таким запитом до однієї з пошукових машин та проаналізувати одержані результати: визначити кількість знайдених Веб-документів та Веб-вузлів. Тоді учні самостійно доходять висновку, що набагато ефективнішим є пошук за кількома словами, але тут важливу роль відіграє правило, яке вказує пошуковій системі, як опрацювати групу слів. Можна навести конкретні приклади, коли користувача можуть цікавити документи, що містять і перше слово, і друге одночасно, або слід знайти документи, в яких ці слова зустрічаються поруч або недалеко один від одного або
перше слово, або
друге, або
обидва слова разом.
Таким чином, учні повинні дійти висновку, що для ефективного пошуку за кількома ключовими словами потрібні спеціальні команди, які дозволяють зв'язати окремі слова між собою. Ці команди в пошукових системах утворюють спеціальну, як правило, нескладну мову запитів,
яка складається із кількох команд.
Важливо підкреслити, що кожний пошуковий покажчик використовує власну мову запитів, тому при звертанні до різних пошукових систем треба знати її особливості. Але є загальний принцип, згідно з яким усі команди можна поділити на три групи: простий, розширений
і спеціальний пошуки.
Режим простого пошуку запитів передбачає значну кількість результатів, з яких важко вибрати конкретний.
Команди розширеного пошуку дозволяють досить точно описати необхідний документ.
Команди спеціального пошуку не знаходять документи за їх вмістом, а призначені для пошуку Веб-вузлів за їх назвами, фрагментами їх адрес, адресами посилань, які зустрічаються на їхніх Веб-сторінках і т.п.
Важливо, щоб учні зрозуміли, що при пошуку в Інтернеті важливими є дві характеристики: повнота пошуку (
тобто намагання не пропустити деяку важливу інформацію - нічого не загубити)
і точність (
тобто відсутність у результатах пошуку зайвої інформації - не знайти нічого зайвого).
Як правило, ці характеристики називають спільним словом релевантність,
яка і передбачає максимально змістовну відповідність результатів пошуку вказаному запиту. Іншими словами, релевантність - це відповідність відповіді запитанню.
Релевантність також можна розглядати і як спосіб впорядкування знайдених за запитом документів: чим більше документ відповідає запиту, тим ближче до початку списку повинна знаходитися його адреса. Для досягнення цього результату пошуковою системою
слова (його відносна частота входження до цього документа), відстань між словами, розташування слова в документі та його підрозділах і т.п.
При цьому слід враховувати, що релевантність - якісна міра.
Відповідність відповіді ІПС запитам користувача залежить не лише від властивостей пошукової системи, а й від того, наскільки вдало сформульовано запит, тобто наскільки правильно останній відображає потреби користувача.
Для оптимальної і швидкої роботи з пошуковими системами індексних баз даних існують певні правила написання запитів. Повний перелік таких правил для конкретного пошукового сервера можна знайти на самому сервері в пунктах "Допомога", "Підказка", "Правила створення запиту"
тощо. Учнів можна ознайомити з правилами, які частіше використовуються для ІПС "Апорт", "Яндекс" або будь-якої іншої індексної бази даних:
Незалежно від того, яка форма слова стоїть у запиті, пошук ураховує всі словоформи за правилами російської мови. Наприклад, якщо задано запит "идти", то в результаті пошуку будуть знайдені посилання на документи, які містять слова "идет", "шел", "шла" та ін. На запит "окно" буде видана інформація, яка містить і слово "окон", а на запит "отзывали" - документи, які містять слово "отозвали". На жаль, україномовної частини Інтернету цей процес не торкнувся, хоча на пошуковому сервері МЕТА проводяться роботи щодо коректного врахування при запиті особливостей української та російської мов та можливої омонімії мови (серед результатів за запитом російською мовою "лист каштана", крім російського омоніму, отримуються ще й україномовні документи з цим словом у значенні "письмо").
Якщо в запиті слово набрано з великої літери, то всі ІПС будуть враховувати регістр, в якому набрані літери (маленька/велика).
Якщо запит містить одне чи кілька слів, то в результаті пошуку будуть знайдені документи, в яких зустрічаються всі слова запиту, крім обмеженої кількості слів (сполучники, прийменники та ін), які в запиті ігноруються, оскільки не несуть змістовного навантаження). Наприклад, за запитом "яблука на снігу" будуть знайдені всі документи, в яких зустрічаються одночасно два слова. Де саме в межах документа розташовані слова, в якій граматичній формі вони знаходяться - не важливо. Слово "на", яке є прийменником, ігнорується. Тому вказаний запит можна було записати як: "сніг на яблуках" - результат пошуку буде тим самим.
Зірочка наприкінці слова символізує певну кількість будь-якихлітер. Наприклад, за запитом "вер*" будуть знайдені документи, якімістять будь-яке зі слів "по вере, верес, Вера, вересень", у будь-якійграматичній формі.
Лапки вказують пошуковій системі, що задані в запиті слованалежать до ключової фрази, яку слід шукати в тексті повністю. Наприклад, за запитом "експертна система" будуть знайдені всі документи, де трапляється вказане словосполучення або близькі до нього фрази.
При складанні запиту можна комбінувати ключові слова за допомогою логічних операторів (І, АБО, НЕ).
Далі слід розглянути прийоми формування запитів на прикладі конкретної системи. При цьому після введення звичайного простого запиту для пошуку одного слова необхідно ретельно проаналізувати правила роботи з результатами пошуку.
Учні повинні з'ясувати, що після введення з клавіатури запиту на екран виводиться список посилань на документи, які точно відповідають запиту. На такій сторінці користувач може побачити спеціальні позначення і посилання, які полегшують перегляд знайдених сторінок. Слід звернути увагу учнів на такі елементи сторінки з результатами пошуку (мал.5.6 - для спрощення будемо розглядати пошукову систему Яндекс):
Пошукова форма,
головним її елементом є рядок запиту, до якого з клавіатури користувач уводить простий або складений запит. При цьому додатково можна уточнити мету пошуку: сторінки, новини, назви товарів чи картинки. Здійснити подальший пошук у результатах попереднього дозволяє параметр "Шукати в знайденому".
Тематичний спектр
результатів пошуку. Показуються тільки ті теми каталога, в яких є знайдені документи. Список тем впорядкований за релевантністю. Вказування на посилання призводить до обмеження пошуку сторінками вибраної теми.
Теми більш глибокого рівня,
які найкраще відповідають запиту. Вказування на посилання призводить до обмеження пошуку за сторінками вибраної теми.
Регіони пошуку -
можна обмежити пошук сайтами вказаного регіону.
Пошук за каталогом -
опис ресурсів, що містять слова запиту. Натиснення на посилання призводить до переходу у відповідний розділ каталога (виводиться на екран тільки за умов точної відповідності запиту).
Пошук за ресурсом -
опис ресурсів, що містять слова запиту. Натиснення на посилання веде до переходу на ресурс (виводиться тільки за умов точної відповідності запиту).
Результати пошуку у Веб-просторі.
Заголовок документа - це посилання на ресурс. За допомогою посилання Показати знайдені слова
можна здійснити перехід на "підсвічений" документ, в якому відповідність запиту (слова, які входять до запиту) виділена стрілочками та кольором.
Посилання на інші служби пошукової системи або на інші пошукові системи.
Перелік сторінок, які містять список знайдених за запитом посилань.
Далі доцільно звернутися до однієї з пошукових систем, наприклад, Яндекс,
та запропонувати учням увести з клавіатури до пошукової форми простий запит, який складається з одного слова, після чого слід запропонувати учням частково-пошукову роботу стосовно вивчення додаткових посилань, які знаходяться на сторінці, що є результатом пошуку. Робота полягає в тому, щоб шляхом методу випробувань з'ясувати, для чого на сторінках з результатами пошуку за запитом використовуються посилання: "результати пошуку (сторінки, сервери), впорядкування (за релевантністю, за датою), показати знайдені слова, схожі документи, ще з сервера".
Для організації такої роботи вчитель може задавати учням додаткові питання, підказувати, на що в кожному конкретному випадку із перерахованих вище слід звертати увагу: порядок відображення сторінок, зміст документів, додаткові символи, які висвітлюються на екрані тощо.
Учні повинні під керівництвом учителя дійти висновків:
Якщо в результаті пошуку було знайдено занадто багато документів, і користувач має бажання скоротити такий список, для цього використовується прапорець "Шукати в знайденому".
При одержанні результатів пошуку за запитом, що складаєтьсяіз кількох слів, користувачеві необхідно звертати увагу на статистикуmрезультатів пошуку, яка відображається праворуч від рядка пошуку,де виводиться статистика слів запиту і знайдених документів.
Статистика слова видається завжди стосовно всієї бази і не залежить від області пошуку. Якщо слово запиту жодного разу не зустрілося в базі, воно виділяється червоним кольором. При цьому користувачеві рекомендується перевірити його правопис.
Статистика документів складається з двох чисел - знайдені документи (сторінки) і сайти (сервери). Якщо вибрати посилання на сторінки, то на екрані послідовно сторінка за сторінкою (по 10 документів на кожній екранній сторінці) відображаються анотації та адреси кожної з них (див. мал.5.6). Якщо вибрати посилання на сервери, то на екрані відображається список, який включає по одному знайденому документу з кожного сервера.
Усі знайдені за запитом документи впорядковуються при відображенні на сторінці з результатами пошуку. За замовчуванням результати пошуку впорядковуються за релевантністю і згруповуються за серверами. Знайдені документи можуть мати позначки "збіг фрази", "строга відповідність"
або "нестрога
відповідність" (
за ступенем зменшення релевантности або "нестрогі"
документи, відокремлені від інших горизонтальною рискою. Діючий порядок упорядкування і групування виділяється жирним шрифтом, альтернатива вказується за допомогою посилання. При групуванні за серверами в кожному знайденому документі відображається посилання "5с/ з сервера" (Ще з сервера) -
запит на одержання всіх сторінок цього сервера, які відповідають запитові.
При впорядкуванні за серверами кожний знайдений документ має такий вигляд:
Заголовок документа (посилання на нього). Опис документа (Metadescription, якщо існує, або - перші 256 кілобайт тексту). URL-адреса документа - його розмір - ступінь відповідності запиту. Посилання на розмічений документ | Посилання на запит схожих документів | Посилання на інші документи з того самого сервера, які відповідають даному запиту.
Наприклад, Тенета-Ринет'2000: Стихотворения! Показать найденные Слова Тенета-Ринет'2000: Стихотворения КОНКУРСНАЯ РАБОТА: http: / /teneta. rinet.ru/2000/stihi/gb955460406453260.html - 24К - збіг фрази Похожие документы І Еще с сервера близько 16 док.
При впорядкуванні за сторінками знайдений документ має інший вигляд: в останньому рядку відсутнє посилання "Ще з сервера",
наприклад, Поэтическая обсуждалка] Показать найденные Слова Участники Курилка Прозаическая обсуждалка Обсуждаемые работы Архивы http://www.lito. spb. ra/archive/poet^ukin.html - 35K - збіг фрази Похожие документы.
Якщо один зі знайдених документів "ближче" до потрібної теми, ніж решта, то для подальшого пошуку слід використати посилання "Знайти схожі документи".
При цьому за спеціальним алгоритмом пошукової системи сторінка аналізується і будуть знайдені документи, що за змістом схожі на вказані користувачем.
Наприкінці кожної сторінки з результатами пошуку відображається посилання "Пошукати те саме на:
AltaVista - Rambler - Апорт! - List.ru - @RUS - К&М. яка може стати корисною, якщо пошуковий запит не дав бажаних результатів. Тоді запит користувача передається до інших пошукових систем і каталогів.
Далі можна запропонувати учням звернутися до іншої пошукової системи з індексною базою даних та, здійснивши аналогічний пошук за простим запитом, проаналізувати одержану результуючу сторінку, знайти відповідні її елементи. Наприклад, за запитом "компьютер" на пошукових системах МЕТА
та Rambler
будуть
одержані такі результати (мал.5.7, 5.8).
Практика свідчить, що вчителю доцільно розглянути з учнями фактори, які впливають на релевантність знайдених документів:
різні частини Веб-сторінки, як і будь-якого документа, не є рівноцінними за своїм інформаційним навантаженням. Ті самі слова, але вживані в різних частинах документа, мають різний ступінь значущості. Так, слово, присутнє у заголовку сторінки, "важить" більше, ніж слово з основного тексту;
при використанні в запиті кількох ключових слів, у більшості випадків буде справедливою залежність релевантності документа від ступеня близькості цих слів у тексті;
слово, яке зустрічається кілька разів на сторінці, більш значуще, ніж те, що зустрічається лише раз. У більшості випадків саме цей фактор є вирішальним у визначенні рейтингу документа;
за допомогою спеціальних операторів мови запитів у деяких пошукових машинах можна збільшити "вагу" слова, і документи, які його містять, вважатимуться більш релевантними;
при введенні списку результатів пошуковими машинами враховується також кількість зовнішніх посилань на сторінку: чим більше посилань на цю сторінку, тим вище її розташування в списку результатів пошуку; також враховується наявність знайденої сторінки в тематичному Веб-каталозі, її рейтинг, що підтримується даною системою;
при пошуку за датами створення документів результати виводяться в довільному порядку або упорядковуються саме за датами.
Далі для вивчення мови запиту конкретної індексної бази даних можна запропонувати виконання таких завдань: знайти Веб-сторінки,що містять певну інформацію; за запитами, які записані в таблиці
у відповідному стовпчику, визначити кількість посилань на знайдені документи і кількість сайтів, на яких знаходяться виявлені Веб-сторінки; переглянути знайдені документи з виділеними словами, що входять до запитів; заповнити таблицю та за результатами пошуку зробити відповідні висновки.
Далі доцільно ретельно проаналізувати з учнями принципи побудови складеного запиту в будь-якій пошуковій системі з індексною базою даних. Для цього можна запропонувати учням ознаки для введення спеціальних операторів мови запитів:
Наявність кількох ключових слів у реченні.
Наявність кількох ключових слів у документі.
Обов'язкове входження кількох ключових слів до речення.
Обов'язкове входження кількох ключових слів до документа.
Входження одного слова із набору слів (для пошуку синонімів).
Відсутність ключового слова в реченні.
Пошук слів, що розташовані у реченні на певній відстані одне від одного.
Входження фрази до документа.
Входження цитати до документа.
Можна для підкріплення розглянути приклади використання таких операторів у мовах запитів різних пошукових систем (табл.2):
Потім учитель разом з учнями узагальнює міркування, вводить основні команди мови запитів певної пошукової системи та пропонує проаналізувати призначення конкретних запитів, записаних мовою Конкретної пошукової системи. Наприклад, для пошукової системи Яндекс
визначити результати пошуку за запитами спочатку теоретично, а потім підтвердити висунуту версію практично:
проект
Проект
"проект"
телекомунікаційний проект
проект "бізнес
(телекомунікаційний проект) бізнес
інформація | технологія
навчання гітара +Київ " (приватне | недержавне)
віруси бактерії
фото| Фотографія| Знімок| Фотозображення
(технологія | виготовлення) (іграшки +м'які)
права людини ~ (США |Америка)
путеводитель по Праге " (агентство | тур)
поставщики /2 модем
музыкальное / (-2 4) образование
Далі можна запропонувати учням практичну роботу на пошук інформації, коли запити сформовані та записані вчителем, а учням необхідно заповнити таблицю за результатами пошуку та зробити висновки (табл.3).
Потім необхідно навчити учнів планувати пошук, що передбачає добір пошукових систем і інструментів, послідовність їхнього використання залежно від результативності пошуку.
1. Проведення лексичного і морфологічного аналізу інформації, яку потрібно знайти:
а) познайомитися з інформаційними поняттями у довідниках, енциклопедіях (наприклад, можна використати сайт Кирила і Мефодія - www.km.ru);
б) виділити ключові слова, що несуть інформаційне навантаження;
в) знайти синоніми, антоніми, фрази з кількох слів;
г) перекласти слова на інші мови.
Технологічний етап. Вибір інформаційного поля, регіону пошу ку, пошукової системи.
Опис запиту мовою пошукової системи.
Аналіз результату пошуку.
Удосконалення запиту:
а) використання операторів з дією на максимальне звуження кількості знайдених документів;
б) використання операторів зі спрямованою дією на релевантність отриманих документів.
6. При невдалому пошуку повернутися до другого пункту схеми.
Після ознайомлення учнів зі схемою пошуку на основі роботи
з конкретною пошуковою системою необхідно розглянути проблеми, які виникають при його реалізації:
повнота охоплення інформаційного простору;
вірогідність знайденої інформації;
планування проведення пошуку серед інформаційних послуг.
Необхідно пояснити учням, що пошук вважається повнішим,
якщо
І він охопить повний доменний Веб-простір. Тому доцільно використовувати при розв'язуванні пошукових задач кілька пошукових систем.
Пошукові системи надають результати залежно від поставленого запиту. Такі результати бувають позитивними або негативними, коли не вдається знайти жодного документа у відповідь на поставлене запитання. Але учням слід пояснити, що завжди потрібно перевіряти отримані результати.
Бажано розглянути з учнями методику оцінювання вірогідності знайденої інформації:
Отримання однакової інформації одночасно з кількох першоджерел.
Перевірка знайденого матеріалу, встановлення частоти його використання іншими користувачами. При цьому використовуються рейтингові механізми перевірки.
З'ясування статусу документа і рейтингу Веб-сайта, на якому він знаходиться, засобами пошукових систем.
Пошук інформації про компетентність і статус автора матеріалу засобами пошукових систем.
Після вивчення теоретичного матеріалу про побудову простих та складених запитів доцільно провести лабораторну роботу, яка може містити такі завдання:
1. Знайти інформацію одночасно на пошукових системах Яндексі МЕТА
та порівняти одержані результати:
Історичний опис Львова.
Інформацію про комп'ютерні віруси.
Інформацію про мультимедійні програми.
Реферати чи курсові роботи.
Правила участі в дистанційній олімпіаді з права.
Список готелів у м. Одеса.
Адреси підприємств Житомирської області.
Інформацію про посольства США, Великобританії, Франції у Києві.
Список вищих навчальних закладів, що готують фахівців з прикладної інформатики.
Рекламні агентства в Україні.
Адреси Веб-сторінок пошукових машин.
Інформацію про автомобіль Ford
на сайтах України та Росії окремо.
Картинки, які в імені файла містять слово тар.
2.
Використовуючи пошукові системи, визначити:
Які спектаклі сьогодні увечері відбуваються у вашому місті?
Якою буде завтра погода у вашому місті?
Які нові компакт-диски випустила фірма TeachPro?
Хто такий Томас Джефферсон?
Хто такий модератор?
Що таке Юкка?
Коли буде сонячне затемнення?
Як приготувати піцу?
Офіційний сайт своєї улюбленої естрадної групи чи виконавця.
У кого з відомих музикантів були гастролі в Москві у цьому році?
Яка виставка проходить в Ермітажі у цьому місяці?
В якому році було побудовано Андріївську церкву в Києві?
Де зараз працює А. Шевченко?
Як доїхати з Києва до Львова?
Наприкінці можна ознайомити учнів з третьою групою запитів - спеціальними,
для побудови яких використовуються оператори області пошуку. Учням слід пояснити, що за замовчуванням пошук проводиться в усіх полях гіпертекстового документа, які враховуються при його індексації програмою-павуком. Використання ж операторів області пошуку дозволяє обмежити пошук тільки основним текстом документа, або його заголовком, полями коментарів, мета-дескрипторами, alt-тегами графічних файлів, посиланнями на Веб-сторінки та ін. Можна ознайомити учнів з прикладами таких операторів:
Текст (&
text) -
усе те, що безпосередньо видно при перегляді сторінки в браузері.
Заголовок
сторінки (&
title) -
заголовок Веб-сторінки, який відображається в заголовку вікна браузера.
Заголовки (&
header) -
заголовки, які виділяються в основному тексті сторінки за допомогою тегів <Н>.
ALT-теги -
коментарі до вбудованих зображень.
МЕТА-теги -
поля, які стисло описують вміст сторінки.
Коментарі (
comment) -
коментарі Веб-майстра до HTML-коду сторінки.
Текст посилання (&
anchor) -
текст, який описує гіперпосилання (власне, той текст, що бачить користувач).
Посилання (&
link) - "
підводна" частина гіперпосилання, яка вказує на іншу Веб-сторінку або файл.
Адреса сторінки (
URL-адреса) -
повний шлях до сторінки, включаючи ім'я сервера, каталога та ім'я файла.
Вбудовані програми -
пошук сторінок із вбудованими JAVA-аплетами або VB -
і JAVA-скриптами.
Вивчення спеціальних операторів мови запиту пошукових систем доцільно закріпити за допомогою виконання конкретних вправ.
Завершуючи розгляд пошукових служб, можна згадати і про інші типи ІПС: пошукові сервери спеціального призначення та метапошукові сервери.