МИНИСТЕРСТВО ОБРАЗОВАНИЯ РОССИЙСКОЙ ФЕДЕРАЦИИ
Московский Государственный институт электроники и математики
(Технический университет)
Кафедра информационно - коммуникационных технологий
КУРСОВАЯ РАБОТА НА ТЕМУ:
«Поисковые системы»
ПО ДИСЦИПЛИНЕ "ОРГАНИЗАЦИЯ ЭВМ "
ВЫПОЛНИЛИ:
СТУДЕНТЫ ГРУППЫ С-34
Курдюков Алексей Алексеевич
Логинов Константин Вячеславович
ПРЕПОДАВАТЕЛЬ: доцент
Мартиросян Сашик Торгомович
Москва, 2010г.
Введение
Всемирная сеть очень важна и полезна практически для любого! Каждый пользователь Интернета может найти в нем массу разнообразной и интереснейшей информации.Ресурсы Интернета давно перестали быть просто игрушкой, превратившись в незаменимый инструмент для повседневной работы людей многих профессий. Быстрый рост информации в сети сделали его океаном разнообразнейших данных, важность которых растет пропорционально их объему. По оценке специалистов объем информации, передаваемой по каналам всемирной паутины, удваивается каждые полгода. Ежедневно в сети появляются сотни тысяч новых документов, и естественно, что без систем поиска они в подавляющем своем большинстве остались бы не востребованными и не находимыми. Возникла необходимость создания таких средств, которые позволили бы легко ориентироваться в информационных ресурсах глобальных сетей, быстро и надежно находить нужные сведения. В интернете появились специальные поисковые средства. Еще несколько лет назад бытовало такое мнение: в Интернете есть все, но найти там ничего невозможно. Однако с появлением и быстрым развитием поисковых каталогов, поисковых машин, и всевозможных поисковых программ ситуация изменилась, и теперь в Сети срочно понадобившуюся информацию иногда можно найти быстрее, чем в книге, лежащей на столе.
Постановка Задачи:
1) Исследование современных поисковых систем интернета: общие факты о наиболее популярных поисковых системах, их методах, различиях в методах поиска информации.
2)Рекомендации по составлению корректного запроса.
3) Знакомство с сайтом www.antiplagiat.ru
:направленность ресурса, их методы поиска.
4)Исследование и самостоятельное выявление "слабых мест" ресурса www.antiplagiat.ru
Исследование современных поисковых систем интернета.
Перед тем как преступить к исследованию поисковиков, думаю будет не мало важным рассказать про историю поисковых систем в целом.
Первой полноценной поисковой системой стал проект WebCrawler который появился 1994 году.
В 1995 году были основаны поисковые системы Lycos и AltaVista. Последняя долгие годы была лидером в области поиска информации в Интернет.
В 1997 году Сергей Брин и Ларри Пейдж создали Google в рамках исследовательского проекта в Стэнфордском университете. Сегодня, Google самая популярная поисковая система в мире.
23 сентября 1997 года была официально анонсирована поисковая система Yandex, самая популярная в русскоязычной части Интернет.
В настоящее время существует 3 основных международных поисковых системы – Google, Yahoo и MSN Search, имеющих собственные базы и алгоритмы поиска. Большинство остальных поисковых систем использует в том или ином виде результаты 3 перечисленных. Например, поиск AOL (search.aol.com) и Mail.ru используют базу Google, а AltaVista, Lycos и AllTheWeb – базу Yahoo.
В России популярной поисковой системой является Яндекс и Google, за ними идут Rambler ,Aport и т.д.
Перед тем как рассматривать поисковые системы подробно, следует описать принцип действия любого поисковика.
Основные принципы работы поисковых систем
Как же все-таки работают поисковые системы? Как ни странно, но логика работы у всех поисковых систем в принципе одинаковая и заключается в следующем: поисковыми системами собирается информация обо всех документах в сети, до которых они могут дотянуться, после чего эти данные хитрым образом обрабатываются, для того, чтобы по ним удобно было бы вести поиск. Итак по порядку.
Во-первых, уточним, что документом поисковые системы называют то, что мы обычно называем страницей сайта. При этом документ должен иметь свой уникальный адрес (URL), и что примечательно, хеш-ссылки не будут приводить к появлению нового документа (хеш-ссылка - та же самая метка в программировании. чтобы не листать огромную страницу в поиске нужной главы,можно сразу перейти к ней посредством таких ссылок.). Во-вторых, стоит остановиться на алгоритмах (способах) поиска информации в собранной базе документов, которые используют поисковые системы.
Алгоритмы работы поисковых систем - прямой поиск и алгоритм обратных (инвертированных) индексов
Очевидно, что метод простого перебора всех страниц (документов), хранящихся в базе данных поисковиков, не будет являться оптимальным. Этот метод называется алгоритмом прямого поиска и при том, что этот метод позволяет наверняка найти нужную информацию не пропустив ничего важного, он совершенно не подходит для работы с большими объемами данных, ведь тогда на поиск будет уходить очень много времени.
Поэтому для эффективного поиска в больших объемах данных был разработан алгоритм обратных (инвертированных) индексов. И что примечательно, именно этот алгоритм используется всеми крупными поисковыми системами в мире. Остановимся на этом алгоритме более подробно.
При использовании алгоритма обратных (инвертированных) индексов, поисковые системы преобразовывают документы в текстовые файлы, содержащие список всех имеющихся в документе слов. Слова в таких списках (индекс-файлах) располагаются в алфавитном порядке и рядом с каждым словом указаны в виде координат те места в документе, где это слово встречается. Кроме позиции в документе, для каждого слова приводятся еще и другие параметры, определяющие его значение в документе.
Если вы вспомните, то во многих книгах (в основном технических или научных) на последних страницах приводится список слов, используемых в данной книге, с указанием номеров страниц, где эти слова встречаются в этой книге. Конечно же, этот список не включает всех слов, используемых в книге, но тем не менее может служить примером построения индекс-файла с помощью алгоритма обратных (инвертированных) индексов.
Стоит заметить, что поисковые системы ищут информацию не в интернете, а в обратных индексах обработанных ими документов сети. Хотя и прямые индексы (оригинальный текст документов) поисковики тоже сохраняют, т.к. он необходим для составления сниппетов(чуть дальше описано что такое сниппеты).
Алгоритм обратных индексов документов используется всеми поисковыми системами, т.к. он позволяет ускорить процесс поиска, но при этом будут неизбежны потери информации за счет искажений внесенных преобразованием документа в индекс-файл. Для удобства хранения файлы обратных индексов обычно хитрым способом сжимаются.
Математическая модель, используемая поисковыми системами для поиска и ранжирования документов по тем или иным поисковым запросам
Для того, чтобы осуществлять поиск по обратным индексам документов, содержащимся в базе данных поисковых систем, используется математическая модель, позволяющая упростить процесс обнаружения нужных документов (по введенному пользователем поисковому запросу) и процесс определения релевантности всех найденных документов этому запросу. Чем больше документ соответствует данному запросу (чем он релевантнее), тем выше он должен стоять в поисковой выдаче.
Значит основная задача выполняемая математической моделью любой поисковой системы - это поиск документов (страниц) в своей базе обратных индексов соответствующих данному поисковому запросу и сортировка этих найденных документов в порядке убывания их релевантности поисковому запросу. Использование простой логической математической модели, когда документ будет являться найденным, если в нем встречается искомая фраза, нам не подойдет, в силу огромного количества таких документов, выдаваемых на рассмотрение пользователю.
Поисковая система должна не только предоставить список всех документов (веб-страниц), на которых встречаются слова из поискового запроса. Она должна предоставить этот список документов в такой форме, когда в самом начале этого списка будут находиться наиболее соответствующие запросу пользователя документы (осуществить сортировку найденных страниц по релевантности). Эта задача не тривиальна и по умолчанию не может быть выполнена идеально.
Кстати, неидеальностью любой математической модели поисковых систем и пользуются оптимизаторы, влияя теми или иными способами на ранжирование документов в поисковой выдаче (в пользу продвигаемого ими сайта, естественно). Математическая модель, используемая всеми поисковыми системами, относится к классу векторных математических моделей. В этой математической модели используется такое понятие, как вес документа по отношению к заданному пользователем запросу.
В базовой векторной математической модели вес документа по заданному поисковому запросу высчитывается исходя из двух основных параметров: частоты, с которой встречается данное слово в рассматриваемом документе (TF -
term frequency) и тем, насколько редко это слово встречается во всех других документах коллекции поисковой системы (IDF
- inverse document frequency). Под коллекцией поисковой системы имеется в виду вся совокупность документов, известных поисковой системе. Умножив эти два параметра друг на друга, мы получим вес документа по заданному поисковому запросу.
Естественно, что различные поисковые системы, кроме параметров TF и IDF, используют множество различных коэффициентов для расчета веса документа (страницы) по заданному поисковому запросу, но суть остается прежней: вес страницы (документа) будет тем больше, чем чаще слово из поискового запроса встречается в документе (до определенных пределов, после которых документ может быть признан спамом) и чем реже встречается это слово во всех остальных документах, проиндексированных поисковой системой.
Оценка качества работы векторной математической модели поисковой системы
Таким образом, получается, что формирование выдач поисковых систем по тем или иным запросам осуществляется полностью по формуле (математической модели) без участия человека. Но никакая формула не будет работать идеально, особенно на первых порах, поэтому нужно осуществлять контроль за работой математической модели. Для этих целей используются специально обученные люди - ассесоры, которые просматривают выдачу поисковых систем (конкретно той поисковой системы, которая их наняла) по различным запросам и оценивают качество работы математической модели поисковой системы.
Все внесенные ими замечания учитываются людьми, отвечающими за настройку математической модели поисковой системы. В формулу векторной математической модели вносятся изменения или дополнения, в результате чего качество работы поисковой системы повышается. Получается, что ассесоры выполняют роль такой своеобразной обратной связи между разработчиками поисковой системы и ее пользователями, которая необходима для улучшения качества работы поисковиков.
Основными критериями в оценке качества работы математической модели поисковых систем являются:
1. Точность
выдачи поисковой системы - процент релевантных документов (соответствующих поисковому запросу) в поисковой выдаче. Чем меньше не относящихся к теме запроса документов (например, дорвеев) будет присутствовать в поисковой выдаче, тем лучше.
2. Полнота
поисковой выдачи - процентное отношение соответствующих заданному запросу (релевантных) документов в поисковой выдаче к общему числу релевантных документов, имеющихся во всей коллекции поисковой системы ( коллекция - совокупность документов известных поисковой системе). Т.е. получается так, что во всей базе документов, которые известны поисковой системе (коллекции) документов соответствующих заданному запросу будет больше, чем показано в поисковой выдаче. В этом случае можно говорить о неполноте поисковой выдаче. Возможно, что часть релевантных документов попала под фильтр и была, например, принята за дорвеи или же еще какой-нибудь шлак.
3. Актуальность поисковой выдачи
- степень соответствия реального документа в интернете, тому, что о нем написано в поисковой выдаче. Например, документ может уже не существовать или быть сильно измененным, но при этом в поисковой выдаче по заданному запросу он будет присутствовать, несмотря на его физическое отсутствие по указанному адресу или же на его текущее не соответствие данному поисковому запросу. Актуальность выдачи поисковой системы зависит от частоты сканирования поисковыми роботами той или иной поисковой системы документов из своих поисковых выдач.
Как поисковые системы собирают свою коллекцию документов (индексация документов поисковиками)
Несмотря на кажущуюся простоту индексации документов (веб-страниц) поисковыми системами, тут есть масса нюансов, которые нужно знать, а в последствии и использовать при поисковой оптимизации (SEO) своих или же заказных сайтов. Индексация документов сети (сбор коллекции) осуществляется специально предназначенной для этого программой, называемой поисковым роботом (паук). Робот получает от поисковой системы первоначальный список адресов документов (веб-страниц), которые он должен будет посетить, скопировать содержимое этих страниц и отдать это содержимое на дальнейшую переработку поисковой системе (она преобразует эти документы в обратные индексы).
Поисковый робот может ходить не только по заранее данному ему списку документов (веб-страниц), но и переходить по ссылкам с этих документов (страниц) и индексировать находящиеся по этим ссылкам документы. Таким образом поисковый робот ведет себя точно так же, как и обычный пользователь, переходящий по ссылкам. Поэтому получается, что поисковая система с помощью робота может проиндексировать все то, что доступно обычно пользователю, использующему браузер для серфинга (поисковые системы индексируют документы прямой видимости, которые может увидеть любой пользователь интернета).
У поисковых систем есть ряд особенностей, связанных с индексацией ими документов в сети. Первой особенностью можно считать то, что кроме обратного индекса, который создается из оригинального документа, скачанного из сети, поисковая система сохраняет еще и копию этого самого документа, иначе говоря, кроме обратного индекса документа, поисковики хранят еще и прямой индекс документа. Зачем это нужно?Это нужно для составления различных сниппетов для этого документа, в зависимости от введенного поискового запроса.
Что такое сниппет и для чего поисковые системы хранят в своей базе копии документов (прямые индексы)
Но тут сначала нужно будет разобраться, а что такое сниппет, для чего он нужен поисковой системе и почему содержимое сниппета так важно для оптимизатора? Сниппет в поисковой выдаче располагается сразу под ссылкой на найденный документ (текст которой берется из тега TITLE документа):
В качестве сниппета используются обычно куски текста из этого документа. Идеальный сниппет призван предоставить пользователю возможность составить мнение о содержимом документа (страницы), не переходя на него (но это если сниппет получился удачным, а это не всегда так). Сниппет формируется автоматически и какие-именно куски текста документа будут использоваться в качестве сниппета решает поисковая система, и что важно, для разных поисковых запросов у одного и того же документа будут разные сниппеты.
Но сниппет нельзя получить из обратного индекса, т.к. там хранится информация только об использованных на странице словах и их положении в тексте. Вот именно для создания сниппетов одного и того же документа в разных поисковых выдачах (по разным поисковым запросам) поисковики, кроме обратного индекса (нужного непосредственно для ведения поиска по документу), сохраняют еще и прямой индекс, т.е. копию документа (веб-страницы). Сохраняя копию документа у себя в базе, поисковой системе довольно удобно нарезать из них нужные сниппеты, не обращаясь при этом к оригиналу документа.
Таким образом. получается, что поисковые системы хранят в своей базе и прямой и обратный индекс документа (веб-страницы). Кстати, на формирование сниппетов можно косвенно влиять, оптимизируя текст веб-станицы таким образом, чтобы поисковая система выбрала в качестве сниппета именно тот кусочек текста, который вы задумали.
Рейтинг поисковых систем
Каждый из нас ежедневно пользуется интернетом. Но с обилием информации достаточно трудно найти искомое. Именно поэтому и были созданы поисковые системы. Каждый предпочитает тот или иной поисковик, но никто не задумывается , а какой самый популярный .Ниже приведён список популярности поисковых систем.
Рейтинг российских поисковых систем :
1. http://www.yandex.ru/ - 45,7%
2. http://www.google.com/ - 26%
3. http://www.rambler.ru/ - 15,1%
4. http://www.mail.ru/ - 6.6%
Основные мировые поисковые системы :
1. http://www.google.com/ - 46.2%
2. http://www.yahoo.com/ - 22.5%
3. http://search.msn.com/ - 12.6%
4. http://www.aol.com/ - 5.4%
5. http://www.myway.com/ - 2.2%
6. http://www.ask.com/ - 1.6%
7. http://search.netscape.com/ - 1.6%
Российские поисковые системы
Google, Yandex, и Rambler на сегодняшний день являются самыми популярными поисковыми машинами в России.
Рассмотрим более подробно каждую их этих поисковых систем.
Google имеет свой российский аналог, менее популярный чем исходный американский, но ничем ему не уступающий по качеству поиска. У Google в России есть многочисленные поклонники, считающие, что этот посковик выдает наилучший результат. Тут следует отметить, что всё зависит от того, что вы ищите. Так как алгоритм поисковых машин не одинаков, то и результат будет разный.
PageRank, используемый в Google, в основном основан на link popularity(индекс цитирования). При вычислении релевантности страницы наибольший вклад имеет количество и качество ссылок на страницы с д
PageRank - это название алгоритма, запатентованного компанией Google, и представляющего собой способ учета внешних ссылок на сайт. Для каждой страницы PageRank рассчитывается отдельно, он служит для определения «важности» веб-страницы. То есть, чем больше на других сайтах ссылок на конкретную страницу, тем выше ее величина PageRank, и, соответственно, «весомее» эта страница.
PageRank веб-страницы – это числовая величина, характеризующая вероятность нахождения посетителя на данной странице, причем суммарная вероятность по всем страницам в сети равна единице, поскольку на какой-нибудь странице обязательно находится посетитель. В более удобном виде PageRank отображается в надстройке браузера Google Toolbar, где каждой странице соответствует показатель в виде целого числа от 0 до 10. На самом деле это число - не точное значение, а диапазон PageRank, в который попадает страница. Высчитывается оно по логарифмической шкале.
На данный момент база данных Google насчитывает более миллиарда проиндексированных страниц.
Google – одна из немногих поисковых систем, которая глубоко индексирует ваш сайт. Google использует link populariry как наиболее весомый фактор в определении релевантности страницы. Поэтому большим и популярным сайтам проще попасть на высокие позиции в результатах поиска. Это также защищает Google от спама.
Google полагает, что следующие факторы будут наиболее весомыми при ранжировании страниц:
Link popularity (индекс цитирования);
Keyword proximity and density (плотность и частота ключевых слов);
Keywords in the link text (ключевые слова в ссылках);
Emphasized text (выделенный текст).
Yandex
Отличительная особенность Yandex – интуитивный поиск во всех словоформах. Уникальная разработка под особенности русского языка.
В каталоге Яндекса используется такое понятия, тематический индекс цитирования
(тИЦ). Он рассчитывается для сайта в целом и показывает авторитетность ресурса относительно других, тематически близких ресурсов (а не всех сайтов Интернета в целом). И взвешенный индекс цитирования (вИЦ) – аналог PageRank, применяемый поисковой системой Яндекс. Значения ВИЦ нигде не публикуются и известны только Яндексу. Поскольку узнать ВИЦ нельзя, следует просто помнить, что у Яндекса есть собственный алгоритм оценки «важности» страниц. ВИЦ Яндекса непосредственно влияет результаты поиска в Яндексе, т.е. на места по которым распределяются сайты.
При подсчете индекса цитирования не берутся во внимание ссылки с форумов, веб-досок, конференций, сайтов, расположенных на бесплатных хостингах (если они не описаны в каталоге Яндекса). Естественно, не учитываются ссылки с тех сайтов, которые Яндекс не индексирует (например, зарубежные сайты).
Количество хостов зависит от посетителей (чем их больше, тем больше хостов), а индекс цитирования Яндекса – от авторов сайтов (чем больше авторов поставят ссылку на ваш ресурс, тем выше значение CY).
По значению индекса цитирования определяется релевантность ресурса в каталоге Яндекса и, соответственно, позиция вашего сайта в выбранном разделе.
Переиндексация документа происходит примерно раз в две недели, но под каждый сайт робот подстраивается в отдельности. Все зависит от частоты обновления. По словам Яндекса, тег <meta name="Revizit-after" content="n-days"> никакой роли в работе робота не играет.
Яндекс индексирует российскую сеть, поэтому в поисковую машину вносятся сервера в доменах su, ru, am, az, by, ge, kg, kz, md, ua, uz. Остальные сервера вносятся, только если на них найден текст на русском языке.
Информация в заголовке (тег <title>) Яндекс отображает в результатах поиска. Слова, находящиеся в теге <title>, имеют больший вес чем все остальные. Ключевые слова в теге <meta> также увеличивают вес слова в документе, но только если само слово находится на странице.
Помимо вышеперечисленных способов, на релевантность слова влияют частота его использования в заголовках (<h1>, <h2> ...), в атрибуте alt, во всплывающих подсказках (тег <acronym>) и процент встречаемости этого слова в документе, т.е. как часто вы его используете. Но при этом необходимо сохранить смысл документа, иначе Яндекс может посчитать это слово спамом.
Rambler
Является лучшим рубрикатором на сегодняшний день. Удобен тем, что все ресурсы разбиты на разделы, подразделы и т.д. Многие из них участвуют в рейтинге Top100, что позволяет определить популярность того или иного ресурса.
Считается, что основополагающим фактором для продвижения сайта в Rambler является хороший контент и посещаемость, измеряемая с помощью установленного на сайте счетчика. Таким образом, высокие позиции в рейтинге может занимать сайт хорошо раскрученный, качественно и давно зарекомендовавший себя в интернете, с большой посещаемостью.
Рамблер как и Яндекс русскоязычный и сканирует сайты, находящиеся в следующих доменах первого уровня:
• .ru, .su, .ua, .by, .kz, .kg, .uz, .ge
Роботы рамблера при сканировании игнорируют поля <meta name="keywords"...> и все другие поля <meta...>, кроме <meta name="robots"...>. Это связано с тем, что поисковая система рамблер старается индексировать документ таким, какой он есть (то есть таким, каким его видит пользователь).
Достаточно удачная архитектура продукта позволяет "Рамблер" иметь для поисковика количество серверов в 2 раза меньшее, чем у "Яндекса".
Рекомендации по составлению поискового запроса.
Не пытайтесь полностью описать поисковой системе то, что ищете. Пытайтесь быть лаконичными и точными. Попытайтесь побольше узнать об искомом тексте, обдумать поисковый запрос, при необходимости, подобрать синонимы к ключевым словам!
Важнейшим фактором и залогом нашего успеха является правильность поискового запроса. К примеру, если вы хотите найти информацию о чемпионате по футболу Евро 2012 в Украине, вам следует вводить в строке поиска Евро 2012 Украина, а не просто футбол Украине. Помните, машина ищет именно слова и словосочетания, она не знает, что вы имели ввиду, запросив какую-либо информацию, она не будет думать за вас! Также полезно знать, что любой современный поисковик сортирует найденную информацию по релевантности (степени совпадения вашего запроса с информацией на сайте), т. е. самый подходящий вам сайт будет находиться на первом месте и т. д.
Также, обратите внимание, что при поиске предлог «в» не вставлен. А все это от того, что поисковая система не индексирует и не ищет по предлогам и таким частым словам, как «где», «когда», «кто»; также она опускает знаки пунктуации (исключения составляют лишь очень распространенные комбинации, как $10 или С++).
Поиск цитаты или точного названия
Как быть с поиском цитат или точных названий фирм, музыкальных групп и прочего, если поисковик не берет во внимание сильно распространенные слова? Очень просто. Стоит лишь заключить в кавычки весь запрос, и система тотчас же воспримет его как единое целое, не смея менять слова местами либо опускать какие-либо слова или символы. К примеру, если вы ищете текст песни «Белые розы», просто наберите фразу «что с вами сделали лед и морозы». Также вы можете заставить поисковую машину искать любое слово или символ, поставив пред ним «+». Результатом запроса «Обитель зла +3», будет именно ссылки на сайты о третьей части этого фильма.
Поиск по сайту или домену
Предположим, вы читали интереснейшую статью на каком-либо сайте, однако забыли сохранить ссылку в Избранном и теперь не можете ее найти. И с этой задачей способен справиться наш поисковик. К примеру, в Google стоит лишь указать, на каком сайте искать, например: Как купить компьютер site:mirsovetov.ru. Данный запрос направит поисковую систему на указанный сайт, и найдет там нужную информацию.
В Яндексе такой запрос выполняется немного сложнее: Как собрать компьютер
<< url="mirsovetov.ru*". Также эта функция позволяет искать информацию в определенном домене, например, для поиска с помощью Google информации, расположенной на сайтах с адресом *.ru, можно ввести: Как купить компьютер site:ru – что может быть полезно для поиска данных определенного региона.
Исключение из поиска
Поисковую машину можно не только «заставлять» искать нужный текст в Интернете, но и исключать некоторые слова из запроса. Если вы не хотите, что бы при поиске реферата на тему «История Древнего Египта» вам были предложены документы с его Культурой, просто введите в поисковое поле Google: история древнего египта -культура. В Яндексе вместо знака «-» используется сочетание знаков «~~». При таком запросе, слово «культура» было полностью исключено из критериев поиска.
Поиск с учетом регистра
Поисковые системы не учитывают регистр, все заглавные символы воспринимаются машинами как строчные, за исключением использования специального операнда. Таковым является знак восклицания «!», стоящий перед словом. Эта функция очень полезна, чтобы искать села или города с распространенными названиями, к примеру «село !Кошки». В данном случае, поисковик не будет искать сайты, где речь ведется о селе, где живут кошки, а будет вести поиск с учетом заглавной буквы.
Для более структурированного запроса обратитесь в раздел «Расширенный поиск», которым обладают все современные поисковики.
Предпосылки к созданию проекта “Антиплагиат”
Развитие информационных технологий и, в особенности, сети Интернет наряду с безусловными положительными для общества аспектами, породило также и ряд проблем в таких областях, как защита авторских прав, интеллектуальной собственности, сохранение конфиденциальности информации и другие.
Перед преподавателями возникла задача проверки работ учащихся на предмет заимствований из Интернет-источников. Для проверки реферата среднего размера с целью доказательства факта «списывания» из Интернета преподавателю, использующему «обычные» поисковые системы, такие как Яндекс, Google и др., необходимо в среднем не меньше одного часа. При большом количестве проверяемых работ задача становится практически невыполнимой.
Компанией Forecsys предлагается уникальное решение описанной выше проблемы, которое основывается на проверке всех письменных работ учащихся учебного заведения на наличие в них фрагментов, заимствованных в интернет-источниках, а также в источниках из внутренней базы данных, которая формируется усилиями самого учебного заведения.
Основное назначение системы — ответить на вопрос преподавателя, какие фрагменты проверяемого текста являются оригинальными, а какие заимствованы из других текстов?
Сайт antiplagiat.ru появился в 2005 году и на сегодняшний день зарекомендовал себя как один из интересных сервисов для обнаружения текстового плагиата. Основными пользователями сайта стали преподаватели ВУЗов и школьных учреждений, так как политика его перспективного развития подразумевала именно эту аудиторию, как основную.
Как утверждают разработчики, стратегической задачей системы «Антиплагиат» является повышение качества образования в тех областях, где от обучающегося требуется творческая работа по написанию рефератов, курсовых и дипломных работ и иных материалов собственного сочинения. Эта задача решается путем побуждения обучающихся к самостоятельному написанию текстов, а не создания их путем компиляции найденных в Интернете страниц, касающихся заданной тематики. По сути, данное изобретение является революционным шагом. Используя сервисы(как бесплатные, так и платные) antiplagiat.ru, можно легко и быстро обнаружить заимствования текстового контента из источников Интернета, которые находятся в свободном доступе для посетителей.
Это даёт возможность преподавателям исключить возможность принятия и оценки работ студентов, которые не выполнены лично тестируемым, а были скопированы из сети. Такая практика значительно повышает качество обучающего процесса, и приводит к обнаружению нерадивых студентов, которые из-за отсутствия навыков самостоятельного труда, вряд ли станут достойными выпускниками
Как работает «Антиплагиат»
После регистрации вы получаете свой «кабинет пользователя», который служит для хранения документов и проверки их на плагиат. Подробное «Руководство пользователя» системы не даст запутаться на сайте даже неподготовленному пользователю. Предлагается два способа проверки текста документов: загрузка файлов в систему и он-лайн проверка путём копирования из буфера обмена. В результате проверки система выдаст отчет и выставит оценку оригинальности текста в процентах.
"Поиск совпадений осуществляется методом сравнения последовательностей символов без учета языковых особенностей и речевых взаимосвязей, — рассказал CNews Глеб Никитов
, руководитель разработки AntiPlagiat.ru, — за счет этого достигается высокая, в несколько секунд, скорость поиска совпадений. К тому же, система позволяет бороться с плагиатом на любом языке — в этом состоит ее преимущество перед западными аналогами, например, TurnItIn.com. Все программные алгоритмы, используемые в «антиплагиате», являются собственными разработками, ноу-хау компании «Форексис».
На данный момент сервис работает в тестовом режиме, при этом создатели системы отмечают стабильную работу механизма поиска совпадений. Система работает с форматами HTML, RTF, PDF, .txt, .doc. Анализ текста объемом 5 тыс. знаков осуществляется за несколько секунд. «Главная задача — это накопление базы текстов для осуществления сравнения. Эта работа идет и постоянно продолжается, — комментирует Глеб Никитов, — на сегодняшний день AntiPlagiat.ru проводит анализ текста более чем по 4 млн источников. Каждый владелец эксклюзивного копирайта, желающий сохранить свой контент от плагиата, может занести ресурс в базу данных. Насколько возможно, мы будем развивать и алгоритмическую часть, но уже сейчас в отчете анализа текста по каждому предложению можно получить процентное соотношение совпадения с оригиналом, причем с указанием веб-адреса источника цитирования».
Технология проверки документов
Принцип действия механизма проверки текстовых документов на наличие заимствований, реализованного в нашей системе, заключается во взаимодействии ее модулей, каждый из которых функционирует параллельно с другими и решает свою определенную задачу. Условно, процесс функционирования системы можно разбить на последовательные этапы, в рамках которых определенные модули выполняют определенные операции, хотя в реальности эти этапы могут также происходить либо в другом порядке, либо одновременно.
На первом этапе система собирает информацию из различных источников: загружает из Интернета и обрабатывает сайты, находящиеся в открытом доступе, базы научных статей и рефератов. Загруженные документы проходят процедуру фильтрации, основанную на уникальной технологии очистки текста, в результате которой отбрасывается бесполезная с точки зрения потенциального цитирования информация (это касается в первую очередь HTML-страниц с большим количеством рекламы, новостных заголовков, меню и так далее).
На следующем этапе каждый из полученных таким образом текстов определенным образом форматируется и заносится в системную базу данных. Кроме того, в общую базу текстов поступают документы, загруженные на проверку пользователем, если такая возможность была разрешена им во время процедуры загрузки.
Все пользовательские документы, загружаемые для проверки, ставятся в очередь на обработку и, благодаря использованию в аналитических модулях нашей системы новаторских технологий и проведению качественной оптимизации, проверка документа, такого, как, например, реферат среднего размера, занимает всего несколько секунд.
Кроме того, наша система обладает высокой отказоустойчивостью, иллюстрируемой, к примеру, тем, что в случае возникновения при проверке документа нештатных ситуаций или сбоев, этот документ лишь переставляется в очереди на несколько минут назад и затем проверяется вновь.
Наконец, после успешной проверки документа, пользователь получает доступ к отчету, в котором в наглядной форме представляются ее результаты. Оригинальная структура отчета позволяет выделять в проверяемом тексте заимствованные части как по всем источникам, так и по их любому подмножеству.
Практика применения
В той или иной степени на систему «Антиплагиат» обратили внимание многие учителя и преподаватели. Скоро, по мнению разработчиков, программа будет обязательной во всех вузах России. На момент написания статьи в системе зарегистрировано 40 тыс. пользователей и проверено на плагиат более миллиона работ. Применение системы повышает качество сдаваемых работ. Но, по словам многих пользователей, проверить большой массив информации на плагиат зачастую бывает непосильно. Ведь на это уходит уйма времени. Да и сама система не всегда правильно и объективно оценивает труд автора. Например, цитаты, ссылки на источники могут определяться программой как плагиат. Даже добросовестные студенты допустив какой-то процент подобного невольного «плагиата», иногда могут пострадать. Как правило, допускается до 10% плагиата.
Студенты, в свою очередь, пытаются найти лекарство от «Антиплагиата». И даже создали «Антиплагиат Killer», – систему, способную корректировать «скачанный» документ до неузнаваемости «Антиплагиатом». Изобретаются и другие способы обойти систему. Этой теме можно посвятить отдельную статью. Как бы там ни было, все эти способы потребуют от студента усилий, заставят думать над темой работы. Для многих эти усилия окажутся, наконец, направленными на самостоятельное и творческое написание требуемой работы, а не на обман «Антиплагиата». И это можно занести только в актив системе.
Алгоритмы системы построены таким образом, что обмануть «Антиплагиат» непросто. Перечислим только некоторые потенциальные уязвимости, от которых защищена система:
замена русских букв (кириллицы) схожими по виду латинскими;
перестановка абзацев;
перегруппировка предложений в абзацах;
перестановка слов в предложениях;
разбиение и слияние предложений;
замена точек запятыми;
замена пробелов точками;
замена слов синонимами.
Несмотря на этот список , Антиплагиат не идеален и у него есть изъяны. Одним из которых является долгий сбор информации, в связи с этим, даже сейчас можно найти такой реферат, курсовую или статью, которой нету в базе.
Вы можете самостоятельно проверить это, проделав соответствующие манипуляции с любым документом. Таким образом, чтобы «обхитрить» систему «Антиплагиат», студенту придётся провести серьёзную вдумчивую работу над текстом, в чём и заключается его задача при написании рефератов и курсовых работ.