Что такое "поисковые системы"?
World Wide Web - одна из наиболее
динамично развивающихся
технологий передачи и
представления данных в глобальных
сетях. Число Web-серверов и страниц
постоянно увеличивается, а
разобраться в этом многообразии
становится все труднее. Шансы
отыскать нужную информацию, просто
двигаясь по гиперссылкам со
странички своего Internet-провайдера,
очень малы, плохим помощником
является реклама в газетах и на
телевидении, немного пользы и от
разговоров с друзьями - всей этой
информации просто недостаточно.
Если Вы вошли в город WWW без карты,
считайте, что Вы уже заблудились, а
путь обратно найти будет
практически невозможно... Так что же
является такой "картой"?
Помочь пользователю найти нужную
информацию в Сети призваны
поисковые системы (Search engines). В
поиске нужных ресурсов
пользователь вводит одно или
несколько ключевых слов, которые,
по его мнению, лучше всего отражают
суть интересующего вопроса.
Поисковая система за считанные
секунды просматривает весь
собственный каталог web-ресурсов,
состоящий из десятков и сотен
гигабайт информации. В результате
пользователю предлагается список
ссылок на страницы, в которых
встречаются указанные слова. Эта
базовая схема поиска реализована с
разнообразными улучшениями и
расширениями практически на всех
поисковых системах мира. В
частности, существуют системы,
позволяющие вводить запрос на
естественном языке (например:
"Что известно о..."), системы, в
которых реализованы тематические
каталоги для облегчения поиска, и
т.д. Кроме того, почти все системы
предпринимают попытки
интеллектуального анализа
содержимого страниц для улучшения
качества поиска и вывода нужной
информации.
Все поисковые системы (поисковые
службы, поисковые серверы) делятся
на поисковые машины (роботы,
указатели) и поисковые каталоги.
Понимание разницы между ними очень
поможет при выборе инструмента
поиска. Поисковые машины - это
системы, состоящие из 2 частей. Одна
из них (с ней работает пользователь)
осуществляет поиск в своем
справочнике web-страниц (он
называется "индексом"). Другая
часть - это сложная программа,
которая постоянно связывается с
Web-серверами по всему миру,
загружает с них все доступные
документы, анализирует содержимое
и включает документы в индекс. Эта
часть системы называется
"краулером" (crawler, spider -
"ползун"). Каждая поисковая
система имеет своего собственного
"спайдера" со своими
собственными "повадками".
Каждая система индексирует
страницы своим особым способом, и
приоритеты при поиске по индексам
тоже разные. Поэтому, произведя
запрос по определенным ключевым
словам или выражениям, мы будем
иметь разные результаты для каждой
из поисковых систем.
В отличие от поисковых машин,
информация в поисковые каталоги
добавляется только по инициативе
пользователя. Страница добавляется
в строго определенный раздел
каталога, который связан с темой,
освещаемой на странице. Из таких
разделов образуется мощный
рубрикатор, двигаясь по которому
можно обнаружить страницы по любой
более-менее популярной теме.
Впрочем, не обязательно двигаться
по темам, в любом солидном каталоге
есть система поиска, в которой
также можно ввести ключевые слова,
что значительно уменьшает
затраченное пользователем время.
Также существуют некоторые
поисковые системы (Excite, InfoSeek),
которые имеют при себе и каталог.
Соответственно, индексы для самой
поисковой системы добываются
"краулером", а каталог
пополняется модераторами системы.
Иногда в Интернете встречаются
полнотекстовые поисковые системы
(Full-text search engine). Они индексируют
абсолютно все слова и
словосочетания на web-странице и
учитывают порядок их расположения.
В отличие от них, абстрактные
поисковые системы по определенному
алгоритму создают некий
"экстракт" проиндексированной
страницы, что значительно
облегчает задачу поиска для
пользователя.
Как искать?
Всемирные поисковые системы и
каталоги уже довольны известны по
всему миру даже тем, кто
практически ничего не знает о
развитии компьютерных, а тем более,
Internet-технологий. С каждым годом к их
услугам обращается все больше
людей, однако вот тут и возникает
вопрос: "А как искать?" Ответ на
него довольно прост и лаконичен.
Наиболее распространенным в
Интернете является поиск по
ключевым словам, т.е. поиск
документов, которые содержат в
точности указанный текст.
Менее распространен поиск с
использованием операндов булевой
алгебры, таких, например, как AND, NOT и
OR. Использование операндов
существенно увеличивает
эффективность поиска. Если ввести в
поисковую систему запрос: (толстый
OR крупный) AND богатый AND (NOT умный). Мы
получим линки на страницы,
отвечающие следующим критериям:
-
содержат слово "богатый";
-
содержат либо "толстый",
либо "крупный";
-
не содержат слово "умный".
Новинка в области поиска в
Интернете - Proximity search (поиск с
расстоянием). Это поиск, при котором
пользователь указывает, на каком
расстоянии между собой должны
располагаться ключевые слова в
документе. Например, для
русскоязычной поисковой системы
"Яndex" ()
при запросе: "толстый /4
богатый" Вы требуете найти
документы, в которых содержится и
слово "толстый", и слово
"богатый", и расстояние между
ними должно быть не более четырех
слов.
Еще один вид поиска - Query-By-Example (find
similar, найти подобные). Этой полезной
функцией обладает лишь часть
поисковых систем. При просмотре
результатов первоначального
поиска Вы выбираете документ или
группу документов, наиболее
близких к тому, что Вы ищете, и даете
системе команду "найти подобные
документы" (Апорт (), Яndex).
Очередной поиск - расширенный
запрос (Query Expansion) - процесс
построения нового запроса на базе
предыдущего. Например, одна из
наиболее известных поисковых
систем - AltaVista ()
- позволяет разрядить
многотысячный список с
результатами поиска путем удаления
оттуда документов по определенным
критериям.
Поиск в определенных полях (Search by
Field) позволяет производить поиск не
только по всему html-документу, но и
выборочно, по определенным полям.
Например, можно искать по заголовку
документа (title), в этом случае
учитываются только ключевые слова,
встречающиеся именно в заглавии
документа.
Существует поиск по полю ALT тега
IMG, такой поиск используется при
нахождении в Интернете изображения
на определенную тему.
Возможен и поиск по текстам в
гиперссылках, адресах, заголовках
разделов. Например, в российской
системе Рамблер ( )
по запросу "$TITLE: реклама and $URL:
ресурсы" система найдет все
страницы, содержащие слово
"реклама" в заголовке, и,
помимо этого, хотя бы одну
имеющуюся на странице ссылку,
содержащую слово "ресурсы".
Морфологический поиск (Stemming):
возможность системы искать слово в
документах не только в строго
заданном виде, но и во всех его
морфологических формах. Например,
не только "идти", но и
"идет", "шел" и т.д. Явный
пример этого поиска - каталог
"Yahoo!".
В мире поиска Internet существует
такое понятие, как "Weighting"
(Весовой коэффициент). Он
способствует увеличению
релевантности документа не только
с помощью количества содержащихся
в нем ключевых слов, но и по
расположению в документе. Больший
"вес" имеют слова в заголовке
страницы, слова, выделенные тегами
<H1-H6>, <B>, <STRONG>, слова,
находящиеся ближе к тегам <HTML> и
<BODY> документа.
При поиске пользователь может
также указывать системе важность
того или иного слова в запросе.
Например, в системе "Рамблер"
по запросу: "-Коза ++Овца" при
выдаче результатов большую
релевантность получат страницы,
содержащие "Овца", меньшую -
"Коза".
Виталий ФРИДМАН,
Vit_Friedman@softhome.net,
amfnews.virtualave.net
|