Робот, или паук, или червь, или crawler, или сетевой агент - программа
обхода Сети. Базовой информацией для работы этой программы является
список адресов (URL). Дополнительная информация берется из robots.txt
(файла, в котором Web-администратор может запретить роботу заходить на
те или иные разделы сайта). В самом общем случае робот предназначен для
скачивания страниц по указанным адресам в место, указанное его
хозяином.
Помимо robots.txt существуют и другие джентельменские соглашения
для работы роботов - например, он не должен делать более одного
коннекта, чтобы не забить канал и дать возможность другим пользователям
Сети общаться с данным сервером.
Для поисковой машины Yandex.Ru в состав робота входят еще
модули индексации, распознавания кодировок (если на странице содержится
русский язык) и определения уникальности документа.
1. Как Yandex.Ru узнает о новых ресурсах
Как Yandex.Ru узнает о новых серверах и страницах? Есть два
способа - или владельцы ресурсов сами добавляют их (заполнив форму
AddURLна http://danilsitenew.narod.ru/yandex.ru/addurl.html или послав
письмо на addurl@yandex.ru), или робот находит новые ссылки в
проиндексированных страницах. Так, например, с первой страницы сервера
робот берет ссылки на последующие и так далее, без ограничения глубины,
до тех пор, пока новые адреса не перестанут появляться.
Поскольку задачей Yandex.Ru является работа с русско-язычным
и/или российско-ориентированным Интернетом, введено следующее правило:
сервера в доменах России и стран СНГ ('su', 'ru', 'am', 'az',
'by','ge', 'kg', 'kz', 'md', 'tj', 'ua', 'uz') принимаются по
умолчанию. Сервера в других доменах - если на них найден русский язык
или если владельцы ресурсов убедят администрацию поисковой машины в
том, что их сервер подпадает под указанную категорию (это обычно
делается письмом на addurl@yandex.ru).
Итак, не удивляйтесь, если URL, который Вы добавляете, уже есть в базе
робота. Наш робот мог найти Ваш URL по ссылкам из других
проиндексированных документов. Не стоит также огорчаться, если при этом
Вы не можете найти этот документ в Yandex. Наверняка наш "паук" просто
еще не успел дойти до Вашего документа, и он будет проиндексирован
через несколько дней.
2. Правила индексации в Yandex.Ru
Yandex индексирует страницы по их истинным адресам. Это значит,
что, если на странице стоит redirect, робот воспримет его как ссылку на
новый адрес и поступит с ним по правилам, указанным выше. То же самое
произойдет, если в одном из фреймов будет стоять ссылка на другой
сервер. В частности, если эта ссылка находится вне доменов, разрешенных
по умолчанию, страница НЕ будет проиндексирована.
Кроме этого, Yandex начинает бороться со спамом, и страницы со временем
redirect'а равным нулю будут исключаться из индексирования (непонятно,
какие еще цели, кроме спама, могут быть у создателей страницы, которую
пользователь в принципе не может увидеть).
Робот Yandex.Ru хранит дату последнего обхода каждого URL, дату
его изменения (присланную его Web-сервером) и дату внесения последних
изменений в базу поиска (дату индексации). Он оптимизирует обход Сети
таким образом, чтобы чаще посещать наиболее изменяемые сервера.
По этой причине, а также потому, что на Yandex.Ru работает поиск и
сортировка по датам, очень хотелось бы, чтобы сервера выдавали
корректные даты изменения файлов, чего не происходит более чем в 20
процентов случаев.
Yandex.Ru является полнотекстовой поисковой машиной. Это значит,
что в индекс попадают все слова текста на странице, видимые
пользователю (то есть кроме комментариев и слов внутри тэгов). В
ближайшее время планируется начать индексировать Meta-keywords.
3. Как узнать, проиндексирован ли ресурс
Чтобы проверить, проиндексирована ли Ваша страница,достаточно
скопировать из нее какую-нибудь характерную строчку, желательно
подлиннее (копирайт, адрес, название и описание), и задать ее как
запрос в Yandex. Если на первой странице списка найденного Вашей
страницы не оказалось, значит, она еще не проиндексирована. Тогда стоит
проверить, есть ли она уже в базе робота. Для этого надо пойти на
страницу AddURL (addurl@yandex.ru (учтите, что запись URL чуствительна
к регистру шрифта).
4. Конфигурируйте сервер так. чтобы он корректно выдавал даты файлов и кодировки русского языка.
5. Добавляйте верхнюю страницу Вашего сервера - остальные Yandex найдет сам по ссылкам.
6. Если Ваша страница была проиндексирована, а затем Вы изменили
ее содержание или удалили ее, не беспокойтесь - робот автоматически
обойдет ее снова и обновит индекс (в случае, если страница больше не
существует, она будет исключена из поиска).
Ресурс в системе описан неправильно. Как это исправить?
Мы часто получаем письма вроде "Я не заносил в Вашу систему мой ресурс,
и он описан неправильно. Как мне исправить положение?"Вообще говоря,
ресурс, если он существует, не может быть занесен неправильно. Если он
секретный, запретите доступ к нему в robots.txt. Если он не ищется по
тем словам, по которым Вам бы хотелось, или находится не в первых
рядах, обратите внимание на то, что, собственно, написано на страницах
Вашего ресурса.
Yandex.Ru - полнотекстовая поисковая машина, поэтому страницы
будут находиться по словам, написанных на них, а не по тем ключевым
словам, которыми Вы этот ресурс описали. Учтите также, что Yandex
работает только с текстами и не умеет распознавать графические
изображения. Поэтому, если название нарисовано, то стоит его повторить
где-нибудь просто текстом. Предложения Yandex на тему "как сделать,
чтобы Вашу страницу нашли те, кому она нужна" описаны в "Советах
Web-мастеру"
|