Robots.txt - Хостинг - Каталог статей

	Все о хостинге	Пятница, 04.07.2025, 09:42
		Главная

| RSS

Реклама

Google search

Меню сайта

Категории раздела

Хостинг [38]

Сетевые сервисы [1]

Раскрутка сайта [49]

Заработки в Интернете [5]

Статьи иностранных специалистов. [36]

Статистика

Главная » Статьи » Хостинг

Robots.txt

Поисковые сервера всегда перед индексацией вашего ресурса ищут в корневом каталоге вашего домена файл с именем "robots.txt" (http://www.mydomain.com/robots.txt). Этот файл сообщает роботам, какие файлы они могут индексировать, а какие нет.

Формат файла robots.txt - особый. Он состоит из записей. Каждая запись состоит из двух полей: строки с названием клиентского приложения (user-agent), и одной или нескольких строк, начинающихся с директивы disallow:

":"robots.txt должен создаваться в текстовом формате unix. Большинство хороших текстовых редакторов уже умеют превращать символы перевода строки windows в unix. Либо ваш ftp-клиент должен уметь это делать. Для редактирования не пытайтесь пользоваться html-редактором, особенно таким, который не имеет текстового режима отображения кода.

Поле user-agent
Строка user-agent содержит название робота. Например:

user-agent: googlebot Если вы обращаетесь ко всем роботам, вы можете использовать символ подстановки "*":

user-agent: *Названия роботов вы можете найти в логах вашего веб-сервера. Для этого выберите только запросы к файлу robots.txt. большинство поисковых серверов присваивают короткие имена своим паукам-индексаторам.

Поле disallow:
Вторая часть записи состоит из строк disallow. Эти строки - директивы для данного робота. Они сообщают роботу какие файлы и/или каталоги роботу неразрешено индексировать. Например следующая директива запрещает паукам индексировать файл email.htm:

disallow: email.htm Директива может содержать и название каталога:

disallow: /cgi-bin/ Эта директива запрещает паукам-индексаторам лезть в каталог "cgi-bin".

В директивах disallow могут также использоваться и символы подстановки. Стандарт диктует, что директива /bob запретит паукам индексировать и /bob.html и /bob/index.html.

Если директива disallow будет пустой, это значит, что робот может индексировать ВСЕ файлы. Как минимум одна директива disallow должна присутствовать для каждого поля user-agent, чтобы robots.txt считался верным. Полностью пустой robots.txt означает то же самое, как если бы его не было вообще.

Любая строка в robots.txt, начинающаяся с #, считается комментарием. Стандарт разрешает использовать комментарии в конце строк с директивами, но это считается плохим стилем:

disallow: bob #commentНекоторые пауки не смогут правильно разобрать данную строку и вместо этого поймут ее как запрет на индексацию ресурсов bob#comment. Мораль такова, что комментарии должны быть на отдельной строке.

Пробел в начале строки разрешается, но не рекомендуется.

Примеры Следующая директива разрешает всем роботам индексировать все ресурсы сайта, так как используется символ подстановки "*".

user-agent: *
disallow:

Эта директива запрещает всем роботам это делать:

user-agent: *
disallow: /

Данная директива запрещает всем роботам заходить в каталоги "cgi-bin" и "images":

user-agent: *
disallow: /cgi-bin/
disallow: /images/

Данная директива запрещает роботу roverdog индексировать все файлы сервера:

user-agent: roverdog
disallow: /

Данная директива запрещает роботу googlebot индексировать файл cheese.htm:

user-agent: googlebot
disallow: cheese.htm

Конфликты директив: Чтобы вы сделали на месте робота slurp, увидев данные директивы?

user-agent: *
disallow: /
#
user-agent: slurp
disallow:

Первая директива запрещает всем роботам индексировать сайт, но вторая директива разрешает роботу slurp это делать. Так что же все-таки должен делать slurp? Мы не можем гарантировать, что все роботы поймут эти директивы правильно. В данном примере slurp должен проиндексировать весь сайт, а все остальные не должны уйти прямо с порога.

Верхний регистр всех букв - плохой стиль:

user-agent: excite
disallow:

Несмотря на то, что стандарт безразлично относится к регистру букв в robots.txt, в именах каталогов и файлов регистр все-таки важен. Лучше всего следовать примерам и в верхнем регистре писать первые буквы только в словах user и disallow.

Еще одна ошибка - перечисление всех файлов в каталоге:

disallow: /al/alabama.html
disallow: /al/ar.html
disallow: /az/az.html
disallow: /az/bali.html
disallow: /az/bed-breakfast.html

Вышеприведенный пример можно заменить на:

disallow: /al
disallow: /az

Помните, что начальная наклонная черта обозначает, что речь идет о каталоге. Конечно, ничто не запрещает вам перечислить парочку файлов, но мы речь ведем о стиле. Данный пример взят из файла robots.txt, размер которого превышал 400 килобайт, в нем было упомянуто 4000 файлов! Интересно, сколько роботов-пауков, посмотрев на этот файл, решили больше не приходить на этот сайт.

Почему вдруг на запрос robots.txt веб-сервер выдает бинарный файл? Это происходит в том случае, если ваш веб-сервер настроен неправильно, либо вы неправильно закачали на сервер сам файл.

Всегда после того, как вы закачали файл robots.txt на сервер, проверяйте его. Достаточно в броузере набрать простой запрос:

http://www.mydomain.com/robots.txt

robots.txt и поисковикиGoogle - первый поисковый сервер, который поддерживает в директивах регулярные выражения. Что позволяет запрещать индексацию файлов по их расширениям.

user-agent: googlebot
disallow: *.cgi

В поле user-agent вам следует использовать имя "googlebot". Не рискуйте давать подобную директиву другим роботам-паукам.

МЕТА-тег robotsМЕТА тег robots служит для того, чтобы разрешать или запрещать роботам, приходящим на сайт, индексировать данную страницу. Кроме того, этот тег предназначен для того, чтобы предлагать роботам пройтись по всем страницам сайта и проиндексировать их. Сейчас этот тег приобретает все большее значение.

Кроме того, этим тегом могут воспользоваться те, кто не может доступиться к корневому каталогу сервера и изменить файл robots.txt.

Некоторые поисковые сервера, такие как inktomi например, полностью понимают мета-тег robots. inktomi пройдет по всем страницам сайта если значение данного тега будет "index,follow".

Данному мета-тегу можно присвоить варианта четыре значений. Атрибут content может содержать следующие значения: index, noindex, follow, nofollow

Директива index говорит роботу, что данную страницу можно индексировать.

Директива follow сообщает роботу, что ему разрешается пройтись по ссылкам, присутствующим на данной странице. Некоторые авторы утверждают, что при отсутствии данных значений, поисковые сервера по умолчанию действуют так, как если бы им даны были директивы index и follow. К сожалению это не так по отношению к поисковому серверу inktomi. Для inktomi значения по умолчанию равны "index, nofollow".

Категория: Хостинг | Добавил: autor (27.08.2009)

Просмотров: 801 | Рейтинг: 0.0/0

Всего комментариев: 0