Что такое robots.txt и для чего он нужен

Файл robots.txt размещается в корневой директории сайта и описывает исключениядля поисковых ботов. Придерживающийся стандартов бот проверяет сначала url»/robots.txt», если файл существует, то бот анализирует его содержимое напредмет наличия запретов к посещению определённых частей сайта. Имя файла недолжно содержать заглавных букв. Записи в файле разделяются одной илинесколькими пустыми строками. Комментарии в файле robots.txt начинаются знаком”#” и заканчиваются окончанием строки (строки, содержащие только комментарииигнорируются ботами и не являются разделителями записей).



Узнайте, Как Поднять Общую Воспринимаемую Ценность,Профессионализм и Престиж Вашей Обучающей Информации в Глазах ВашихПотенциальных Клиентов За ОднуНеделю!



User-agent

Имя бота, к которому применяются правила исключений насайте. Можно прописать несколько строк с User-agent, в этом случае правила,описанные в данной записи будут применяться указанными ботами. Для описыванияправил ботам, для которых отдельная запись не составлена применяют следующийпараметр: «*» (в файле robots.txt может быть только одна запись User-agent:*).

Disallow

В данном поле прописывается полный или частичный путьк месту на сайте, посещение которого запрещено для бота. В каждой записи должноприсутствовать как минимум одно поле Disallow. Пустое поле Disallowподразумевает разрешение боту посещать все директории и файлы сайта. Недопускается использование в данном поле регулярных выражений и символовподстановки.
Примеры для http://site.ru/
(Показывает как можно сочетатьдирективы в файле robots.txt но не несущий смысловой нагрузки)


User-agent: Yandex
Disallow:/test/
Disallow: /print.html
# Запрещает ботам Яндекса посещать папкуhttp://site.ru/test/
# и файл http://site.ru/print.html

User-agent:Aport
User-agent: Googlebot
Disallow: /temp/img/
# Запрещает посещениеботами Google и Апорт http://site.ru/temp/img/

User-agent:StackRambler
Disallow:
# Для бота поисковой системы Рамблер разрешенопосещение всех
# страниц и папок сайта

User-Agent: *
Disallow:/lesson.php?action=test
# Запрещает посещение всеми ботами, для которых несделана
#отдельная запись,
# динамических страниц, начинающихся сhttp://site.ru/lesson.php?action=test
# например:http://site.ru/lesson.php?action=test&id=13
# чувствительно к порядкупеременных в ссылке


Некоторыепоисковые системы поддерживают дополнительные поля в файле robots.txt. Яндексомподдерживается директива Host, служащая для назначения основногозеркала:


User-agent: Yandex
Disallow:/test/
Host: site.ru
# разрешено посещение всех страниц и папок на сайте,кроме http://site.ru/test/
# основным зеркалом назначеноhttp://site.ru/

User-agent: *
Disallow:
# всем ботам, кроме ботаЯндекса, разрешено посещение всех страниц и
# папок насайте


Запретить сайт к индексацииполностью можно с помощью такого файла robots.txt


User-agent: *
Disallow: /



Наиболее актуальные для Рунета, на мой взгляд,боты:

(думаю, даже расшифровывать нетребуется)
Yandex
Googlebot
StackRambler
Aport


Рекомендации по запрету к индексации

Что не следуетуказывать в файле robots.txt:

— папки с административными файлами
-файлы, о которых посторонним вообще знать не стоит
Прописывание путей кданным частям сайта может породить нездоровый интерес и попытки совершениязловредных действий, рады которым Вы уж точно не будете. К тому же есть иальтернативные способы запрета посещения и индексации ботамистраниц.

Стоит запретить к индексации:

— документы «дляпечати»
— папки со скриптами
— папки с картинками (если у Вас непредвидится целевой аудитории с поиска по картинкам)
— сервисные страницы,такие как, например, страница с формой отправки письма администрации, схемапроезда

Ошибки, допускаемые при составлении robots.txt

Как не надоделать:
Имя файла содержит заглавные буквы – Robots.txt илиROBOTS.TXT
Файл robots.txt размещается не в корневой директории
Пустаястрока после поля User-agent
Отсутствие директивы Disallow
Использованиев поле Disallow символов подстановки или регулярных выражений, например: «?»,»*»
Больше одной строки «Disallow: *»

 mastertalk.ru

<=предыдующая статья  

следующая статья =>

Вернуться к списку "Полезные статьи для начинающих бизнесменов"


Поделиться с друзьями >>>
Информационный строительный портал
Adblock detector