Что такое Robots.txt?

23 марта 2013 года, Размещено в категории: Интересное

Он представляет собой текстовый файл, который располагается в корневом каталоге Вашего ресурса и содержит в себе различные инструкции для поисковых машин. С его помощью можно производить следующие действия: запрещать или разрешать индексацию конкретных разделов или страниц сайта, указывать основное зеркало ресурса и отображать путь к такому файлу как sitemap.

 

Пример с закрытием от индексации технических разделов Вашего ресурса ярко демонстрирует полезность файла Robots.txt. Так, например, если технические страницы на Вашем сайте открыты для индексации, то поисковик всеми силами попытается выбросить их из индекса и в процессе этого действия он случайно может закрыть нужные для сайта страницы. Далее рассмотрим, каким же образом создается Robots.txt.

Создание файла с инструкциями

Создается он при помощи обыкновенного блокнота. После создания его необходимо поместить в корневой каталог Вашего ресурса. Когда поисковый робот зайдет на ваш сайт, то он первым делом прочтет этот файл, содержащий инструкции для него.

Настройка файла

В процессе настройки Robots.txt используются две основные директивы: Disallow и User-agent. В последней директиве содержаться указания о том, какой конкретно робот будет выполнять запрет на индексацию, который прописан в первой директиве. Если после первой директивы указать путь к файлу или каталогу, то поисковые машины перестанут их индексировать. Не стоит прописывать в одной строке несколько путей, так как оформленная таким образом строка не будет работать. Если же Вы руководствуетесь совсем противоположной целью, то есть хотите открыть директорию или файл к индексации, то следует воспользоваться командой Allow.

Robots.txt использует также и дополнительные директивы, среди которых очень много интересных и полезных. Так, например, host применяется для отображения основного зеркала Вашего ресурса в том случае, если у Вас имеется несколько зеркал. Такая директива как Sitemap предназначена для помощи роботам поисковых систем в определении местонахождения файла с картой Вашего ресурса. Crawl-delay используется для того чтобы установить задержку между загрузками страниц ресурса поисковыми машинами. Очень полезно для тех ресурсов, которые содержат очень большое число страниц. Следующая директива, Request-rate, отвечает за периодичность загрузки страниц роботами поисковых систем, то есть одна страница будет загружаться за определенный промежуток времени. Visit-time̶ это директива определяющая интервалы времени, когда роботам разрешается загружать страницы сайта. Время рекомендуется выставлять по Гринвичу.

Вред от неправильных настроек

Если Robots.txt будет настроен некорректно, то к поиску могут открыться те страницы, которые содержат в себе конфиденциальную информацию, например, о Ваших пользователях или клиентах. Неправильные настройки могут также привести к тому, что поисковые роботы запретят к индексации нужные и полезные страницы Вашего ресурса.

Как проверяется правильность настроек?

Для проверки имеющихся настроек можно использовать такой сервис Яндекс.Вебмастера как Анализ. Стоит только вписать в нужное поле имя проверяемого домена и все ошибки будут отображены.






Добавить комментарий

Ваш e-mail не будет опубликован. Обязательные поля помечены *

Перед отправкой формы: