Studia R

разработка сайтов

100 60

robots.txt – это текстовый файл, который располагается на сайте.

Этот файл совсем не обязателен, сайт может работать без него и будет делать это отлично, будет индексироваться и никаких проблем не возникнет, но… с файлом robots.txt роботам поисковых систем будет удобнее работать с сайтом.
Что ж… попробуем им помочь, ведь в этом и заключается смысл seo.

Всегда ли работает robots.txt?

Сложно ответить на вопрос, всегда ли срабатывает robots.txt. Это скорее вопрос к конкретным поисковым системам. Можно заметить лишь одно, лишним его заполнение не будет.

Как создать сам файл robots.txt?

Отличная инструкция есть на сайте Яндекса. https://yandex.ru/support/webmaster/controlling-robot/robots-txt.html#how-to-create

Что нужно сделать, чтобы robots.txt не сработал?

1. Сделать robots.txt не текстовым файлом

2. Сделать размер файла robots.txt больше 32кб

3. Сделать так, чтобы robots.txt отвечал любым кодом ответа сервера, который не равен 200

Как составить robots.txt?

Для составления файла robots.txt используются директивы. Директивы – это правила для роботов.
Их существует не так много и все они предельно простые для понимания. Разберемся в них:

User-agent

Указывает на робота, для которого действуют перечисленные в robots.txt правила.
На сегодняшний день мы имеем следующих роботов:

Робот Функция
Googlebot основной индексирующий робот Google
Googlebot-News Google Новости
Googlebot-Image Google Картинки
Googlebot-Video видео
Mediapartners-Google Google AdSense, Google Mobile AdSense
Mediapartners Google AdSense, Google Mobile AdSense
AdsBot-Google проверка качества целевой страницы
AdsBot-Google-Mobile-Apps Робот Google для приложений
YandexBot основной индексирующий робот Яндекса
YandexImages Яндекс.Картинки
YandexVideo Яндекс.Видео
YandexMedia мультимедийные данные
YandexBlogs робот поиска по блогам
YandexAddurl робот, обращающийся к странице при добавлении ее через форму «Добавить URL»
YandexFavicons робот, индексирующий пиктограммы сайтов (favicons)
YandexDirect Яндекс.Директ
YandexMetrika Яндекс.Метрика
YandexCatalog Яндекс.Каталог
YandexNews Яндекс.Новости
YandexImageResizer робот мобильных сервисов
YaDirectFetcher робот Яндекс.Директа
YandexDirectDyn робот генерации динамических баннеров
YandexMarket робот Яндекс.Маркета
YandexPagechecker валидатор микроразметки
Bingbot основной индексирующий робот Bing
Slurp основной индексирующий робот Yahoo!
Mail.Ru основной индексирующий робот Mail.Ru

Если хотим указать всех роботов, мы используем:

User-agent: *

Если для какого-то конкретного робота, прописываем его название:

User-agent: YandexBot

Disallow и Allow

Disallow — закрывает от индексирования страницы и разделы сайта.

Allow — принудительно открывает для индексирования страницы и разделы сайта. Стоит заметить, что если вы откроете директивы, это совсем не будет значить, что они будут проиндексированы, просто робот их сможет посетить.

Для работы с директивами существуют также операторы: *, $ и #.

* — это любое количество символов, в том числе и их отсутствие. При этом в конце строки звездочку можно не ставить, подразумевается, что она там находится по умолчанию.
$ — показывает, что символ перед ним должен быть последним.
# — комментарий, все что после этого символа в строке роботом не учитывается.

Разберем на примерах:

Закрываем папку /theme/

Disallow: /theme/

Закрываем все файлы css

Disallow: /*.css$

Закрываем весь сайт от индексирования

Disallow: /

Разрешаем для индексирования папку /theme/

Allow: /theme/

Разрешаем для индексирования все css файлы

Allow: /*.css$

Закрываем всю директорию, но разрешаем файлы .css

Disallow: /
Allow: /*.css$

Подобными директивами, можно указать любое правило, которое посчитаете нужным.

Sitemap

Указывает путь к файлу Sitemap.xml, который размещен на сайте.
Пусть должен быть полным.

Пример:

Sitemap: http://rstudia.ru/sitemap.xml

Clean-param

Указание запрещенных get-параметров, для индексирования. С помощью, этой директивы, можно и нужно скрывать данные, которые никак не изменяют контент.
Подобный пример будет игнорировать страницы с параметром author_id:

Clean-param: author_id http://site.ru/articles/

Если параметров много, нужно использовать знак амперсанда в качестве разделителя:

Clean-Param: utm_source&utm_medium&utm_campaign

Host

Эта директива использовалась только Яндексом, для указания основного зеркала сайта. Положено было указывать в ней имя домена без http:// и https://

Пример:

Host: rstudia.ru

Но в последнее время, об этой директиве все умалчивают. В официальной документации Яндекса о ней не слова. Но в любом случае, она не помешает вашему файлу.

Как и где проверить robots.txt?

В Yandex: https://webmaster.yandex.ru/tools/robotstxt/
В Google: https://www.google.com/webmasters/tools/robots-testing-tool