• Что такое файл robots.txt и для чего он нужен?
• Как создать файл robots.txt?
• Можно ли редактировать файл robots?
• Настройка файла robots.txt
• Директива User-agent: приветствие для роботов
• Директивы Allow и Disallow: разрешение и запрет на индексацию
• Директива Sitemap: указание карты сайта
• Директива Host: указание главного зеркала
• Можно ли использовать кириллицу?
• Основные правила составления файла robots.txt
• Как правильно обращаться к поисковым роботам?
• Проверка файла robots.txt на правильность написания
• Заключение

Когда веб-ресурс уже запущен – первым делом нужно сообщить о нем поисковым системам, проиндексировать его. Зачем? Чтобы они узнали, что в сети появился новый сайт. Чтобы они понимали, что разрешено для индексации, а что запрещено. И реализуется все это предельно просто – с помощью текстового файла robots.txt.

Что он собой представляет? Зачем он нужен? Как создается? Эти и другие вопросы мы и рассмотрим в данной статье.

Что такое файл robots.txt и для чего он нужен?

Представьте, что у вас есть небольшая коробка. И в ней лежат всякие вещи. Например:

важные документы (паспорт, карта соцстрахования);
личный дневник;
письма от друзей, знакомых, родственников;
подарки прошлых лет;
фотоальбомы и пр.

Часть вещей не хочется показывать никому. Часть – только по секрету самым близким людям. Для остальных же на коробке имеется наклейка «Не смотреть». И воспитанные люди так и сделают.

Если перевести все это на сайты, то получится так: наклейка «Не смотреть» – это файл robots.txt, а «воспитанные люди» – это роботы Google и Яндекс, которые индексируют веб-ресурсы (т.е. роются в них).

Здесь самое главное – чтобы файл был. Ведь его отсутствие говорит поисковому роботу о вседозволенности. Он начнет индексировать все подряд, посмотрит все страницы, а затем сделает их доступными для миллионов интернет-пользователей. А этого допускать нельзя..

Таким образом, файл robots.txt – это преграда для поисковых роботов, наклейка, которая сообщает, куда лезть не следует. Все правила и запреты прописываются именно в нем. Например, с помощью данного файла вы можете:

разрешить полную индексацию сайта за исключением трех-четырех подразделов;
разрешить индексацию только 10 страниц, а всех остальных – запретить;
полностью запретить индексацию сайта (допустим, если он еще дорабатывается и не готов приветствовать новых пользователей).

Правила и запреты можно прописывать как для каждого поискового робота отдельно (от Яндекса и Гугла), так и для обоих сразу.

Что чаще всего запрещают индексировать? Служебные файлы. Например, файлы плагинов, установленного шаблона и пр. Простым пользователям все это видеть не нужно. А конкурентам – тем более.

Иными словами, файл robots.txt информирует поисковые роботы, что можно индексировать, а что нет. Так вы ловите сразу двух зайцев. Во-первых, в выдаче будут отображаться только основные категории с полезным для пользователей контентом. Во-вторых, вы скроете служебные разделы и защитите файлы с важными данными.

Как создать файл robots.txt?

Данный файл обычно создается в Блокноте. Или в любом другом текстовом редакторе. Алгоритм действий элементарный:

создайте текстовый файл в удобном месте;
пропишите требуемые команды;
сохраните файл, указав имя robots (расширение проставится автоматически).

Останется только залить его в корневой каталог сайта (например, с помощью FileZilla или другого софта) – и готово.

Для ленивых есть альтернативные варианты. Первый – скачать готовый файл. Второй – создать его в онлайн-режиме. Правда, в обоих случаях придется внимательно изучать файл и смотреть, что там написано. Иначе можно закрыть от индексации важные страницы и разрешить сканировать ненужные страницы. Но в этом нужно разбираться, поэтому лучше все же прописывать команды самому.

Можно ли редактировать файл robots?

Редактирование файла robots.txt разрешено в любой момент. Поэтому не переживайте, если забудете что-то написать или наоборот – укажете лишнее. Все, что нужно – отредактировать файл, а затем залить обновленную версию в корневой каталог сайта и сообщить о ней поисковикам (чтобы они ее просканировали повторно и запомнили новые правила).

Настройка файла robots.txt

Теперь, когда разобрались, что такое файл robots.txt и зачем он нужен, пора приступать к главному – к его написанию.

Все команды, которые в нем прописываются, называются директивами. Каждая директива являет собой одно конкретное правило. Например, приветствие, запрет или разрешение на индексацию.

Для поисковых систем директивы – это просто рекомендации. Яндекс выполняет их беспрекословно, а вот Гугл – делает на свое усмотрение. Но все равно они нужны, поскольку в случае отсутствия поисковые роботы почувствуют полную вседозволенность.

Итак, рассмотрим основные директивы, которые могут прописываться в данном файле.

Директива User-agent: приветствие для роботов

Первое, что указывается в robots.txt – это директива User-agent. С нее все начинается, поскольку это своеобразное приветствие. Причем вы можете указать, с кем именно вы здороваетесь.

Например, можно прописать так:

User-agent: *

Это будет универсальное приветствие «Привет всем!», отображаемое для всех роботов.

А можно написать так:

User-agent: Yandex

Тогда вы поздороваетесь только со всеми роботами Яндекса, которые индексируют изображения, посты и пр. А они поймут, что все директивы, которые идут ниже, касаются только их. То же поймет и Гугл, который пропустит эти строчки, пока не найдет общее или личное приветствие для себя.

Если же хотите поздороваться с основным роботом Яндекса, который индексирует сайт, то надо прописать так:

User-agent: YandexBot

А приветствие для Google будет выглядеть так:

User-agent: GoogleBot

Правда, это уже вы поздороваетесь со всеми роботами Гугла, а не только с основным, поскольку они понимают данную команду немного иначе.

Запомните: если приветствуете только конкретного робота, то все, что написано ниже, будет доступно лишь ему. Например, Google. А Яндекс будет искать то, что касается только его. За счет этого в одном файле можно прописывать две отдельные инструкции для каждого поисковика. Или даже больше – если хотите обратиться к дополнительным роботам, отвечающим за индексацию картинок и пр.

Если же после команды User-agent пишется звездочка – значит, директива доступна обоим поисковикам.

Директивы Allow и Disallow: разрешение и запрет на индексацию

Команда Disallow запрещает роботам индексировать сайт. Если хотите так сделать, следует прописать:

User-agent: *

Disallow: /

Это закроет от индексации весь сайт.

Если хотите запретить сканировать только одну папку, тогда следует прописать так:

User-agent: *

Disallow: /surprise

А команда Allow наоборот – разрешает роботам индексировать весь сайт. Чтобы сообщить им об этом, следует прописать так:

User-agent: *

Allow: /

Если же нужно, чтобы они просканировали одну папку, а остальные – не трогали, тогда, немного поразмыслив, можно прописать так:

User-agent: *

Allow: /my_files/

Disallow: /

С помощью этих двух директив можно разрешать и запрещать индексировать любые папки в любой комбинации. Например, часть – запретить, а все остальное – разрешить. Именно такой вариант чаще всего и применяется на практике.

При использовании этих директив разрешается использовать спецсимволы. В частности, звездочку (*) и знак доллара ($). Зачем?

Звездочка подразумевает под собой любую последовательность символов (и даже пустую). Например:

Disallow: /surprise/*.aspx

В данном случае роботам запрещено индексировать все файлы с расширением .aspx, которые лежат в папке «Surprise». Это удобно, когда файлов много, или когда вы не помните их названия.

А символ $ работает немного иначе. Например, можно прописать так:

Disallow: /surprise$

Такая команда означает, что папку «Surprise» нельзя индексировать, зато все файлы, которые в ней лежат – можно.

Для лучшего понимания возьмем стандартное правило:

Disallow: /surprise

В данном случае поисковые роботы не могут индексировать ни папку «Surprise», ни все вложенные в ней файлы. А с помощью спецсимволов можно дать им доступ к тому, что вы хотите проиндексировать.

Директива Sitemap: указание карты сайта

В файле robots.txt также обязательно указывается путь к карте сайта. Она должна быть обязательно (если нет – создавайте).

Для реализации этой задачи применяется директива sitemap. Обычно ее прописывают в конце, но это не столь важно. Директива межсекционная, поэтому можно указать ее в начале или где-то посредине.

Выглядит она так:

Sitemap: https://blog.ua/sitemap.xlm.gz

Sitemap: https://blog.ua/sitemap.xlm

То есть, в данном случае надо указать гиперссылку, по которой доступна карта сайта. Или две – если их несколько.

Зачем это нужно? Чтобы поисковые роботы запомнили путь к карте сайта и время от времени сканировали ее (ведь обновляется она регулярно).

Директива Host: указание главного зеркала

Обычно любой сайт можно открыть по двум URL-адресам. Первый – blog.ua. Второй – www.blog.ua. В таких случаях надо определить главное зеркало и сообщить о нем поисковым роботам.

Для этого служит директива Host. Указывается она тоже в конце списке (перед директивой sitemap):

Host: blog.ua

В данном случае роботы видят, что главное зеркало – это URL-адрес без приставки www. И даже когда посетители будут вводить адрес с этой приставкой, то их автоматически перекинет на главное зеркало.

Но тут надо учитывать два момента. Во-первых, данная директива должна указываться один раз. Если написать несколько раз – роботы «увидят» только первый вариант, а все последующие проигнорируют.

Во-вторых, эту директиву видит только Яндекс. Поэтому и прописывать ее надо в блоке, который начинается с приветствия к нему.

Для Google директива не прописывается – ему сообщать о главном зеркале надо в личном кабинете Google Search Console.

Можно ли использовать кириллицу?

Кириллица в файле robots.txt запрещена. Но как быть, если домен сайта или название папок написано на русском? Можно выкрутиться за счет использования Punycode. В итоге любая гиперссылка на русском превратится в длинный набор символов: %A1%AC%A1%AD%. Его-то и надо указывать в файле robots.

Два простых примера:

Disallow: /документы

Disallow: /%A1%AC%A1%AD%

Правильным является второй вариант. А первый (с русскоязычным написанием папки) – неправильный.

Основные правила составления файла robots.txt

Также при составлении файла robots.txt надо придерживаться основных правил написания. Их много, но они предельно простые, так что запомнить будет несложно:

команда для поисковиков пишется по следующей формуле – Директива: пробел, нужное значение (например, Disallow: /documents);
начинайте каждую команду с новой строчки;
в каждой строке прописывается лишь одна директива;
не нужно ставить пробел вначале строчки;
забудьте о кавычках и точке с запятой – они здесь не используются;
для написания комментария начинайте строку с символа # (все, что идет после него роботы не читают – это личные заметки для вас или других людей, чтобы они понимали, что прописано в данной строке);
в директивах Disallow, Allow указывается лишь одно значение;
названия файлов и папок пишутся маленькими буквами (заглавные запрещены);
нельзя использовать буквы национального алфавита.

Само название файла robots.txt должно тоже прописываться маленькими буквами. И его размер не должен превышать 32 Кб. В противном случае роботы будут индексировать весь сайт. Если файла нет или он не доступен – они опять же будут индексировать весь сайт.

И главное – указывайте в robots.txt только то, что нужно. Не лейте воду. В идеале в файле должно быть минимальное количество строк, причем каждая – со смыслом.

Как правильно обращаться к поисковым роботам?

Считается, что поисковые роботы не любят универсальное приветствие. Яндексу и Гуглу нравится, когда вы обращаетесь к ним персонально. Поэтому рекомендуется прописывать в файле два блока: один – посвященный Яндексу, а второй – Google. Директивы будут немного отличаться (например, Гуглу не нужна команда Host), но в целом они получатся примерно одинаковыми.

Проверка файла robots.txt на правильность написания

Итак, вы написали данный файл и залили его в корневой каталог. Это хорошо, но дело еще не окончено. Далее нужно сообщить о файле поисковикам, предварительно проверив его на правильность написания. Инструкция для каждого поисковика будет разной.

В случае с Гуглом нужно выполнить следующее:

Войти в личный кабинет Google Search Console (заранее добавив туда сайт).
Перейти в раздел «Сканирование».
Выбрать пункт «Инструмент проверки файла».
Указать путь к файлу (просто дописать «robots.txt», поскольку URL-адрес веб-ресурса там уже прописан по умолчанию).

Гугл проверит его и сообщит, есть ли ошибки. Если есть – исправляете, если нет – нажимаете кнопку «Отправить». Все, Google проинформирован о том, что у вас появился (или обновился) файл и в скором времени его просканирует.

Для Яндекса инструкция такова:

Зайдите в Яндекс.Вебмастер.
Откройте инструмент «Анализ robots.txt».
Укажите адрес сайта.
Нажмите кнопку «Проверить».

Система проверит файл и отобразит количество ошибок. Если их нет – значит, вы все написали правильно.

Заключение

Итак, файл robots.txt должен быть у вашего сайта обязательно. Это даже нет смысла обсуждать. Если он отсутствует – бегом руки в ноги и добавляйте его. Ведь в противном случае поисковые роботы просканируют все страницы, и они появятся в выдаче. А это никому не нужно – ни вам, ни пользователям.

Поэтому выделите время и сделайте все на совесть. Никаких трудностей тут нет, так что вы легко справитесь. В крайнем случае можно поискать в сети примеры написания файла robots.txt для WordPress или других платформ. Либо же полистать форумы и отобрать для себя нужные команды. А еще можно подсмотреть пример составления файла robots.txt у конкурентов (только т-с-с-с).