СТАНЬ ЛИДЕРОМ
В ЭПОХУ DIGITAL
Когда веб-ресурс уже запущен – первым делом нужно сообщить о нем поисковым системам, проиндексировать его. Зачем? Чтобы они узнали, что в сети появился новый сайт. Чтобы они понимали, что разрешено для индексации, а что запрещено. И реализуется все это предельно просто – с помощью текстового файла robots.txt.
Что он собой представляет? Зачем он нужен? Как создается? Эти и другие вопросы мы и рассмотрим в данной статье.
Представьте, что у вас есть небольшая коробка. И в ней лежат всякие вещи. Например:
Часть вещей не хочется показывать никому. Часть – только по секрету самым близким людям. Для остальных же на коробке имеется наклейка «Не смотреть». И воспитанные люди так и сделают.
Если перевести все это на сайты, то получится так: наклейка «Не смотреть» – это файл robots.txt, а «воспитанные люди» – это роботы Google и Яндекс, которые индексируют веб-ресурсы (т.е. роются в них).
Здесь самое главное – чтобы файл был. Ведь его отсутствие говорит поисковому роботу о вседозволенности. Он начнет индексировать все подряд, посмотрит все страницы, а затем сделает их доступными для миллионов интернет-пользователей. А этого допускать нельзя..
Таким образом, файл robots.txt – это преграда для поисковых роботов, наклейка, которая сообщает, куда лезть не следует. Все правила и запреты прописываются именно в нем. Например, с помощью данного файла вы можете:
Правила и запреты можно прописывать как для каждого поискового робота отдельно (от Яндекса и Гугла), так и для обоих сразу.
Что чаще всего запрещают индексировать? Служебные файлы. Например, файлы плагинов, установленного шаблона и пр. Простым пользователям все это видеть не нужно. А конкурентам – тем более.
Иными словами, файл robots.txt информирует поисковые роботы, что можно индексировать, а что нет. Так вы ловите сразу двух зайцев. Во-первых, в выдаче будут отображаться только основные категории с полезным для пользователей контентом. Во-вторых, вы скроете служебные разделы и защитите файлы с важными данными.
Данный файл обычно создается в Блокноте. Или в любом другом текстовом редакторе. Алгоритм действий элементарный:
Останется только залить его в корневой каталог сайта (например, с помощью FileZilla или другого софта) – и готово.
Для ленивых есть альтернативные варианты. Первый – скачать готовый файл. Второй – создать его в онлайн-режиме. Правда, в обоих случаях придется внимательно изучать файл и смотреть, что там написано. Иначе можно закрыть от индексации важные страницы и разрешить сканировать ненужные страницы. Но в этом нужно разбираться, поэтому лучше все же прописывать команды самому.
Редактирование файла robots.txt разрешено в любой момент. Поэтому не переживайте, если забудете что-то написать или наоборот – укажете лишнее. Все, что нужно – отредактировать файл, а затем залить обновленную версию в корневой каталог сайта и сообщить о ней поисковикам (чтобы они ее просканировали повторно и запомнили новые правила).
Теперь, когда разобрались, что такое файл robots.txt и зачем он нужен, пора приступать к главному – к его написанию.
Все команды, которые в нем прописываются, называются директивами. Каждая директива являет собой одно конкретное правило. Например, приветствие, запрет или разрешение на индексацию.
Для поисковых систем директивы – это просто рекомендации. Яндекс выполняет их беспрекословно, а вот Гугл – делает на свое усмотрение. Но все равно они нужны, поскольку в случае отсутствия поисковые роботы почувствуют полную вседозволенность.
Итак, рассмотрим основные директивы, которые могут прописываться в данном файле.
Первое, что указывается в robots.txt – это директива User-agent. С нее все начинается, поскольку это своеобразное приветствие. Причем вы можете указать, с кем именно вы здороваетесь.
Например, можно прописать так:
User-agent: *
Это будет универсальное приветствие «Привет всем!», отображаемое для всех роботов.
А можно написать так:
User-agent: Yandex
Тогда вы поздороваетесь только со всеми роботами Яндекса, которые индексируют изображения, посты и пр. А они поймут, что все директивы, которые идут ниже, касаются только их. То же поймет и Гугл, который пропустит эти строчки, пока не найдет общее или личное приветствие для себя.
Если же хотите поздороваться с основным роботом Яндекса, который индексирует сайт, то надо прописать так:
User-agent: YandexBot
А приветствие для Google будет выглядеть так:
User-agent: GoogleBot
Правда, это уже вы поздороваетесь со всеми роботами Гугла, а не только с основным, поскольку они понимают данную команду немного иначе.
Запомните: если приветствуете только конкретного робота, то все, что написано ниже, будет доступно лишь ему. Например, Google. А Яндекс будет искать то, что касается только его. За счет этого в одном файле можно прописывать две отдельные инструкции для каждого поисковика. Или даже больше – если хотите обратиться к дополнительным роботам, отвечающим за индексацию картинок и пр.
Если же после команды User-agent пишется звездочка – значит, директива доступна обоим поисковикам.
Команда Disallow запрещает роботам индексировать сайт. Если хотите так сделать, следует прописать:
User-agent: *
Disallow: /
Это закроет от индексации весь сайт.
Если хотите запретить сканировать только одну папку, тогда следует прописать так:
User-agent: *
Disallow: /surprise
А команда Allow наоборот – разрешает роботам индексировать весь сайт. Чтобы сообщить им об этом, следует прописать так:
User-agent: *
Allow: /
Если же нужно, чтобы они просканировали одну папку, а остальные – не трогали, тогда, немного поразмыслив, можно прописать так:
User-agent: *
Allow: /my_files/
Disallow: /
С помощью этих двух директив можно разрешать и запрещать индексировать любые папки в любой комбинации. Например, часть – запретить, а все остальное – разрешить. Именно такой вариант чаще всего и применяется на практике.
При использовании этих директив разрешается использовать спецсимволы. В частности, звездочку (*) и знак доллара ($). Зачем?
Звездочка подразумевает под собой любую последовательность символов (и даже пустую). Например:
Disallow: /surprise/*.aspx
В данном случае роботам запрещено индексировать все файлы с расширением .aspx, которые лежат в папке «Surprise». Это удобно, когда файлов много, или когда вы не помните их названия.
А символ $ работает немного иначе. Например, можно прописать так:
Disallow: /surprise$
Такая команда означает, что папку «Surprise» нельзя индексировать, зато все файлы, которые в ней лежат – можно.
Для лучшего понимания возьмем стандартное правило:
Disallow: /surprise
В данном случае поисковые роботы не могут индексировать ни папку «Surprise», ни все вложенные в ней файлы. А с помощью спецсимволов можно дать им доступ к тому, что вы хотите проиндексировать.
В файле robots.txt также обязательно указывается путь к карте сайта. Она должна быть обязательно (если нет – создавайте).
Для реализации этой задачи применяется директива sitemap. Обычно ее прописывают в конце, но это не столь важно. Директива межсекционная, поэтому можно указать ее в начале или где-то посредине.
Выглядит она так:
Sitemap: https://blog.ua/sitemap.xlm.gz
Sitemap: https://blog.ua/sitemap.xlm
То есть, в данном случае надо указать гиперссылку, по которой доступна карта сайта. Или две – если их несколько.
Зачем это нужно? Чтобы поисковые роботы запомнили путь к карте сайта и время от времени сканировали ее (ведь обновляется она регулярно).
Обычно любой сайт можно открыть по двум URL-адресам. Первый – blog.ua. Второй – www.blog.ua. В таких случаях надо определить главное зеркало и сообщить о нем поисковым роботам.
Для этого служит директива Host. Указывается она тоже в конце списке (перед директивой sitemap):
Host: blog.ua
В данном случае роботы видят, что главное зеркало – это URL-адрес без приставки www. И даже когда посетители будут вводить адрес с этой приставкой, то их автоматически перекинет на главное зеркало.
Но тут надо учитывать два момента. Во-первых, данная директива должна указываться один раз. Если написать несколько раз – роботы «увидят» только первый вариант, а все последующие проигнорируют.
Во-вторых, эту директиву видит только Яндекс. Поэтому и прописывать ее надо в блоке, который начинается с приветствия к нему.
Для Google директива не прописывается – ему сообщать о главном зеркале надо в личном кабинете Google Search Console.
Кириллица в файле robots.txt запрещена. Но как быть, если домен сайта или название папок написано на русском? Можно выкрутиться за счет использования Punycode. В итоге любая гиперссылка на русском превратится в длинный набор символов: %A1%AC%A1%AD%. Его-то и надо указывать в файле robots.
Два простых примера:
Disallow: /документы
Disallow: /%A1%AC%A1%AD%
Правильным является второй вариант. А первый (с русскоязычным написанием папки) – неправильный.
Также при составлении файла robots.txt надо придерживаться основных правил написания. Их много, но они предельно простые, так что запомнить будет несложно:
Само название файла robots.txt должно тоже прописываться маленькими буквами. И его размер не должен превышать 32 Кб. В противном случае роботы будут индексировать весь сайт. Если файла нет или он не доступен – они опять же будут индексировать весь сайт.
И главное – указывайте в robots.txt только то, что нужно. Не лейте воду. В идеале в файле должно быть минимальное количество строк, причем каждая – со смыслом.
Считается, что поисковые роботы не любят универсальное приветствие. Яндексу и Гуглу нравится, когда вы обращаетесь к ним персонально. Поэтому рекомендуется прописывать в файле два блока: один – посвященный Яндексу, а второй – Google. Директивы будут немного отличаться (например, Гуглу не нужна команда Host), но в целом они получатся примерно одинаковыми.
Итак, вы написали данный файл и залили его в корневой каталог. Это хорошо, но дело еще не окончено. Далее нужно сообщить о файле поисковикам, предварительно проверив его на правильность написания. Инструкция для каждого поисковика будет разной.
В случае с Гуглом нужно выполнить следующее:
Гугл проверит его и сообщит, есть ли ошибки. Если есть – исправляете, если нет – нажимаете кнопку «Отправить». Все, Google проинформирован о том, что у вас появился (или обновился) файл и в скором времени его просканирует.
Для Яндекса инструкция такова:
Система проверит файл и отобразит количество ошибок. Если их нет – значит, вы все написали правильно.
Итак, файл robots.txt должен быть у вашего сайта обязательно. Это даже нет смысла обсуждать. Если он отсутствует – бегом руки в ноги и добавляйте его. Ведь в противном случае поисковые роботы просканируют все страницы, и они появятся в выдаче. А это никому не нужно – ни вам, ни пользователям.
Поэтому выделите время и сделайте все на совесть. Никаких трудностей тут нет, так что вы легко справитесь. В крайнем случае можно поискать в сети примеры написания файла robots.txt для WordPress или других платформ. Либо же полистать форумы и отобрать для себя нужные команды. А еще можно подсмотреть пример составления файла robots.txt у конкурентов (только т-с-с-с).
Остались вопросы? Отправте нам заявку!
проектов в работе
человека в команде
лет опыта на рынке
Digital-инструментов
рынков экспертизы