СТАНЬ ЛІДЕРОМ
В ЕПОХУ DIGITAL

Robots.txt – Що це таке і як з ним працювати

Коли веб-ресурс уже запущений – насамперед потрібно повідомити про нього пошуковим системам, проіндексувати його. Навіщо? Щоб вони дізналися, що в мережі з’явився новий сайт. Щоб вони розуміли, що дозволено для індексації, а що заборонено. І реалізується все це гранично просто – за допомогою текстового файлу robots.txt.

Що він собою представляє? Навіщо він потрібен? Як створюється? Ці та інші питання ми і розглянемо в даній статті.

Що таке файл robots.txt і для чого він потрібен?

Уявіть, що у вас є невелика коробка. І в ній лежать всякі речі. наприклад:

  • важливі документи (паспорт, карта соцстрахування);
  • особистий щоденник;
  • листи від друзів, знайомих, родичів;
  • подарунки минулих років;
  • фотоальбоми і ін.

Частина речей не хочеться показувати нікому. Частина – тільки по секрету найближчим людям. Для інших же на коробці є наклейка «Не дивитися». І виховані люди так і зроблять.

Якщо перевести все це на сайти, то вийде так: наклейка «Не дивитися» – це файл robots.txt, а «виховані люди» – це роботи Google і Яндекс, які індексують веб-ресурси (тобто риються в них).

Тут найголовніше – щоб файл був. Адже його відсутність говорить пошуковому роботу про вседозволеність. Він почне індексувати всі підряд, подивиться всі сторінки, а потім зробить їх доступними для мільйонів інтернет-користувачів. А цього допускати не можна.

Таким чином, файл robots.txt – це перешкода для пошукових роботів, наклейка, яка повідомляє, куди лізти не слід. Всі правила і заборони прописуються саме в ньому. Наприклад, за допомогою даного файлу ви можете:

  • дозволити повну індексацію сайту за винятком трьох-чотирьох підрозділів;
  • дозволити індексацію тільки 10 сторінок, а всіх інших – заборонити;
  • повністю заборонити індексацію сайту (припустимо, якщо він ще допрацьовується і не готовий вітати нових користувачів).

Правила і заборони можна прописувати як для кожного пошукового робота окремо (від Яндекса і Гугла), так і для обох відразу.

Що найчастіше забороняють індексувати? Службові файли. Наприклад, файли плагінів, встановленого шаблону та ін. Простим користувачам все це бачити не потрібно. А конкурентам – тим більше.

Іншими словами, файл robots.txt інформує пошукові роботи, що можна індексувати, а що ні. Так ви ловите відразу двох зайців. По-перше, у видачі будуть відображатися тільки основні категорії з корисним для користувачів контентом. По-друге, ви приховаєте службові розділи і захистите файли з важливими даними.

Як створити файл robots.txt?

Даний файл зазвичай створюється в Блокноті. Або в будь-якому іншому текстовому редакторі. Алгоритм дій елементарний:

  • створіть текстовий файл в зручному місці;
  • пропишіть необхідні команди;
  • збережіть файл, вказавши ім’я robots (розширення проставиться автоматично).

Залишиться тільки залити його в кореневий каталог сайту (наприклад, за допомогою FileZilla або іншого софта) – і готово.

Для лінивих є альтернативні варіанти. Перший – завантажити готовий файл. Другий – створити його в онлайн-режимі. Правда, в обох випадках доведеться уважно вивчати файл і дивитися, що там написано. Інакше можна закрити від індексації важливі сторінки і дозволити сканувати непотрібні сторінки. Але в цьому потрібно розбиратися, тому краще все ж прописувати команди самому.

Чи можна редагувати файл robots?

Редагування файлу robots.txt дозволено в будь-який момент. Тому не переживайте, якщо забудете щось написати або навпаки – вкажете зайве. Все, що потрібно – відредагувати файл, а потім залити оновлену версію в кореневий каталог сайту і повідомити про неї пошуковикам (щоб вони її просканували повторно і запам’ятали нові правила).

Налаштування файлу robots.txt

Тепер, коли розібралися, що таке файл robots.txt і навіщо він потрібен, настав час приступати до головного – до його написання.

Всі команди, які в ньому прописуються, називаються директивами. Кожна директива представляє собою одне конкретне правило. Наприклад, вітання, заборона або дозвіл на індексацію.

Для пошукових систем директиви – це просто рекомендації. Яндекс виконує їх беззаперечно, а ось Гугл – робить на свій розсуд. Але все одно вони потрібні, оскільки в разі відсутності пошукові роботи відчують повну вседозволеність.

Отже, розглянемо основні директиви, які можуть прописуватися в цьому файлі.

Директива User-agent: вітання для роботів

Перше, що вказується в robots.txt – це директива User-agent. З неї все починається, оскільки це своєрідне вітання. Причому ви можете вказати, з ким саме ви вітаєтеся.

Наприклад, можна прописати так:

User-agent: *

Це буде універсальне вітання «Привіт всім!», Що відображається для всіх роботів.

А можна написати так:

User-agent: Yandex

Тоді ви привітаєтеся тільки з усіма роботами Яндекса, які індексують зображення, пости та ін. А вони зрозуміють, що всі директиви, які йдуть нижче, стосуються тільки їх. Те ж зрозуміє і Гугл, який пропустить ці рядки, поки не знайде загальне або особисте привітання для себе.

Якщо ж хочете привітатися з основним роботом Яндекса, який індексує сайт, то треба прописати так:

User-agent: YandexBot

А вітання для Google буде виглядати так:

User-agent: GoogleBot

Правда, це вже ви привітаєтеся з усіма роботами Гугла, а не тільки з основним, оскільки вони розуміють цю команду трохи інакше.

Запам’ятайте: якщо вітаєте тільки конкретного робота, то все, що написано нижче, буде доступно лише йому. Наприклад, Google. А Яндекс буде шукати те, що стосується тільки нього. За рахунок цього в одному файлі можна прописувати дві окремі інструкції для кожного пошуковика. Або навіть більше – якщо хочете звернутися до додаткових роботів, які відповідають за індексацію картинок та ін.

Якщо ж після команди User-agent пишеться зірочка – значить, директива доступна обом пошуковим системам.

Директиви Allow і Disallow: дозвіл і заборона на індексацію

Команда Disallow забороняє роботам індексувати сайт. Якщо хочете так зробити, слід прописати:

User-agent: *

Disallow: /

Це закриє від індексації весь сайт.

Якщо хочете заборонити сканувати тільки одну папку, тоді слід прописати так:

User-agent: *

Disallow: / surprise

А команда Allow навпаки – дозволяє роботам індексувати весь сайт. Щоб повідомити їм про це, слід прописати так:

User-agent: *

Allow: /

Якщо ж потрібно, щоб вони просканували одну папку, а решта – не чіпали, тоді, трохи поміркувавши, можна прописати так:

User-agent: *

Allow: / my_files /

Disallow: /

За допомогою цих двох директив можна дозволяти і забороняти індексувати будь-які папки в будь-якій комбінації. Наприклад, частина – заборонити, а все інше – дозволити. Саме такий варіант найчастіше і застосовується на практиці.

При використанні цих директив дозволяється використовувати спецсимволи. Зокрема, зірочку (*) і знак долара ($). Навіщо?

Зірочка має увазі під собою будь-яку послідовність символів (і навіть порожню). наприклад:

Disallow: /surprise/*.aspx

В даному випадку роботам заборонено індексувати всі файли з розширенням .aspx, які лежать в папці «Surprise». Це зручно, коли файлів багато, або коли ви не пам’ятаєте їх назви.

А символ $ працює трохи інакше. Наприклад, можна прописати так:

Disallow: / surprise $

Така команда означає, що папку «Surprise» не можна індексувати, зате всі файли, які в ній лежать – можна.

Для кращого розуміння візьмемо стандартне правило:

Disallow: / surprise

В даному випадку пошукові роботи не можуть індексувати ні папку «Surprise», ні всі вкладені в неї файли. А за допомогою спецсимволів можна дати їм доступ до того, що ви хочете проіндексувати.

Директива Sitemap: вказування ​​карти сайту

У файлі robots.txt також обов’язково вказується шлях до карти сайту. Вона повинна бути обов’язково (якщо немає – створюйте).

Для реалізації цього завдання застосовується директива sitemap. Зазвичай її прописують в кінці, але це не настільки важливо. Директива міжсекційна, тому можна вказати її на початку або десь посередині.

Виглядає вона так:

Sitemap: https://blog.ua/sitemap.xlm.gz

Sitemap: https://blog.ua/sitemap.xlm

Тобто, в даному випадку треба вказати гіперпосилання, за яким доступна карта сайту. Або два – якщо їх декілька.

Навіщо це потрібно? Щоб пошукові роботи запам’ятали шлях до карти сайту і час від часу сканували її (адже оновлюється вона регулярно).

Директива Host: вказування головного дзеркала

Зазвичай будь-який сайт можна відкрити за двома URL-адресами. Перша – blog.ua. Друга – www.blog.ua. У таких випадках треба визначити головне дзеркало і повідомити про нього пошуковим роботам.

Для цього служить директива Host. Вказується вона теж в кінці списку (перед директивою sitemap):

Host: blog.ua

В даному випадку роботи бачать, що головне дзеркало – це URL-адреса без приставки www. І навіть коли відвідувачі будуть вводити адресу з цією приставкою, то їх автоматично перекине на головне дзеркало.

Але тут треба враховувати два моменти. По-перше, дана директива повинна вказуватися один раз. Якщо написати кілька разів – роботи «побачать» тільки перший варіант, а всі наступні проігнорують.

По-друге, цю директиву бачить тільки Яндекс. Тому і прописувати її треба в блоці, який починається з привітання до нього.

Для Google директива не прописується – йому повідомляти про головне дзеркало треба в особистому кабінеті Google Search Console.

Чи можна використовувати кирилицю?

Кирилиця в файлі robots.txt заборонена. Але як бути, якщо домен сайту або назва папок написана російською? Можна викрутитися за рахунок використання Punycode. В результаті будь-яке гіперпосилання російською перетвориться в довгий набір символів:% A1% AC% A1% AD%. Його-то і треба вказувати в файлі robots.

Два простих приклади:

Disallow: / документи

Disallow: /% A1% AC% A1% AD%

Знову ж правильним є другий варіант. А перший (з російськомовним написанням папки) – неправильний.

Основні правила складання файлу robots.txt

Також при складанні файлу robots.txt треба дотримуватися основних правил написання. Їх багато, але вони гранично прості, так що запам’ятати буде нескладно:

  • команда для пошукових систем пишеться за такою формулою – Директива: пробіл, потрібне значення (наприклад, Disallow: / documents);
  • починайте кожну команду з нового рядка;
  • в кожному рядку прописується лише одна директива;
  • не потрібно ставити пробіл спочатку рядка;
  • забудьте про лапки і крапки з комами – вони тут не використовуються;
  • для написання коментаря починайте рядок з символу # (все, що йде після нього роботи не читають – це особисті нотатки для вас або інших людей, щоб вони розуміли, що прописано в цьому рядку);
  • в директивах Disallow, Allow вказується лише одне значення;
  • назви файлів і папок пишуться маленькими літерами (великі заборонені);
  • не можна використовувати букви національного алфавіту.

Сама назва файлу robots.txt повинна теж прописуватися маленькими буквами. І його розмір не повинен перевищувати 32 Кб. В іншому випадку роботи будуть індексувати весь сайт. Якщо файлу немає або він не доступний – вони знову ж будуть індексувати весь сайт.

І головне – вказуйте в robots.txt тільки те, що потрібно. Не лийте воду. В ідеалі в файлі має бути мінімальна кількість рядків, причому кожна – зі змістом.

Як правильно звертатися до пошукових роботів?

Вважається, що пошукові роботи не люблять універсальне привітання. Яндексу і Гуглу подобається, коли ви звертаєтеся до них персонально. Тому рекомендується прописувати в файлі два блоки: один – присвячений Яндексу, а другий – Google. Директиви будуть трохи відрізнятися (наприклад, Гуглу не потрібна команда Host), але в цілому вони вийдуть приблизно однаковими.

Перевірка файлу robots.txt на правильність написання

Отже, ви написали даний файл і залили його в кореневий каталог. Це добре, але справу ще не закінчено. Далі потрібно повідомити про фото пошуковикам, попередньо перевіривши його на правильність написання. Інструкція для кожного пошуковика буде різною.

У випадку з Гуглом потрібно виконати наступне:

  1. Ви можете увійти Google Search Console (заздалегідь додавши туди сайт).
  2. Перейти в розділ «Сканування».
  3. Вибрати пункт «Інструмент перевірки файлу».
  4. Вказати шлях до файлу (просто дописати «robots.txt», оскільки URL-адреса веб-ресурсу там вже прописана за замовчуванням).

Гугл перевірить його і повідомить, чи є помилки. Якщо є – виправляєте, якщо немає – натискаєте кнопку «Відправити». Все, Google проінформований про те, що у вас з’явився (або оновився) файл і незабаром його просканує.

Для Яндекса інструкція така:

  1. Зайдіть в Яндекс.Вебмайстер.
  2. Відкрийте інструмент «Аналіз robots.txt».
  3. Вкажіть адресу сайту.
  4. Натисніть кнопку «Перевірити».

Система перевірить файл і відобразить кількість помилок. Якщо їх немає – значить, ви все написали правильно.

Висновок

Отже, файл robots.txt повинен бути у вашого сайту обов’язково. Це навіть немає сенсу обговорювати. Якщо він відсутній – бігом руки в ноги і додавайте його. Адже в іншому випадку пошукові роботи просканують всі сторінки, і вони з’являться у видачі. А це нікому не потрібно – ні вам, ні користувачам.

Тому виділіть час і зробіть все на совість. Ніяких труднощів тут немає, так що ви легко впораєтеся. В крайньому випадку можна пошукати в мережі приклади написання файлу robots.txt для WordPress або інших платформ. Або ж погортати форуми і відібрати для себе потрібні команди. А ще можна підглянути приклад складання файлу robots.txt у конкурентів (тільки т-с-с-с).

 

Є питання? Залиште нам заявку!

some-item
Ми допоможемо розібратися з усіма тонкощами digital-маркетингу
some-item
Сформуємо повноцінну стратегію просування у мережі
some-item
Збільшимо трафік та кількість заявок на сайті
some-item
Покращимо репутацію бренду в очах покупців

    Почніть проект з iLion

    dots
    Все статьи
    1 Star2 Stars3 Stars4 Stars5 Stars (Поки оцінок немає)
    Loading...

    Залишити відповідь

    Ваша e-mail адреса не оприлюднюватиметься. Обов’язкові поля позначені *

    0 +

    проектів в роботі

    0 +

    людини в команді

    0 +

    років досвіду на ринку

    0 +

    Digital-інструментів

    0 +

    ринків експертизи

    Trigger the fancybox