СТАНЬ ЛІДЕРОМ
В ЕПОХУ DIGITAL
Коли веб-ресурс уже запущений – насамперед потрібно повідомити про нього пошуковим системам, проіндексувати його. Навіщо? Щоб вони дізналися, що в мережі з’явився новий сайт. Щоб вони розуміли, що дозволено для індексації, а що заборонено. І реалізується все це гранично просто – за допомогою текстового файлу robots.txt.
Що він собою представляє? Навіщо він потрібен? Як створюється? Ці та інші питання ми і розглянемо в даній статті.
Уявіть, що у вас є невелика коробка. І в ній лежать всякі речі. наприклад:
Частина речей не хочеться показувати нікому. Частина – тільки по секрету найближчим людям. Для інших же на коробці є наклейка «Не дивитися». І виховані люди так і зроблять.
Якщо перевести все це на сайти, то вийде так: наклейка «Не дивитися» – це файл robots.txt, а «виховані люди» – це роботи Google і Яндекс, які індексують веб-ресурси (тобто риються в них).
Тут найголовніше – щоб файл був. Адже його відсутність говорить пошуковому роботу про вседозволеність. Він почне індексувати всі підряд, подивиться всі сторінки, а потім зробить їх доступними для мільйонів інтернет-користувачів. А цього допускати не можна.
Таким чином, файл robots.txt – це перешкода для пошукових роботів, наклейка, яка повідомляє, куди лізти не слід. Всі правила і заборони прописуються саме в ньому. Наприклад, за допомогою даного файлу ви можете:
Правила і заборони можна прописувати як для кожного пошукового робота окремо (від Яндекса і Гугла), так і для обох відразу.
Що найчастіше забороняють індексувати? Службові файли. Наприклад, файли плагінів, встановленого шаблону та ін. Простим користувачам все це бачити не потрібно. А конкурентам – тим більше.
Іншими словами, файл robots.txt інформує пошукові роботи, що можна індексувати, а що ні. Так ви ловите відразу двох зайців. По-перше, у видачі будуть відображатися тільки основні категорії з корисним для користувачів контентом. По-друге, ви приховаєте службові розділи і захистите файли з важливими даними.
Даний файл зазвичай створюється в Блокноті. Або в будь-якому іншому текстовому редакторі. Алгоритм дій елементарний:
Залишиться тільки залити його в кореневий каталог сайту (наприклад, за допомогою FileZilla або іншого софта) – і готово.
Для лінивих є альтернативні варіанти. Перший – завантажити готовий файл. Другий – створити його в онлайн-режимі. Правда, в обох випадках доведеться уважно вивчати файл і дивитися, що там написано. Інакше можна закрити від індексації важливі сторінки і дозволити сканувати непотрібні сторінки. Але в цьому потрібно розбиратися, тому краще все ж прописувати команди самому.
Редагування файлу robots.txt дозволено в будь-який момент. Тому не переживайте, якщо забудете щось написати або навпаки – вкажете зайве. Все, що потрібно – відредагувати файл, а потім залити оновлену версію в кореневий каталог сайту і повідомити про неї пошуковикам (щоб вони її просканували повторно і запам’ятали нові правила).
Тепер, коли розібралися, що таке файл robots.txt і навіщо він потрібен, настав час приступати до головного – до його написання.
Всі команди, які в ньому прописуються, називаються директивами. Кожна директива представляє собою одне конкретне правило. Наприклад, вітання, заборона або дозвіл на індексацію.
Для пошукових систем директиви – це просто рекомендації. Яндекс виконує їх беззаперечно, а ось Гугл – робить на свій розсуд. Але все одно вони потрібні, оскільки в разі відсутності пошукові роботи відчують повну вседозволеність.
Отже, розглянемо основні директиви, які можуть прописуватися в цьому файлі.
Перше, що вказується в robots.txt – це директива User-agent. З неї все починається, оскільки це своєрідне вітання. Причому ви можете вказати, з ким саме ви вітаєтеся.
Наприклад, можна прописати так:
User-agent: *
Це буде універсальне вітання «Привіт всім!», Що відображається для всіх роботів.
А можна написати так:
User-agent: Yandex
Тоді ви привітаєтеся тільки з усіма роботами Яндекса, які індексують зображення, пости та ін. А вони зрозуміють, що всі директиви, які йдуть нижче, стосуються тільки їх. Те ж зрозуміє і Гугл, який пропустить ці рядки, поки не знайде загальне або особисте привітання для себе.
Якщо ж хочете привітатися з основним роботом Яндекса, який індексує сайт, то треба прописати так:
User-agent: YandexBot
А вітання для Google буде виглядати так:
User-agent: GoogleBot
Правда, це вже ви привітаєтеся з усіма роботами Гугла, а не тільки з основним, оскільки вони розуміють цю команду трохи інакше.
Запам’ятайте: якщо вітаєте тільки конкретного робота, то все, що написано нижче, буде доступно лише йому. Наприклад, Google. А Яндекс буде шукати те, що стосується тільки нього. За рахунок цього в одному файлі можна прописувати дві окремі інструкції для кожного пошуковика. Або навіть більше – якщо хочете звернутися до додаткових роботів, які відповідають за індексацію картинок та ін.
Якщо ж після команди User-agent пишеться зірочка – значить, директива доступна обом пошуковим системам.
Команда Disallow забороняє роботам індексувати сайт. Якщо хочете так зробити, слід прописати:
User-agent: *
Disallow: /
Це закриє від індексації весь сайт.
Якщо хочете заборонити сканувати тільки одну папку, тоді слід прописати так:
User-agent: *
Disallow: / surprise
А команда Allow навпаки – дозволяє роботам індексувати весь сайт. Щоб повідомити їм про це, слід прописати так:
User-agent: *
Allow: /
Якщо ж потрібно, щоб вони просканували одну папку, а решта – не чіпали, тоді, трохи поміркувавши, можна прописати так:
User-agent: *
Allow: / my_files /
Disallow: /
За допомогою цих двох директив можна дозволяти і забороняти індексувати будь-які папки в будь-якій комбінації. Наприклад, частина – заборонити, а все інше – дозволити. Саме такий варіант найчастіше і застосовується на практиці.
При використанні цих директив дозволяється використовувати спецсимволи. Зокрема, зірочку (*) і знак долара ($). Навіщо?
Зірочка має увазі під собою будь-яку послідовність символів (і навіть порожню). наприклад:
Disallow: /surprise/*.aspx
В даному випадку роботам заборонено індексувати всі файли з розширенням .aspx, які лежать в папці «Surprise». Це зручно, коли файлів багато, або коли ви не пам’ятаєте їх назви.
А символ $ працює трохи інакше. Наприклад, можна прописати так:
Disallow: / surprise $
Така команда означає, що папку «Surprise» не можна індексувати, зате всі файли, які в ній лежать – можна.
Для кращого розуміння візьмемо стандартне правило:
Disallow: / surprise
В даному випадку пошукові роботи не можуть індексувати ні папку «Surprise», ні всі вкладені в неї файли. А за допомогою спецсимволів можна дати їм доступ до того, що ви хочете проіндексувати.
У файлі robots.txt також обов’язково вказується шлях до карти сайту. Вона повинна бути обов’язково (якщо немає – створюйте).
Для реалізації цього завдання застосовується директива sitemap. Зазвичай її прописують в кінці, але це не настільки важливо. Директива міжсекційна, тому можна вказати її на початку або десь посередині.
Виглядає вона так:
Sitemap: https://blog.ua/sitemap.xlm.gz
Sitemap: https://blog.ua/sitemap.xlm
Тобто, в даному випадку треба вказати гіперпосилання, за яким доступна карта сайту. Або два – якщо їх декілька.
Навіщо це потрібно? Щоб пошукові роботи запам’ятали шлях до карти сайту і час від часу сканували її (адже оновлюється вона регулярно).
Зазвичай будь-який сайт можна відкрити за двома URL-адресами. Перша – blog.ua. Друга – www.blog.ua. У таких випадках треба визначити головне дзеркало і повідомити про нього пошуковим роботам.
Для цього служить директива Host. Вказується вона теж в кінці списку (перед директивою sitemap):
Host: blog.ua
В даному випадку роботи бачать, що головне дзеркало – це URL-адреса без приставки www. І навіть коли відвідувачі будуть вводити адресу з цією приставкою, то їх автоматично перекине на головне дзеркало.
Але тут треба враховувати два моменти. По-перше, дана директива повинна вказуватися один раз. Якщо написати кілька разів – роботи «побачать» тільки перший варіант, а всі наступні проігнорують.
По-друге, цю директиву бачить тільки Яндекс. Тому і прописувати її треба в блоці, який починається з привітання до нього.
Для Google директива не прописується – йому повідомляти про головне дзеркало треба в особистому кабінеті Google Search Console.
Кирилиця в файлі robots.txt заборонена. Але як бути, якщо домен сайту або назва папок написана російською? Можна викрутитися за рахунок використання Punycode. В результаті будь-яке гіперпосилання російською перетвориться в довгий набір символів:% A1% AC% A1% AD%. Його-то і треба вказувати в файлі robots.
Два простих приклади:
Disallow: / документи
Disallow: /% A1% AC% A1% AD%
Знову ж правильним є другий варіант. А перший (з російськомовним написанням папки) – неправильний.
Також при складанні файлу robots.txt треба дотримуватися основних правил написання. Їх багато, але вони гранично прості, так що запам’ятати буде нескладно:
Сама назва файлу robots.txt повинна теж прописуватися маленькими буквами. І його розмір не повинен перевищувати 32 Кб. В іншому випадку роботи будуть індексувати весь сайт. Якщо файлу немає або він не доступний – вони знову ж будуть індексувати весь сайт.
І головне – вказуйте в robots.txt тільки те, що потрібно. Не лийте воду. В ідеалі в файлі має бути мінімальна кількість рядків, причому кожна – зі змістом.
Вважається, що пошукові роботи не люблять універсальне привітання. Яндексу і Гуглу подобається, коли ви звертаєтеся до них персонально. Тому рекомендується прописувати в файлі два блоки: один – присвячений Яндексу, а другий – Google. Директиви будуть трохи відрізнятися (наприклад, Гуглу не потрібна команда Host), але в цілому вони вийдуть приблизно однаковими.
Отже, ви написали даний файл і залили його в кореневий каталог. Це добре, але справу ще не закінчено. Далі потрібно повідомити про фото пошуковикам, попередньо перевіривши його на правильність написання. Інструкція для кожного пошуковика буде різною.
У випадку з Гуглом потрібно виконати наступне:
Гугл перевірить його і повідомить, чи є помилки. Якщо є – виправляєте, якщо немає – натискаєте кнопку «Відправити». Все, Google проінформований про те, що у вас з’явився (або оновився) файл і незабаром його просканує.
Для Яндекса інструкція така:
Система перевірить файл і відобразить кількість помилок. Якщо їх немає – значить, ви все написали правильно.
Отже, файл robots.txt повинен бути у вашого сайту обов’язково. Це навіть немає сенсу обговорювати. Якщо він відсутній – бігом руки в ноги і додавайте його. Адже в іншому випадку пошукові роботи просканують всі сторінки, і вони з’являться у видачі. А це нікому не потрібно – ні вам, ні користувачам.
Тому виділіть час і зробіть все на совість. Ніяких труднощів тут немає, так що ви легко впораєтеся. В крайньому випадку можна пошукати в мережі приклади написання файлу robots.txt для WordPress або інших платформ. Або ж погортати форуми і відібрати для себе потрібні команди. А ще можна підглянути приклад складання файлу robots.txt у конкурентів (тільки т-с-с-с).
Є питання? Залиште нам заявку!
проектів в роботі
людини в команді
років досвіду на ринку
Digital-інструментів
ринків експертизи