Правильный robots.txt SeoPapa.ru

Правильный robots.txt


Еще одна СЕО статья, которая будет посвящена такому важному элементу при оптимизации сайта, как robots.txt. Вообще в Интернете конечно же полно материала по данной теме, однако решил всё же подытожить всё уже сказанное, а вообще при подготовке опирался сугубо на свой опыт. Итак, что же необходимо учесть для того, чтобы составить правильный robots.txt, зачем вообще необходимо внедрять данный файл в корень Вашего сайта и какую выгоду можно будет с этого поиметь? Давайте обо всём по порядку.

Robots.txt необходим для закрытия доступа поисковым ботам к тем разделам сайта, которые не следует индексировать. Разместить robots.txt необходимо в корне Вашего сайта.
В этот файл можно вносить несколько параметров. Первый из них, это параметр User-agent. Данный парамет указывает на то, какой поисковой системе Вы желаете запретить индексацию тех иных разделов, каталогов или страниц.
Если Вы хотите отнести ваш запрет одновременно ко всем поисковым ботам, то для этого в данное поле впишите звездочку (*).
Далее идет параметр Disallow. Он указывает, какие конкретно папки и файлы необходимо закрыть от индексации.
Например, нам необходимо запретить поисковику доступ к папкам с изображениями, скриптами, временными файлами, а также к файлам страниц ошибок.
Вот как это будет выглядеть:
[sourcecode language='css']
User-agent: *
Disallow: /error404.php
Disallow: /error500.php
Disallow: /img/
Disallow: /cgi-bin/
Disallow: /temp/
[/sourcecode]
Таким образом мы запретили поисковым ботам индексировать некоторые страницы и разделы сайта.

Напомню, что набирается всё это дело в обыкновенном блокноте, а затем копируется в корень сервера с помощью FTP клиента обязательно в режиме ASCII (современные FTP клиенты делают это автоматически).

Это была вводная часть, которая была направлена на ознакомление. Так что же необходимо запрещать от индексации и почему?
Вообще ненужные вещи могут наделать кучу бед – от дублирования страниц до затруднения индексации и зазеркаливания сайта.
Для предотвращения дублирования страниц при использовании в URLs
специальных параметров, например, _openstat или from=adwords
(данные переменные используются для отслеживания статистики переходов
по рекламным кампаниям, таких как AdWords), необходимо в секции
User-agent: Yandex и User-agent: Googlebot
файла robots.txt добавить строки:
[sourcecode language='css']
Disallow: /*_openstat
Disallow: /*from=adwords
[/sourcecode]
В случае использования иных параметров переменных, необходимо
скорректировать директивы Disallow в файле robots.txt. Вообще дубли при рекламных кампаниях маловероятны, но подстраховаться всё-таки стоит.
Далее необходимо закрывать от индексации все CSS файлы. Это необходимо для того, чтобы поисковый бот не счел ваши стили какими-то нарушениями. Например, Вы сделали бледно-серые буквы на белом фоне и они плохо видны, что может повлечь за собой санкции. Далее Вы в стиле для H2 прописали размер больше, чем для H1, что также противоречит нормам. Чтобы избегать таких неприятностей лучше себя обезопасить (данные положения не доказаны, но имеют определенную основу). Да и вообще запрет на индексацию CSS файла ускорит индексацию самого сайта, – это факт.
Также необходимо запрещать от индексации различного рода скрипты, потому что поисковый бот их все равно не умеет исполнять, а они в свою очередь будут затруднять для него индексацию. Последним подпунктом остается прописание Host для Вашего сайта. То есть его основной домен
С WWW или без WWW. Особое внимание обращаю на данный пункт, т.к. у меня был пример, на который сейчас отвлекусь. Сайт клиента продвигался и наращивалась ссылочная масса для домена без WWW, при этом менеджеры данной фирмы постили по всему Рунету многочисленные объявления, оставляя адрес сайта с WWW. Я поначалу радовался, мол хорошие помощники попались :) , однако вскоре сайт был зазеркален Яндексом, определяя основной хост, как сайт с WWW…. Сами понимаете, что произошло с покупными ссылками.
Итак, итоговый вариант нашего Robots.txt будет таков:
[sourcecode language='css']
User-agent: Yandex
Disallow: /*_openstat
Disallow: /*from=adwords
Disallow: /style.css
Disallow: /ns.css
Disallow: /func.js
Disallow: /ns.js
Host: domen.ru

User-agent: Googlebot
Disallow: /*_openstat
Disallow: /*from=adwords
Disallow: /style.css
Disallow: /ns.css
Disallow: /func.js
Disallow: /ns.js

User-agent: *
Disallow: /style.css
Disallow: /ns.css
Disallow: /func.js
Disallow: /ns.js
[/sourcecode]

Вот Вам ещё на всякий случай названия самых популярных в рунете поисковых ботов:
Вот самые распространённые в Рунете поисковые боты.
Рамблер – StackRambler
Яндекс – Yandex
Google – Googlebot
MSN – msnbot

У кого есть еще какая-то информация по поводу robots.txt, дополняйте.



  1. R_G

    Не понял пояснения по директиве HOST.
    Какой домен правильно указывать как основной с www или без?
    А что будет если указать две директивы HOST в одном файле, например:
    host: http://www.site.ru
    host: site.ru
    Спасибо за ответ!

    06 Янв 2010

  2. admin

    Нужно посмотреть для начала, каких страниц у Вас больше в индексе: с WWW или без. Исходя из этого выбрать host. Или же, если Вам необходимо, чтобы в индексе был сайт именно с WWW или без. То есть Вы сами выбираете, что Вам нужно, чтобы было в индексе. Если прописать 2 хоста, то поисковый бот просто не поймет эту запись и сочтет за ошибку. Анализировать ошибки в файле robots.txt можно через панель Яндекс.Вебмастер.

    06 Янв 2010

  3. Достаточно интересный материал.

    13 Мар 2010

  4. да вали тут к теме

    23 Мар 2010

  5. Было бы интересно почитать еще о том как правильно перtносить сайт на другой домен с помощью robots.txt

    26 Май 2010

  6. Ты смеешься???, это просто файл который “Управляет” поисковыми ботами у тебя на сайте

    15 Окт 2011

  7. А я недавно удалила хост, потому что он ничего не давал. Сейчас рекомендуют вводить изменения в .htaccess, что я и сделала. После этого перестала выходить ошибка с зазеркаливанием сайтов.

    06 Дек 2011