Правильный robots.txt для WordPressВсем привет! Сегодня хочу поделиться своим мнением о целесообразности использования файла robots.txt для Ваших сайтов и персональных блогов. Если кто не в курсе, то это текстовый файл, находящийся в корневой директории сайта (http://site/robots.txt), позволяющий выборочно запрещать индексацию поисковым роботам каких-либо страниц или целых директорий.

Назначение robots.txt

Дело в том, что если на Вашем сайте присутствует множество динамических страниц, глубоких директорий или просто плагиат, и Вы не хотите, чтобы все это дело было доступно для индексации поисковым роботом, то запрет для индексации Вы можете прописать в файле robots.txt. Я, например, всегда закрываю от индексации новостные блоки, если они имеют место быть на сайте.

Создать файл robots.txt можно в любом текстовом блокноте, затем обозвать его «robots.txt» и закачать к себе на сервер. Кстати, сейчас у многих хостеров для этих целей есть удобная форма прямо в админке.

Не буду досконально расписывать все команды и функции, т.к. подробнее об этом Вы можете прочесть в панели вебмастера Яндекса, в кратце же стандартный robots.txt выглядит так:

User-agent: {имя поискового паука, которому вы хотите запретить или разрешить индексацию}
Disallow: {имя файла или папки, запрещенных к индексации}
Host: www.site.ru — закрытие от индексации зеркал сайта
Sitemap: http://www.site.ru/sitemap.xm — прописывание карты сайта в формате xml.

К примеру вы хотите запретить индексацию для робота Yandex файла, который расположен по адресу:
http://site/product_info.php,
то запись будет выглядеть так:
User-Agent: Yandex
Disallow: /product_info.php

Следует отметить, что имена поисковых пауков не всегда совпадают с именами поисковых систем, к которым они относятся. Вот небольшой список пауков для наиболее популярных ПС:

Search Engine: User-Agent
AltaVista: Scooter
Infoseek: Infoseek
Hotbot: Slurp
AOL: Slurp
Excite: ArchitextSpider
Google: Googlebot
Goto: Slurp:
Lycos: Lycos
MSN: Slurp
Netscape: Googlebot
NorthernLight: Gulliver
WebCrawler: ArchitextSpider
Iwon: Slurp
Fast: Fast
DirectHit: Grabber
Yahoo Web Pages: Googlebot
Looksmart Web Pages: Slurp

Кстати, однажды столкнулся с небольшой проблемой. Хотел закрыть от индексации картинки для Google. Ничего не получалось, пока не наткнулся на информацию о том, что оказывается у Google имя поискового паука для картинок не Googlebot, а Googlebot-Image. Век живи, век учись…

Обязателен ли robots.txt?

Если честно, то поначалу (примерно в течении полугода с начала работы в Интернете), я никогда не использовал файл robots.txt. Скорее всего это мое игнорирование было связано с природным разгильдяйством, да и тратить время на изучение еще одной темы было просто тяжко. Теперь, по прошествии времени, я понимаю, что это основа основ, да и пишу я эту статью, скорее, для новичков, чтобы не повторяли моих ошибок.

Я не говорю, что использование «роботс» — это панацея. Например, проанализировав блоги нескольких известных блоггеров Рунета, я обратил внимание, что в robots.txt у них прописано минимум запретов (результаты поиска, запрет зеркал сайта, указание паукам на карту сайта и т.д.).

Правильный robots.txt

WordPress генерирует множество ненужных страниц, к примеру страницы тегов. Недавно наткнулся на одном из блогов на “правильный robots.txt для wordpress». Выглядит он так:

User-agent: Yandex
Disallow: /tag
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /thems
Disallow: /img
Disallow: /page
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Host: www.site.ru

User-agent: *
Disallow: /tag
Disallow: /cgi-bin
Disallow: /wp-admin
Disallow: /wp-includes
Disallow: /wp-content/plugins
Disallow: /wp-content/cache
Disallow: /wp-content/themes
Disallow: /thems
Disallow: /img
Disallow: /page
Disallow: /wp-trackback
Disallow: /wp-feed
Disallow: /wp-comments
Disallow: /category
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Sitemap: http://www.site.ru/sitemap.xml
Sitemap: http://www.site.ru/sitemap.xml.gz

В принципе, со всем согласен, только я не стал бы закрывать от индексации комментарии и картинки.

Запомните, что при создании файла robots txt нужно быть предельно внимательным, чтобы случайно не закрыть от индексации весь сайт :) А проверить файл на корректность, Вы можете используя панели вебмастера для Яндекса и Google.

P.S. Резюмируя все выше сказанное, можно сказать, что использовать или нет файл robots.txt дело каждого вебмастера. Я же настоятельно рекомендую, по крайней мере, не игнорировать этот нюанс…