Robots.txt или как работает поисковый робот
Прежде, чем рассматривать создание файла robots.txt, хочу напомнить новичкам о форуме https://www.cyberforum.ru/. Данный форум - это просто гигантский интернет-ресурс, объединивший программистов, сисадминов, вебмастеров, компьютерщиков. Это кладезь информации и опыта от профессионалов своего дела. Там можно найти ответы на практически любые вопросы, касающиеся темы создания и продвижения сайтов, решить проблемы с софтом и драйверами, а при необходимости - найти фрилансера для исполнения ваших задач.
А сейчас давайте вернемся к теме и разберемся, как работает поисковый робот. Поисковый робот чем-то напоминает посредника между вашим сайтом и потенциальными посетителями. Ведь именно от того, сколько страниц вашего сайта будет проиндексировано им, напрямую зависит и количество ваших посетителей. Поэтому с роботом лучше "дружить", а не ставить ему палки в колеса.
С чего же начинается обход вашего сайта поисковым роботом? Первое, на что смотрит поисковый робот - это файл robots.txt. Отсутствие этого файла на вашем сайте сильно не повлияет на работу сайта, а вот присутствие robots.txt явно обрадует поисковых роботов. Скачав его и получив указания из файла, что нужно индексировать, а что нет, робот принимается за работу, т.е. начинает поочередно скачивать страницы. Не волнуйтесь, особой нагрузки при этом на ваш сайт не создается, т.к. скачивание страниц происходит в определенной последовательности, а не все сразу.
В первую очередь будут проиндексированы самые важные и востребованные страницы, которые часто обновляются, затем те страницы, на которые ведут ссылки с уже проиндексированных страниц. И только потом остальные страницы и то в том случае, если робот не "устанет".
После скачивания страницы, робот "выделяет" из нее текст и ссылки и "запоминает" их. Каждую новую ссылку он обязательно посетит. Кроме того, робот "запоминает" ссылки на картинки и передает их специальному роботу, который индексирует графику для сервиса "Поиск по картинкам". Кроме него у Яндекса есть еще робот, индексирующий rss-ленту для "Поиска по блогам", и быстрый робот для оперативного индексирования новой, актуальной информации (по дате последнего обновления).
Есть еще робот-индексатор аудио- и видеофайлов, робот-зеркальщик для определения зеркал сайта, ссылочный робот, отвечающий за подсчет числа ссылок на сайте и т.д. Как видите, роботов-пауков предостаточно, но нас с вами больше всего интересует самый главный - индексирующий тексты страниц.
Теперь, когда мы уже имеем некоторое представление о работе поисковых роботов, давайте расcмотрим сам файл robots.txt. Данный файл обычно выглядит очень просто. Обязательными строками для него являются User-Agent, где прописывается тот или иной поисковый робот (или же все роботы) и Disallow, где прописывается сама команда разрешить или запретить. Давайте рассмотрим на примерах.
Пример 1. Мы разрешаем всем поисковым роботам индексировать все страницы нашего сайта. В этом случае файл robots.txt будет иметь такой вид:
User-Agent:*
Disallow:
Пример 2. Мы запрещаем весь сайт для индексации всеми роботами. В этом случае следует написать так
User-Agent:*
Disallow:/
Знак * означает "Все роботы", наклонная черта / означает "Запрет".
Пример 3. Мы разрешаем индексацию сайта всем роботам, кроме Googlebot:
User-Agent: Googlebot
Disallow:/
Пример 4. Мы разрешаем индексировать сайт только одному роботу Yandex, остальным - запрещаем:
User-Agent: Yandex
Disallow:
User-Agent:*
Disallow:/
Обратите внимание, когда прописываются две команды (пример 4), следует между ними вставлять пустую строку, лишь в этом случае команды будут исполнены правильно.
Пример 5. Мы хотим запретить определенному роботу (например Googlebot) индексировать определенный файл (например russkys.htm). В этом случае запись будет иметь следующий вид:
User-Agent: Googlebot
Dissalow: russkys.htm
Пример 6. Надо запретить роботу индексировать одну страницу ( например lichnyj_file.html ). Для этого пишем:
User-Agent: Googlebot
Disallow:/ lichnyj_file.html
Пример 7. Запрещаем к индексации всеми роботами каталоги cgi-bin и tmp :
User-Agent:*
Disallow:/ cgi-bin/
Disallow:/ tmp/
Каждый каталог пишется в отдельной строке.
Пример 8. Нам надо запретить одному роботу (возьмем к примеру Yandex ) индексировать определенный файл (например myfile.php), а остальным роботам мы разрешаем индексировать этот файл. Для этого прописываем следующие команды:
User-Agent: Yandex
Disallow: /myfile.php
User-Agent:*
Disallow:
Мы рассмотрели с вами на примерах самые часто создаваемые варианты файла robots.txt. Теперь давайте повторим еще раз самые важные моменты.
В строке User-Agent пишем для кого предназначается данная директива. Если для одного робота, то указываем его название, если для всех, то ставим звездочку.
В строке Disallow прописываем название объекта, который надо скрыть от индексации. Если таких объектов нет, оставляем строку пустой. Если надо запретить к индексации весь сайт, ставим наклонную черту.
В одной строке Disallow прописывается только один объект. Каждый последующий указывается в новой строке.
В случае, когда надо указать нескольких роботов, то название каждого из них тоже пишется в отдельной строке:
User-Agent: msnbot
User-Agent: Badbot
Disallow: / myfile.php.
Строка User-Agent не должна быть пустой. Не забывайте указывать кому предназначена данная директива. А в строке Disallow нельзя ставить звездочку, этим вы запретите индексацию всего сайта. Остался еще один момент: он касается тех вебмастеров, кто составил карту сайта в формате Sitemap XML. Чтобы привлечь внимание поисковых роботов, следует в файле robots.txt прописать еще одну строку после строки Disallow. Она должна иметь следующий вид:
Sitemap:http://www.mysite.ru/sitemap.xml, где www.mysite.ru меняете на адрес своего сайта.
После добавления этой строки поисковые роботы обязательно просканируют вашу карту сайта и проиндексируют те страницы, которые ранее игнорировали.
Создать файл robots.txt можно в любом текстовом редакторе типа Блокнот. Открываете Блокнот, в чистый лист вписываете нужные строки для файла robots.txt. Сохраняете созданный документ как robots.txt на своем компьютере, а затем загружаете его в корневой каталог вашего сайта на сервере.
После закачки на сервер, обязательно проверьте результат. Для этого наберите в браузере такой адрес: http://www.mysite.ru/robots.txt, где www.mysite.ru меняете на адрес своего сайта.
Вот собственно и все основные премудрости, которые нужно знать начинающим вебмастерам для создания файла robots.txt. И в заключение привожу названия некоторых поисковых роботов:
Google - googlebot
Яндекс - Yandex
Рамблер - StackRambler
Yahoo - Slurp
MSN - msnbot
У кого даже после столь подробного разъяснения возникают трудности в составлении файла robots.txt, могут воспользоваться онлайн-сервисами, позволяющими сгенерировать нужный файл в автоматическом режиме. Например, в сервисе http://sitespy.ru/sozdati-robots-txt: