Robots.txt или как работает поисковый робот

Прежде, чем рассматривать создание файла robots.txt, хочу напомнить новичкам о форуме https://www.cyberforum.ru/. Данный форум - это просто гигантский интернет-ресурс, объединивший программистов, сисадминов, вебмастеров, компьютерщиков. Это кладезь информации и опыта от профессионалов своего дела. Там можно найти ответы на практически любые вопросы, касающиеся темы создания и продвижения сайтов, решить проблемы с софтом и драйверами, а при необходимости - найти фрилансера для исполнения ваших задач.

А сейчас давайте вернемся к теме и разберемся, как работает поисковый робот. Поисковый робот чем-то напоминает посредника между вашим сайтом и потенциальными посетителями. Ведь именно от того, сколько страниц вашего сайта будет проиндексировано им, напрямую зависит и количество ваших посетителей. Поэтому с роботом лучше "дружить", а не ставить ему палки в колеса.

С чего же начинается обход вашего сайта поисковым роботом? Первое, на что смотрит поисковый робот - это файл robots.txt. Отсутствие этого файла на вашем сайте сильно не повлияет на работу сайта, а вот присутствие robots.txt явно обрадует поисковых роботов. Скачав его и получив указания из файла, что нужно индексировать, а что нет, робот принимается за работу, т.е. начинает поочередно скачивать страницы. Не волнуйтесь, особой нагрузки при этом на ваш сайт не создается, т.к. скачивание страниц происходит в определенной последовательности, а не все сразу.

В первую очередь будут проиндексированы самые важные и востребованные страницы, которые часто обновляются, затем те страницы, на которые ведут ссылки с уже проиндексированных страниц. И только потом остальные страницы и то в том случае, если робот не "устанет". 
 
После скачивания страницы, робот "выделяет" из нее текст и ссылки и "запоминает" их. Каждую новую ссылку он обязательно посетит. Кроме того, робот "запоминает" ссылки на картинки и передает их специальному роботу, который индексирует графику для сервиса "Поиск по картинкам". Кроме него у Яндекса есть еще робот, индексирующий rss-ленту для "Поиска по блогам", и быстрый робот для оперативного индексирования новой, актуальной информации (по дате последнего обновления).

Есть еще робот-индексатор аудио- и видеофайлов, робот-зеркальщик для определения зеркал сайта, ссылочный робот, отвечающий за подсчет числа ссылок на сайте и т.д. Как видите, роботов-пауков предостаточно, но нас с вами больше всего интересует самый главный - индексирующий тексты страниц.

Теперь, когда мы уже имеем некоторое представление о работе поисковых роботов, давайте расcмотрим сам файл robots.txt. Данный файл обычно выглядит очень просто. Обязательными строками для него являются User-Agent, где прописывается тот или иной поисковый робот (или же все роботы) и Disallow, где прописывается сама команда разрешить или запретить. Давайте рассмотрим на примерах.

Пример 1. Мы разрешаем всем поисковым роботам индексировать все страницы нашего сайта. В этом случае файл robots.txt будет иметь такой вид:
    User-Agent:*
    Disallow:

Пример 2. Мы запрещаем весь сайт для индексации всеми роботами. В этом случае следует написать так
    User-Agent:*
    Disallow:/
    Знак * означает "Все роботы", наклонная черта / означает "Запрет".

Пример 3. Мы разрешаем индексацию сайта всем роботам, кроме  Googlebot:
    User-Agent: Googlebot
    Disallow:/

Пример 4. Мы разрешаем индексировать сайт только одному роботу Yandex, остальным - запрещаем:
    User-Agent: Yandex
     Disallow:

     User-Agent:*
     Disallow:/

Обратите внимание, когда прописываются две команды (пример 4), следует между ними вставлять пустую строку, лишь в этом случае команды будут исполнены правильно.

Пример 5. Мы хотим запретить определенному роботу (например Googlebot) индексировать определенный файл (например russkys.htm). В этом случае запись будет иметь следующий вид:
    User-Agent: Googlebot
    Dissalow: russkys.htm

Пример 6. Надо запретить роботу индексировать одну страницу ( например lichnyj_file.html ). Для этого пишем:
     User-Agent: Googlebot
     Disallow:/ lichnyj_file.html

Пример 7. Запрещаем к индексации всеми роботами каталоги cgi-bin и tmp :
    User-Agent:*
    Disallow:/ cgi-bin/
    Disallow:/ tmp/
    Каждый каталог пишется в отдельной строке.

Пример 8. Нам надо запретить одному роботу (возьмем к примеру Yandex ) индексировать определенный файл (например myfile.php), а остальным роботам мы разрешаем индексировать этот файл. Для этого прописываем следующие команды:
    User-Agent: Yandex
    Disallow: /myfile.php

    User-Agent:*
     Disallow:

Мы рассмотрели с вами на примерах самые часто создаваемые варианты файла robots.txt. Теперь давайте повторим еще раз самые важные моменты.

В строке User-Agent пишем для кого предназначается данная директива. Если для одного робота, то указываем его название, если для всех, то ставим звездочку.

В строке Disallow прописываем название объекта, который надо скрыть от индексации. Если таких объектов нет, оставляем строку пустой. Если надо запретить к индексации весь сайт, ставим наклонную черту.

В одной строке Disallow прописывается только один объект. Каждый последующий указывается в новой строке.
В случае, когда надо указать нескольких роботов, то название каждого из них тоже пишется в отдельной строке:

    User-Agent: msnbot
    User-Agent: Badbot
    Disallow: / myfile.php.

Строка User-Agent не должна быть пустой. Не забывайте указывать кому предназначена данная директива. А в строке Disallow нельзя ставить звездочку, этим вы запретите индексацию всего сайта. Остался еще один момент: он касается тех вебмастеров, кто составил карту сайта в формате Sitemap XML. Чтобы привлечь внимание поисковых роботов, следует в файле robots.txt прописать еще одну строку после строки Disallow. Она должна иметь следующий вид:

Sitemap:http://www.mysite.ru/sitemap.xml, где www.mysite.ru меняете на адрес своего сайта.

После добавления этой строки поисковые роботы обязательно просканируют вашу карту сайта и проиндексируют те страницы, которые ранее игнорировали.

Создать файл robots.txt можно в любом текстовом редакторе типа Блокнот.  Открываете Блокнот, в чистый лист вписываете нужные строки  для файла robots.txt. Сохраняете созданный документ как robots.txt на своем компьютере, а затем загружаете его в корневой каталог вашего сайта на сервере.

После закачки на сервер, обязательно проверьте результат. Для этого наберите в браузере такой адрес: http://www.mysite.ru/robots.txt, где www.mysite.ru меняете на адрес своего сайта.

Вот собственно и все основные премудрости, которые нужно знать начинающим вебмастерам для создания файла robots.txt. И в заключение привожу названия некоторых поисковых роботов:

    Google - googlebot
    Яндекс - Yandex
    Рамблер - StackRambler
    Yahoo - Slurp
    MSN - msnbot

У кого даже после столь подробного разъяснения возникают трудности в составлении файла robots.txt, могут воспользоваться онлайн-сервисами, позволяющими сгенерировать нужный файл в автоматическом режиме. Например, в сервисе http://sitespy.ru/sozdati-robots-txt:



   
   
   

   
   

   
   
   
   

    
   
   
WebPageMaker, Wordpress, Joomla - инструкции для
новичков по установке CMS и шаблонов к ним.
Пошаговое руководство для новичков по созданию,
раскрутке и монетизации собственного сайта.
                                               Добро пожаловать в проект "Сайт с нуля" !
Прежде всего данный проект предназначен для тех, кто пытается создать сайт самостоятельно, то есть для новичков. Соответственно, вся информация изложена доступно, все этапы построения сайта сопровождаются скриншотами, что позволит начинающим вебмастерам быстро и просто освоиться в этом нелегком вопросе.
Здесь вы можете скачать русские версии WebPageMaker, WordPress, Joomla, Adobe Muse, а также инструкции по установке WordPress и Joomla на хостинг и мануалы по установке тем (шаблонов) для этих CMS.

                               Всем желаю удачи и смелых воплощений идей на вашем сайте !
2010 - 2022 © Сайт с нуля: пошаговое руководство для новичков по созданию, раскрутке и монетизации собственного сайта. WebPageMaker, WordPress, Joomla -  русские версии.
Автор и администратор  данного проекта - SvetLana_TSV.  Копирование материалов сайта разрешено только при наличии активной ссылки на данный проект.
Проект для новичков
Главная       Скачать       Уроки        Новости        Статьи        Контакты        Карта сайта
Хочешь быть на шаг впереди и первее
остальных получать новые материалы
сайта? Тогда не забудь оставить свои
координаты: имя и электронный адрес!
??????.???????
ПОДРОБНЕЕ

Как видите, все очень просто! Справится любой новичок, это точно:)) Выбирайте любой сервис и генерируйте файл для роботов. На этом материал завершен.

Всем успехов и до новых встреч! С ув. Светлана (SvetLana_TSV)
 Создание онлайн файла robots.txt
Почти во всех сервисах, анализирующих показатели сайта, есть услуга составления карты XML и robots.txt. Ниже найдете еще два сервиса, где можно за пару минут сгенерировать нужный файл. Процесс генерации robots.txt везде одинаков и сводится к выбору нескольких параметров. В сервисе http://pr-cy.ru/robots/ это выглядит так:
Онлайн генерация файла  obots.txt
И в завершение приведу еще один сервис https://seolib.ru/tools/generate/robots/, имеющий в своем арсенале, кроме генерации robots и другие нужные для вебмастера инструменты. Процесс создания файла robots.txt здесь происходит так:
robots.txt
Не забудь заглянуть в свою почту и подтвердить подписку!