Robots.txt — файл для правильной индексации сайта.

Robots.txt - файл для правильной индексации сайта.Скажите, а вы что-то знаете про файл robots.txt, знаете, зачем он нужен, как создается и что вообще он собой представляет? Нет! Блин, ребята, тогда это реально очень плохо, получается, что большой посещаемости на своем сайте вам не видать как собственных ушей.

Думаете, я шучу? Совсем нет, если у вас не будет правильного файла robots.txt или он будет плохо составлен (настроен), тогда вам будет достаточно тяжело вывести свой ресурс на достойную посещаемость.

Причем не имеет значения, будете ли вы писать супер качественные и объемные статьи, закупаться дорогими ссылками или проводить какие-либо другие меры по раскрутке сайта, все равно это будет пустой тратой времени и денег, если у вас не будет правильного файла robots. Вот такие вот реалии жизни.

Так что дорогие друзья, обязательно дочитайте данную статью до конца, и вы подробно узнаете о том, как создается файл robots.txt, как он может помочь вам в продвижении интернет проекта, основные ошибки при составлении данного файла и т.д.

Файл robots.txt — зачем он нужен и что собой представляет.

Как уже было сказано выше файл robots.txt имеет очень большую важность для интернет проекта. Так как именно благодаря этому файлу вы можете управлять индексацией сайта. То есть вы можете указывать поисковому роботу, что именно ему нужно индексировать, а что не рекомендуется.

Ведь мы хорошо понимаем, что для того чтобы страницы нашего сайта занимали какие-то позиции в поисковой выдаче необходимо, чтобы их поисковый робот проиндексировал. То есть, грубо говоря, необходимо чтобы робот зашел на наш сайт и все попавшиеся ему на пути страницы скопировал себе в базу данных. Но здесь проблема в том, что любой сайт помимо страниц с контентом, так же содержит страницы, отвечающие за его работу, то есть это страницы с различными скриптами и функциями. К тому же большинство движков сайтов грешат так называемым дублированием контента. Это когда по нескольким разным адресам страниц доступен один и то же контент, что очень и очень не нравится поисковым системам, так как им приходится тратить свои ресурсы на то чтобы хранить в своей базе одинаковую информацию.

И естественно такого рода файлы и страницы для поискового робота не интересны, и они ему просто напросто не нужны в индексе. И для того чтобы эти файлы и страницы не попадали в базу поисковых систем был придуман специальный файл — robots.txt в котором прописываются команды для поискового робота указывающие, на то что ему нужно индексировать, а что лучше не трогать.

Создается файл Robots.txt самым обычным образом, берется любой текстовый редактор (можно взять даже стандартный блокнот) создается новый документ с расширением .txt и загружается на хостинг в корневую директорию сайта. Далее в этот файл записываются специальные команды для поисковых роботов.

Если вы хотите посмотреть, как это выглядит, просто введите в адресную строку адрес: http://seodu.ru/robots.txt и вы увидите содержимое файла robots.txt данного сайта.

И когда такой файл будет присутствовать в корневой директории сайта поисковой робот, перед тем как начать индексировать интернет проект будет заходить в данный файл и «смотреть», что ему разрешается индексировать, а что нет. Вот таким вот образом все происходит.

А теперь давайте более подробно рассмотрим, как формируется содержимое данного файла (команды для запрета индексации).

Директивы disallow, user-agent и host.

Когда вы откроете файл robots.txt на первый взгляд он может показаться достаточно сложным и непонятным. Но на самом деле это не так, все намного проще, чем кажется. Чтобы составить такой файл необходимо будет запомнить несколько простых директив, которые указывают поисковым системам, что необходимо делать с тем или иным файлом сайта. Рассмотрим данные директивы.

Директива User-Agent.

Файл robots.txt состоит из условных блоков, каждый из которых начинается с директивы User-Agent. Данная директива указывает, для какой поисковой системы предназначены те или иные инструкции, записывается это следующим образом:

User-agent: Yandex

То есть, как видите, сначала пишется директива User-agent, после чего через двоеточие указывается название поискового робота, для которого предназначена инструкция (в нашем случаи это Yandex). Не сложно догадаться, что такого рода запись позволяет нам указать запрет на индексацию сайта для какой-то конкретной поисковой системы.

Ниже представлены названия самых популярных роботов, которых чаще всего пишут в директиве User-agent:

Мэйл.ру http://mail.ru Mail.Ru;

Яндекс http://www.ya.ru Yandex;

Google http://www.google.com Googlebot;

Рамблер http://www.rambler.ru StackRambler;

Yahoo http://www.yahoo.com Slurp (или Yahoo Slurp).

Так же имеется возможность указать инструкцию для всех поисковых систем, используя в качестве имени поискового робота символ «*», выглядит это так: User-agent: *

Этим мы говорим, что все описанные инструкции предназначены для абсолютно всех поисковых роботов. То есть вы должны понять что команды для поисковых систем начинаются именно с указания того поискового робота, для которого предназначены данные указания.

Далее после того, как мы указали для какой поисковой системы предназначены команды мы начинаем собственно говоря указывать данные команды. Самая основная из них — Disallow. Записывается все следующим образом, если мы пишем инструкцию:

User-agent: *

Disallow:

Мы тем самым говорим, что для всех поисковых систем (директива User-agent: *) разрешается индексация всего сайта (директива Disallow: ). Причем здесь имеется ввиду не одна команда, а содержание файла robots.txt. Если содержание файла robots.txt такое:

User-agent: *

Disallow: /

Мы тем самым полностью запрещаем индексацию сайта.

Чтобы запретить индексацию какой-то конкретной папки нам необходимо записать следующую команду:

Disallow: /Download/

Этой записью мы говорим, что необходимо запретить индексацию папки под названием Download.

К примеру, такая вот запись:

Disallow: /Download

Говорит о том, что мы запрещаем индексацию папки Download, а также файлы, которые имеют имя Download (Download.php, Download.txt и т.д).

Так же достаточно часто можно встретить запись, где частью пути к директории или файлу является символ «*»:

Disallow: /*/search/

Данный символ указывает на любую последовательность символов в названии файла или директории.

В принципе, зная вышеописанные команды можно уже достаточно гибко управлять индексацией своего сайта.

Директивы Host и Sitemap.

Помимо тех команд для поисковых систем, которые указывают параметры индексации сайта, в файле robots.txt присутствует также еще две немало важные директивы — Host и Sitemap.

Используя директиву Host, мы имеем возможность указать основное зеркало сайта. Ведь дело в том, что любой сайт может быть доступен как минимум по двум адресам — это с www и без них, к примеру так:

http://seodu.ru

http://www.seodu.ru

Но для поисковых систем это два разных сайта и необходимо указывать именно тот адрес, который является подлинным для вашего ресурса, то есть именно тот адрес, который вы регистрировали. Поэтому данную директиву необходимо применять в обязательно порядке. Выглядит это таким вот образом:

Host: seodu.ru

То есть для директивы Host в качестве параметра указывается основной адрес сайта.

Что касается директивы Sitemap, то здесь вообще все просто. Данная директива указывает поисковому роботу, где лежит файл Sitemap.xml, который как вы знаете, является достаточно важным файлом для сайта, и играет роль путеводителя для поискового робота.

Директива Sitemap указывается следующим образом:

Sitemap: http://seodu.ru/sitemap.xml

Как видите, сначала пишется название детективы и далее указывается адрес карты сайта. Как по мне все достаточно просто.

Итак, мы рассмотрели, из чего состоит файл robots.txt, теперь я думаю, у вас есть какое-то представление о данном файле и как с помощью него запретить индексировать определенные папки.

Естественно вы должны понимать, что если у вас на сайте появится какая-то новая директория, которая не должна индексироваться поисковыми машинами, то вы обязательно должны запретить ее в robots.txt, тем более вы уже знаете, как это делается. Ну что ж это в принципе все, что я хотел вам сегодня рассказать, надеюсь, эта статья была для вас интересной и полезной.

Счетчик