Самостоятельная раскрутка сайта uCoz
Главная » Раскрутка сайта uCoz » Подготовка к продвижению


Robots.txt для uCoz и его правильная настройка


ROBOTS.TXT

В этой статье вы узнаете, что такое robots.txt, где он находится и как его редактировать. Что нового можно в него добавить или удалить.


Файл robots.txt служит для указания инструкций поисковым роботам по индексированию сайта. Иначе говоря, с помощью этого файла вы можете указать роботу, какие страницы нужны в поисковой выдаче, а какие нет.



Вы, наверное, сейчас подумали – «Зачем закрывать какие-то страницы от индексирования? Пусть весь сайт будет в поиске!» - это самое большое заблуждение начинающих вебмастеров.

На каждом сайте есть страницы, которые несут или чисто служебный характер (страница регистрации пользователей, страница входа, панель управления и прочие) или страницы с дублирующим контентом (информеры, страница результатов поиска). Эти страницы не оптимизируются, под них не составляется семантическое ядро, они не содержат ценного контента и только затрудняют поисковому роботу правильно индексировать ваш сайт.




Robots.txt для сайта uCoz

На каждом сайте, созданном в системе uCoz, уже есть правильно сконфигурированный файл robots.txt, и если вы не понимаете его важность, то лучше не редактируйте его и оставьте таким, каким он есть, иначе вы рискуете испортить сайт!

Посмотреть свой robots.txt вы можете по адресу:



http://мой-сайт.ucoz.ru/robots.txt

А редактировать его можно прямо через файловый менеджер (файл robots.txt лежит в корне сайта).

Стандартный robots.txt выглядит так (обновлен 29.03.2015):

User-agent: *
Allow: /*?page
Allow: /*?ref=
Disallow: /*?
Disallow: /stat/
Disallow: /index/1
Disallow: /index/3
Disallow: /register
Disallow: /index/5
Disallow: /index/7
Disallow: /index/8
Disallow: /index/9
Disallow: /index/sub/
Disallow: /panel/
Disallow: /admin/
Disallow: /informer/
Disallow: /secure/
Disallow: /poll/
Disallow: /search/
Disallow: /abnl/
Disallow: /*_escaped_fragment_=
Disallow: /*-*-*-*-987$
Disallow: /shop/checkout/
Disallow: /shop/user/
Disallow: /*0-*-0-17$
Disallow: /*0-0-
Sitemap: http://site.ru/sitemap.xml  
Sitemap: http://site.ru/sitemap-forum.xml  
Sitemap: http://site.ru/sitemap-shop.xml

Внимание! Для молодых сайтов (до 1 месяца) накладывается запрет на индексирование сайта – называется этот период карантин. Подробнее о карантине, его сроках и условиях досрочного снятия я написал здесь. В период карантина даже не мечтайте о возможности редактирования файла robots.txt, потому что это физически невозможно и абсолютно бессмысленно…

Файл robots.txt сайта uCoz, который находится на карантине, выглядит так:

User-agent: *  
Disallow: /


Директивы robots.txt

Давайте попробуем разобраться, что означают строки (директивы), записанные в этот файл.

1. User-agent: - означает, что данная инструкция, предназначенная для кого-то…

Если после двоеточия стоит * - значит для ВСЕХ поисковых роботов.
Если стоит Googlebot – значит, инструкция предназначена для поискового бота Google.
Если стоит Yandex – значит, инструкция предназначена для поискового бота Яндекса.
Если стоит Yahoo! Slurp - значит, инструкция предназначена для поискового бота Yahoo.
И так далее…

2. Disallow: - означает, что поисковому роботу запрещено индексировать какую-то страницу…

Если после двоеточия стоит / - значит, запрещено индексировать ВСЕ страницы сайта (ваш сайт на карантине).
Если стоит /load – значит, запрещено индексировать только главную страницу модуля «Каталог файлов».
Если стоит /load/ - значит, запрещено индексировать весь раздел «Каталог файлов» (включая категории и материалы).
Если стоит /load/kategoriya - значит, запрещено индексировать страницу указанной категории.
Если стоит /load/kategoriya/ - значит, запрещено индексировать страницу указанной категории и все материалы, находящиеся в ней.

3. Allow: - означает противоположное значение директиве Disallow.

Если после двоеточия стоит /load – значит, запрещено индексировать ВЕСЬ сайт, кроме главной страницы модуля «Каталог файлов».
Если стоит /load/ - значит, запрещено индексировать ВЕСЬ сайт кроме всего раздела «Каталог файлов» (включая категории и материалы).

4. Sitemap: - означает, что поисковому роботу следует ознакомиться c XML картой сайта…

Тут указываются с каждой новой строчки отдельно имя директивы и ссылка на карту сайта, карту форума и карту интернет-магазина (если модуль активирован).


Что можно добавить или удалить в robots.txt для uCoz?

Удалять какие-либо строки из robots.txt я бы не рекомендовал, за исключением ссылок на XML карты модулей, которые вы не используете (чтобы не вводить робота в заблуждение отсутствием файлов), а вот добавить кое-что можно и даже нужно!

1. Если вы используете бесплатный домен uCoz (имя-сайта.ucoz.ru), то этого делать не нужно, а если вы купили и прикрепили свой домен, то вам необходимо указать его основной приоритетный адрес (зеркало сайта) путем добавления следующей сроки:

Host: www.ваш-сайт.ru (http:// - ставить не обязательно)

Тут обратите внимание, что сайты www и без www – это 2 разных сайта, и если в robots.txt вы укажете основной домен с www, то в дальнейшей раскрутке вам придется везде указывать его имя в таком же формате. Я никогда не ставлю приоритетным хост с www, так как без него проще и короче.

2. В uCoz как и в любом другом движке встречаются дубли страниц. Иначе говоря, одна и та же страница доступная по 2-ум разным ссылкам. Называются они SSID дубли и ссылка выглядит так:

http://мой-сайт.ru/?ssid=4984834732fsd8202034564imdfndffy243ndf8

Чтобы закрыть эти дубли необходимо добавить к списку основных директив следующую запись:

Disallow: /?ssid=

Возможно, что на вашем сайте нет дублей или разработчики системы уже устранили этот недочет (я просто не в курсе пока…), но в любом случае, эта строчка не помешает.

3. Если на вашем сайте есть гостевая книга, то ее тоже можно закрыть от индексации, так как смысла от нее нет и ценности тоже…

Disallow: /gb

4. Закройте вручную все страницы, которые несут чисто служебный характер и не относятся к тематическому контенту сайта.

Например, у меня есть страница, на которой я опубликовал информацию для рекламодателей (описание аудитории, рекламные места, цены и прочее). Эта страница не нужна в результатах поиска, так как рекламодатель проявивший желание разместить рекламу на моем сайте и так найдет эту страницу, или свяжется со мной через форму обратной связи. Так как данная страница была создана в «Редакторе страниц», ее вид будет следующим:

http://мой-сайт.ru/index/reklama_na_saite

Чтобы закрыть страницу от индексации, в robots.txt я добавлю следующую строчку:

Disallow: /index/reklama_na_saite


Правильный robots.txt для uCoz

Самый правильный robots.txt для uCoz – «родной», но если учесть все мои рекомендации, опубликованные выше (для сайта без форума и интернет-магазина с доменом второго уровня), то robots.txt будет выглядеть следующим образом:

ROBOTS.TXT РАСШИФРОВКА
User-agent: * Всем поисковым ботам
Disallow: /a/ Не индексировать страницу обработки ошибок страниц
Disallow: /stat/ Не индексировать статистику
Disallow: /index/1 Не индексировать служебную страницу
Disallow: /index/2 Не индексировать служебную страницу
Disallow: /index/3 Не индексировать служебную страницу
Disallow: /index/5 Не индексировать служебную страницу
Disallow: /index/7 Не индексировать каталог аватаров
Disallow: /index/8 Не индексировать профиль пользователя
Disallow: /index/9 Не индексировать страницу "Доступ запрещен"
Disallow: /panel/ Не индексировать админ-панель
Disallow: /admin/ Не индексировать страницу входа в админ-панель
Disallow: /secure/ Не индексировать служебную страницу
Disallow: /informer/ Не индексировать список информеров
Disallow: /mchat Не индексировать миничат
Disallow: /search Не индексировать страницу в результатами поиска по сайту
Disallow: /?ssid= Не индексировать дубли страниц
Disallow: /gb Не индексировать гостевую книгу
Disallow: /index/reklama_na_saite Не индексировать страницу «Реклама на сайте»
Sitemap: http://site.ru/sitemap.xml Адрес карты сайта
Host: site.ru Основное зеркало сайта


В этой статье вы узнали о возможностях управления индексацией сайта с помощью файла robots.txt, который находится в корне вашего сайта. Файл простой по своей структуре, но довольно опасен для самостоятельного изменения, так как ошибки в robots.txt могут привести к серьезным последствиям в плане продвижения. Напоминаю, что только что созданные сайты в uCoz находятся на карантине в течении 30-ти дней и редактирование файла robots.txt просто невозможно.


Выше я перечислил только стандартные директивы, но есть еще и нестандартные о которых вы можете почитать на википедии. Для каждого поискового робота вы можете задать свою инструкцию индексирования. Я встречал такие роботсы, но почему-то не вижу в них смысла… Достаточно создать одну одинаковую инструкцию для всех роботов, и тогда у вас не будет возникать вопросов типа «Почему в Яндекс так, а в Google этак?»

Поделитесь записью в социальных сервисах!





    Аватар пользователя
    0 Хороший комментарий Плохой комментарий
    1. Linuxsoid (28.03.2015, 21:03)
    Новый обновленный робот для юкоз - http://blog.ucoz.ru/inf/robots_update.htm
    У пользователя нет аватара
    2. admin4296 (09.11.2015, 09:28)
    Что-то вы намудрили с описанием директив роботса.
    Их аргументом является определённый шаблон (регулярное выражение), сравнивающий адрес, начиная от корня адреса.

    Disallow: /path запрещает не только страницу /path, но и /path/all, так как по умолчанию к любой директиве в конец добавляется спецсимвол *. Чтобы это отменить, используйте $. Т.е. Disallow: /path$ запрещает /path, но не запрещает /path/all.

    Disallow: /path/ запрещает весь каталог /path, кроме его главной, если она без слэша, и вместе с главной, если она со слэшэм.

    По умолчанию всё открыто для индексирования. Чтобы запретить часть url, используют Disallow. Чтобы разрешить часть того, что запрещено, используют Allow. Глупо предполагать, что Allow: /load запрещает к индексации весь сайт, кроме главной каталога файлов. Allow, по своей сути, ничего запретить не может (единственная тонкость - пустая директива).

    Плюс у вас ничего не сказано о недопустимости пустых переводов строк между User-agent, Disallow и Allow.

    Пример.

    User-agent: * # Привет всем
    Disallow: /img # Запрет индексации картинок
    Allow: /img/banners # Но не баннеров, конечно же smile
    Disallow: /*? # Запрет страниц с любыми параметрами
    Allow: /?*page # Кроме страниц пагинации
    Disallow: /*.html$ # Запрещает только пути с html
    Disallow: /*.htm$ # Запрещает только пути с htm
    Disallow: /*.htm # Запрещает пути и с htm, и с html
    # 3 предыдущих правила вместе не имеют смысла,
    # запись избыточна, но рабочая, просто для сравнения.

    # - это комментарии, предусмотрены в формате.
    Справка - https://yandex.ru/support/webmaster/controlling-robot/robots-txt.xml

    А вообще, стыдно должно быть: robots.txt - это инструмент именно сеошников, не программистов, не дизайнеров, не авторов. Так что, вы должны бы знать всё чётко.

Добавлять комментарии могут только зарегистрированные пользователи.
[ Регистрация | Быстрый вход ]







Опрос
Ваше отношение к uCoz?

Всего ответов: 749
Ваш профиль
Вся информация на этом сайте предоставляется бесплатно и без регистрации, но для того чтобы принимать участие в обсуждениях и комментариях необходимо зайти на сайт под своим именем (uID) или зарегистрироваться.
Новые пользователи