Robots.txt для wordpress

Плагин wordpress robots.txt установка и настройка

Здравствуйте !

Сегодня я покажу вам и расскажу как пользоваться файлом robots.txt. Что это такое ? файл robots.

txt позволит вам скрывать от индексации некоторые разделы или отдельные страницы вашего сайта, чтобы они не попадали в поиск Google и Yandex.

Для чего это нужно ? поисковые системы индексируют всё содержимое вашего сайта без разбора, поэтому если вы хотите скрыть какую-либо конфиденциальную информацию,

Обратите внимание

например личные данные ваших пользователей, переписка, счета и т.д., то вам нужно будет самостоятельно добавить адреса страниц с данными в файл robots.txt. Что ещё можно сделать с помощью файла robots.txt ? если у вашего сайта есть зеркала, то в их файлах robots.txt можно указать на главный сайт, чтобы индексировался только он.

Видео о файле robots.txt

Настраивать файл robots.txt мы будем с помощью плагина – DL Robots.txt. Установить данный плагин вы сможете прямо из своей админ-панели wordpress. Перейдите по вкладке: Плагины – Добавить новый, введите название плагина в форму поиска, нажмите Enter, установите и активируйте открывшийся плагин.

Чтобы попасть на страницу настроек плагина, перейдите по вкладке: DL Robots.txt. Данная вкладка появится у вас в меню админ-панели wordpress, после того как вы установите и активируете плагин.

На странице настройки файла robots.txt, вы можете прочитать и посмотреть видео о том, что такое файл robots.txt. Так же здесь можно проверить файл, нажав на вкладку – Robots.txt, если файл откроется в браузере значит всё нормально.

Если на вашем сайте нет файла robots.txt, значит сейчас мы добавим его в специальное окно, которое находится на странице настроек плагина. Итак, конечно же создавать файл robots.txt необходимо исходя из предпочтений каждого отдельного сайта, но я вам предложу готовый вид файла, который подойдёт любому сайту на wordpress. В случае чего вы сможете с лёгкостью добавить в файл свои дополнения.

Вот как выглядит файл robots.txt для моего сайта.

Сейчас я объясню вам, что всё это значит.

В общем, если не вдаваться в подробности, то я запретил поисковикам индексировать: темы и плагины wordpress, кэш сайта, то есть дубликаты страниц, feed – это rss лента с записями.

Теперь объясню зачем это делать, этим самым мы облегчаем работу поискового робота, чтобы он не индексировал лишний груз сайта, темы, плагины, кэш, фид, всё это можно не индексировать, в поиске вся эта информация просто не нужна.

Так же в файле указано – разрешить поисковикам индексировать все загруженные медиафайлы на вашем сайте. Такой файл robots.txt подойдёт любому сайту на wordpress.

Важно

Смотрите, к примеру вы хотите не индексировать ещё какую-либо отдельную страницу или запись на вашем сайте, тогда файл будет выглядеть следующим образом:

Поняли да, то есть добавляете только название страницы из её ссылки и впереди ставите флэш /, а для записи, название записи.html и впереди флэш /.

Итак, скачать готовый файл robots.txt можно – Здесь ! Только Внимание ! ! ! укажите свой адрес сайта вместо моего.

После того как вы скачаете файл, у вас будет два варианта:

  1. Загрузить файл в свою корневую директорию на хостинге. (в этом случае плагин можно не устанавливать)
  2. Скопировать содержание файла и вставить в специальное окно на странице настройки плагина DL Robots.txt

На этом у меня всё, если у вас остались вопросы по данной статье, то обязательно напишите мне в Обратную связь, либо оставьте комментарий к данной записи. Я всем отвечу ! Кстати, а вы проверяли файл robots.txt в Яндекс вебмастер ?

Удачи вам и до новых встреч ! 

Источник: https://info-effect.ru/plagin-wordpress-robots-txt-ustanovka-i-nastrojka.html

Правильный файл robots.txt для WordPress

Файл robots.txt это первоначальный, и один из главнейших инструментов для корректной индексации ваших сайтов и их контента. Отсутствие данного файла приведет к печальным последствиям которые тяжело будет исправить. От того как вы настроите robots.txt зависит что попадет в выдачу по запросам в поисковых системах. Сейчас рассмотрим правильный файл robots.txt для WordPress сайта. 

Для чего использовать robots.txt?

Перед тем как приступать к созданию и наполнениюдавайте разберем саму суть данного файла.

Ваш сайт это набор файлов и папок, некоторые из которых нужно защитить от чтения от сторонних глаз, которыми являются так же и поисковые роботы, пришедшие прочитать и запомнить наш контент, для дальнейшей выдачи в поиске.

Чем занимается поисковой робот на сайте?

Итак, к примеру ваш сайт посетил поисковой робот, что он делает в первую очередь? Во-первых пытается найти уникальную информацию, которую сможет занести в свою базу данных.

Если роботсотсутствует, а именно к нему в первую очередь обращается робот, тогда он начинает «читать» файлы находящиеся в корне сайта, что конечно же нам не очень понравиться, ведь он не только не найдет там нужную ему информацию, а и прочитает наши данные настроек, которые созданы для нашей личной цели.

Именно для этого и существует robots.txt. Он дает указания роботу куда ходить нужно, а куда заглядывать не стоит.

Создание и размещение файла на сайте WordPress

Для того что бы создать путеводитель для роботоввам потребуется обычный блокнот windows, в котором вы будете прописывать нужные команды для поисковых роботов. После этого нужно сохранить файл в формате «txt», под названием «robots». На этом создание завершено, далее в статье мы рассмотрим какие же команды должны находиться в robots.txt для WordPress.

Где размещать?

Robots.txt размещается на вашем хостинге, непосредственно в корневой папке сайта, куда мы перенесли наш сайт. Теперь поисковой робот перед тем как лазить по нашему сайту, сначала спросит разрешение куда ему можно, а куда запрещено заходить.

Важно: при размещении документа в подкаталогах, роботы не смогут найти этот файл.

Зайдя к вам на сайт робот заходитсмотрит предназначеную для него «инструкцию» и начинает его изучать. Изучив до конца он пойдет по выбранному вами пути индексации, и будет игнорировать те директории, папки и URL к которым вы запретили обращаться.

Что включает в себя роботс?

Robots.txt несет в себе информативные данные для поисковых роботов и включает в себя такие основные «команды»:

 User-agent

Указывает на имя потенциального робота посетителя. Синтаксис «User-agent: *» будет означать что данным командам должны следовать все роботы. Варианты для отдельных роботов рассматривать не будем, их очень много. По этому для примера будет только два варианта (для всех роботов и отдельно для Яндекс).

Disallow

Команда для роботов, рассказывающая о том куда ходить не стоит, запрещает чтение указанных адресов и файлов.

Allow

Команда которая рекомендует «направление» на индексирования данного адреса или файла.

 Host

Данная команда указывает роботу, какой из вариантов сайта будет нашим главным зеркалом сайта.

Sitemap

Место нахождения xml карты сайта по которой должен пробежаться посетивший нас робот, в той части за которой он пришел (контент сайта).

Правильный robots.txt для сайта на CMS WordPress

Для того что бы правильно настроить файл robots.txt специально под «движок» WordPress нужно для начала понимать что ищут роботы и что им будет интересно.

А наши паучки ищут контент нашего ресурса, и им совершенно не нужно знать о всех остальных конфигурационных данных наших сайтов.

Во первых они им приходятся не по вкусу, и от переедания таковых они могут покинуть наш сайт так и не найдя то что нам бы хотелось да еще и вынесут наши запрещенные для общего глаза данные на общее обозрение.

Говоря о требуемых размещения директорий в robots.txt для WordPress, нам нужно разобраться с главной (корневой) папкой нашего сайта, в которой мы обнаружим огромное количество стандартных файлов и папок. Роботам незачем их читать, они не найдут там то что ищут, по этому нужно запрещать индексировать по возможности весь «лишний мусор».

Подумайте сами чем может сулить нам например индексация нашего wp-config.php. Робот просто возьмет и «расскажет» всем о наших вводных данных к нашим базам данных, а это крайне плохо для нас.

Читайте также:  Как изменить размер картинки в html

Сейчас я покажу готовый вариант. Затем разберем каждую строчку в расширенном описании. Итак, правильный robots.txt для WordPress должен выглядеть так:

Совет

Disallow: /wp-
Disallow: */trackback
Disallow: /*?*
Disallow: /?s=*
Disallow: */author
Disallow: /2016
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Allow: *.js
Allow: *.css
Host: site.ru 
Sitemap: http://site.ru/sitemap.xml

Теперь посмотрим как мы смогли добиться такого короткого содержания файла robots.txt для WordPress, рассмотрим расширенную версию файла и постепенно уберем повторы:

Disallow: /wp-admin                                  #  Блокируем индексацию папки admin
Disallow: /wp-includes                               #  папки includes
Disallow: /wp-content/languages            #  папки content/languages
Disallow: /wp-content/plugins                 #  папки content/plugins
Disallow: /wp-content/cache                    #  папки content/cache
Disallow: /wp-content/themes                 #  папки content/themes
Disallow: /trackback                                   #  блокируем индекс всех возможных трекбеков
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed                                           # блокируем индексацию фидов, новостных лент всех вариантов
Disallow: /feed/
Disallow: /?feed=
Disallow: */*/feed
Disallow: */*/feed/*/
Disallow: /*?*                                               # запрет индекса всех ссылок (защита от дублей)
Disallow: /tag                                               #  каталоги находящихся в разных директориях ( метки, категории )
Disallow: /tag/*
Disallow: /?s=*
Disallow: /page/*                                        # запрещаем лишние страницы в WP, создающие дубли
Disallow: /author                                        # блокировка индексации автора
Disallow: /2015                                            # дублирование ссылок с архива  # далее блокировка всех административных файлов
Disallow: /xmlrpc.php
Disallow: /wp-activate.php
Disallow: /wp-blog-header.php
Disallow: /wp-comments-post.php
Disallow: /wp-config.php
Disallow: /wp-cron.php
Disallow: /wp-links-opml.php
Disallow: /wp-load.php
Disallow: /wp-login.php
Disallow: /wp-mail.php
Disallow: /wp-register.php
Disallow: /wp-settings.php
Disallow: /wp-signup.php
Disallow: /wp-trackback.php
Disallow: /wp-config-sample.php
Allow: /wp-content/uploads/                   # Разрешаем индексировать наши загруженные картинки
Host: site.ru                                                  # Указываем основное зеркало
Sitemap: http://site.ru/sitemap.xml      # Направляем робота на наши страницы контента

Указанный выше пример заблокирует от индексации все ненужные для поисковой оптимизации файлы и ссылки и укажет на тот материал который должен быть проиндексирован.

Ну уж очень длинный у нас вышел пример, сейчас мы его будем упрощать. Для начала возьмемся за файлы и папки с префиксом «wp-« их все можно объединить воедино.

Disallow: /wp-
Disallow: /trackback
Disallow: */trackback
Disallow: */*/trackback
Disallow: */feed
Disallow: /feed/
Disallow: /?feed=
Disallow: */*/feed
Disallow: */*/feed/*/
Disallow: /*?*
Disallow: /tag 
Disallow: /tag/*
Disallow: /?s=*
Disallow: /page/*
Disallow: /author
Disallow: /2015
Disallow: /xmlrpc.php
Allow: /wp-content/uploads/
Allow: *.js
Allow: *.css
Host: site.ru 
Sitemap: http://site.ru/sitemap.xml

Значительно уменьшили, но это не предел, пойдем немножко дальше и постараемся еще сократить, да еще и проделать необходимые внутренние настройки.

Источник: http://yrokiwp.ru/cms-wordpress/optimizaciya/robots-txt-dlya-wordpress/

Robots.txt для WordPress 2018 о котором Вы могли только мечтать! — SEO блог 8merka

Файл robots.txt играет важную роль в облегчении работы поискового бота. Нужно дружить с поисковым ботом, так как именно благодаря его посещениям на ваш сайт, поисковые системы узнают о важных страницах, ключевых фразах и релевантности.

Именно благодаря «приходу в гости» поискового робота на Ваш проект, сайт наконец может начать хорошо ранжироваться в поисковой выдаче. Поэтому сделайте это посещение приятным для поискового бота и начните с robots.txt! Я расскажу как это сделать лучше всего!

Почему так важен robots.txt?

Robots.txt это путеводная карточка для поискового бота. Благодаря директивам (командам) robots.txt Вы даете подробную информацию краулеру о том в какие места сайта Вы приглашаете его, а в какие предостерегаете от посещений.

Это удобно и Вам и поисковой системе. Важно использовать robots.txt по назначению. Существует несколько важных правил, которые необходимо соблюдать. В первую очередь язык конфигураций для robots.txt един для всех проектов и всех поисковых систем.

Во-вторых, важно обязательно указать для какого именно бота будут даны команды (у всех ботов один «язык» на котором они усваивают команды. Но разные предпочтения и взгляды на то, какие «места» Вашего сайта они хотели бы посещать).

Также в файле robots.txt всегда указываются директивы sitemap, которая дает путь к общей карте сайта, и host (которая дает адрес на главное зеркало сайта, чтобы бот не блуждал по возможной копии Вашего проекта – не главному зеркалу).

Ошибки robots.txt, которые мне встречались на практике

Не допускайте использование некорректной кодировки в Вашем файле robots.txt. Однажды я встретил вот такой robots.txt:

Не замусоривайте файл лишними конфигурациями. Нравится ли Вам читать огромные инструкции? Аналогично и боты могут невзлюбить проект со слишком большим количеством лишних инструкций. Бот может просто отказаться от директив и пойти своим путем (на практике это действительно часто происходит).

Взгляните на такие примеры robots.txt и никогда так не делайте:

Обратите внимание

Пример самого длинного robots.txt, которое мне доводилось видеть содержит 293 строчки и принадлежит сайту Forbes: https://www.forbes.com/robots.txt

Запомните, что так делать не стоит! Forbes имеет далеко не самую лучшую видимость и выигрывает за счет известности бренда и поведенческих факторов.

Где находится Robots.txt у WordPress?

Данный файл располагается в корневом каталоге сайта. Это неизменное правило для всех проектов, так как является стандартом W3C.

При использовании браузера robots.txt можно обнаружить по следующему пути:

https://site.ru/robots.txt

Такое расположение будет правильным для любого проекта и именно его нужно использовать.

Примеры элегантных robots.txt для WordPress

Я люблю математику и поэтому мне нравится делать сравнения из математического мира. Robots.txt должны быть как лучшие уравнения в математике, которые принято называть элегантными. Одно из самых известных и популярных уравнений это E=mc2. Здесь нет ничего лишнего. Посмотрите на примеры лучших robots.txt с очень авторитетных ресурсов (многие из них написаны разработчиками WP).

Пример robots.txt с официального сайта WordPress, очень короткое и емкое содержание – ничего лишнего.

Правильный Robots txt для WordPress 2018

Для каждого сайта будет свой уникальный robots.txt, однако наиболее близкий по точности общий пример robots txt для wordpress на 2018 год будет выглядеть так:

Что означают директивы правильного robots.txt для WordPress в 2018 году?

User-agent: * — это указание того, что все команды предназначены для всех ботов.

При необходимости можно указывать команды для Яндекса благодаря следующей директиве: User-agent: Yandex

Источник: https://8merka.ru/robots-txt-dlya-wordpress-2018-o-kotorom-vyi-mogli-tolko-mechtat/

Как сделать правильный robots.txt для WordPress и что это такое

robots.txt – это файл, в котором записаны правила для поисковых роботов, которые гласят о том, как индексировать весь сайт. Очевидно, что от содержания этого файла зависит успешность всей стратегии продвижения. В этой статье я вам покажу, как сделать правильный robots.txt для WordPress.

Читайте также:  Что такое поддомен

Правильный robots.txt для WordPress

Чтобы сделать правильный robots.txt для WordPress, создайте текстовый файл с расширением .txt и назовите его robots. Заполните его правилами, которые вам необходимы. Файл нужно сохранить в корневую папу сайта через FTP.

Готовый правильный robots.txt для WordPress вы можете скачать по ссылке ниже. Только поменяйте «https://example.ru» на свой сайт, а «https://example.ru/sitemap.xml» на свою карту сайта.

Перед использованием, извлеките из архива.

Теперь поясню, что означает каждое выражение. robots.txt состоит из директив, каждая директива обозначает какое-либо правило. Директивы могут иметь свои параметры. robots.txt для WordPress, который вы скачали выше, содержит следующие правила:

  • User-agent. Здесь указывается имя робота, для которого идут правила ниже. Правила для указанного робота заканчиваются перед следующим User-agent. Если директива имеет значение «*» (звёздочка), то эти правила относятся ко всем роботам. Каждый робот поисковой системы имеет своё имя, у многих поисковых систем есть по несколько роботов с разными именами. Список популярных User-agent можете скачать по ссылке ниже.

Перед использованием, извлеките из архива.

  • Disallow. Эта директива запрещает индексирование частей сайта, путь к которым в ней указан. Так, «Disallow: /wp-admin» — означает, что «example.ru/wp-admin» в поиске участвовать не будет. Правило «Disallow: */trackback» означает, что «example.ru/любое_значение/trackback» не будет индексироваться. Установка символа «*» означает любое значение. Аналогично с «Disallow: /*?*» — это правило показывает, что не будут индексироваться все страницы, имеющие в адресе знак «?», независимо от того, что написано до этого знака и после.
  • Allow. Правильный robots.txt для WordPress обычно не содержит этой директивы, но она может иногда пригодиться. Это то же самое, что и «Disallow», только наоборот, то есть, это разрешающее правило. Так, например, если вы заблокировали «example.ru/wp-admin», но вам нужно проиндексировать какою-то одну страницу в каталоге «wp-admin», например «page.php», то необходимо создать такое правило «Allow: wp-admin/page.php». Тогда страница будет индексировать, несмотря на запрет.

Правильный robots.txt для WordPress в Яндексе

Правильный robots.txt для WordPress должен иметь отдельную часть для Яндекса, как в примере, который можно скачать выше. Для этого поисковика обязательно необходимо указать следующие директивы:

  • Host. Это адрес главного зеркала сайта, либо с WWW, либо без WWW. Главное зеркало также должно быть настроено в файле .htaccess. Подробнее тут.
  • Sitemap. Это адрес к карте сайта XML формата (для роботов). Необходимо указать полный путь до карты, например «https://example.ru/sitemap.xml».

Роботы Яндекса также понимают правило «Crawl-delay». Оно указывает, с какой периодичность робот может сканировать сайт. Указывается в секундах, например, «Crawl-delay: 2.5» указывает, что робот может посещать страницу не чаще, чем один раз в 2,5 секунды. Эта директива может быть полезна, если сканирующий робот оказывает слишком большую нагрузку на сайт.

Если хотите, то можно узнать, как выглядит файл robots.txt на любом сайте. Для этого напишите в браузере адрес «https://example.ru/robots.txt» (вместо «example.ru» целевой сайт).

Источник: https://wp-system.ru/prodvizhenie-sayta/optimizatsiya-sayta/pravilnyiy-robots-txt-dlya-wordpress/

Правильный файл robots.txt для WordPress

robots.txt является файлом, специально предназначенным для поисковых систем. В нем указывается, какие части сайта нужно выдавать в поиске, а какие нет. Важность robots.

txt неоценима, так как он позволяет нацелить поисковую систему на попадание нужного контента сайта в выдаче результатов. Например, при запросе в Гугле «купить стиральную машину» конечному покупателю незачем попадать на страницу администрирования магазина.

В этом случае несомненно важно будет пользователю перейти сразу в раздел “Стиральные машины”.

Как добавить robots.txt на сайт?

Если Вы используете плагин Clearfy — просто выставьте галочку напротив Создать правильный robots.txt в разделе SEO на странице настроек плагина. Ничего вставлять из этой статьи Вам не нужно, все реализовано в плагине.

Добавить файл можно несколькими способами. Наиболее удобный для пользователя — по FTP.

Для этого необходимо создать сам файл robots.txt. Затем, воспользовавшись одним из FTP-клиентов (например, FileZilla), загрузить robots.txt в корневую папку сайта (рядом с файлами wp-config.php, wp-settings.

php) Следует отметить, что перед загрузкой файла нужно узнать у Вашей хостинг-компании IP-адрес, за которым закреплен Ваш сайт, имя FTP-пользователя и пароль.

После успешной загрузки robots.txt, перейдя по адресу http://sitename.com/robots.txt, Вы сможете посмотреть актуальное состояние файла.

Важным является тот факт, что, изменив файл robots.txt, вы не сразу заметите результаты. Для этого может понадобится от одного до нескольких месяцев (это зависит от поисковой системы). Правильным вариантом является составление корректного файла уже на стадии разработки сайта.

Пример корректного robots.txt

User-agent: * Disallow: /wp-admin Disallow: /wp-includes Disallow: /wp-content/plugins Disallow: /wp-content/cache Disallow: /wp-json/ Disallow: /xmlrpc.php Disallow: /readme.html Disallow: /*? Disallow: /?s= Allow: /*.css Allow: /*.js Host: sitename.com

** Вместо sitename.com следует указать название Вашего сайта

Плагины для robots.txt

Для облегчения создания robots.txt в WordPress существуют специальные плагины. Некоторые из них: WordPress Robots.txt File, DL Robots.txt, Yoast SEO.

Рассмотрим создание файла robots.txt на примере одного из самых мощных SEO-плагинов Yoast SEO.

После установки и активации плагина необходимо в админ-панели выбрать пункт SEO->Консоль. На вкладке Возможности перейти в раздел Дополнительные настройки страницы, передвинуть ползунок в состояние Включено и сохранить изменения.

Важно

В админ-панели появятся несколько дополнительных пунктов. Далее необходимо перейти по пункту SEO->Инструменты, где выбрать Редактор файлов. Далее на странице редактора необходимо нажать на кнопку Создать файл robots.

txt, в редакторе вставить вышеописанный код и нажать Сохранить изменения в robots.txt.

Задай их экспертам в нашем телеграм канале «WordPress сообщество» Если Вам понравилась статья — поделитесь с друзьями

Источник: https://WPSchool.ru/robots-txt-wordpress/

Правильный файл Robots.txt для WordPress — настройки без плагина

  Создаём роботс.тхт для WP правильно

Здесь уже есть довольно много статей  по теме настройки файла Robots.txt, однако люди иногда спрашивают — как настроить его конкретно для WordPress-сайтов? Это, в общем-то, и не удивительно, если учесть особую популярность данной CMS.

Кажется, многие владельцы сайтов на WP просто копируют содержимое этого файла друг у друга (или вообще «перепоручают» его создание разным плагинам). Так что сейчас опишу процесс создания Robots.txt конкретно для вордпресс и расскажу, зачем и почему прописывать именно такие настройки.

Делаем правильный Robots.txt для WordPress

Здесь я обычно выделяю два варианта создания этого файла:

  1. для продвижения по трафику (т.е. когда сайту нужны позиции в ПС);
  2. для продвижения по показателям (т.е. когда нужно нарастить тИЦ и PR).

В первом случае нужно выкинуть из индекса (лучше сказать — не дать попасть в индекс) дубли страниц. Да и вообще всё лишнее.

Во втором — оставить как можно больше страниц (чтоб было, с чего ссылки продавать), но лишнее также выкинуть.

Первый вариант всё же более популярен, с него и начну.

Настройка файла Robots.txt для WordPress для трафикового продвижения

Для большего понимания рекомендую сразу прочитать это:

Сам вариант такой:

Почему всё так?

Этот вариант предполагает, что настроены ЧПУ URL и установлен какой-нибудь WP-плагин для транслита вашего родного языка в латиницу. Так что все динамические URL (содержащие знак вопроса) следует сразу запретить, т.к. лишние параметры может приписать какой-нибудь посетитель, страница ответа на комментарии или тот же Feedburner. Поэтому — Disallow: *?.

Читайте также:  Сколько стоит 1 биткоин на сегодня

По той же причине — закрываем страницы с расширением «.php» — Disallow: *.php$

Следует скрыть страницу с результатами поиска (если она имеется), например Disallow: /search/. Но можно просто добавить Гугл-поиск для сайта, не создавая новых страниц — и необходимость в этой директиве для Robots.txt отпадёт.

Также скрываем страницы меток (Disallow: /tag/) и фидов (Disallow: /feed/) — чтобы не предлагать поисковикам дубли.

Disallow: /page/ — в WordPress есть странная ошибка: если в качестве главной страницы задать статическую, то создадутся дубли главной, вроде таких http://site.ru/page/2/. Их-то и прячем.

Скрываем attachment’ы — любые страницы вложений. Например, для каждой картинки WordPress формирует отдельную страницу, которая только эту самую картинку и содержит. Чтобы этот «мусор» не отдавать поисковикам — пишем Disallow: */attachment/.

Традиционно указываем главное зеркало сайта — Host: site.ru. Можно не указывать, если корректно настроили 301-й редирект с www.site.ru на site.ru (или наоборот).

Ну и в конце — пропишем адрес XML-карты сайта (если она есть, конечно) — Sitemap: http://site.ru/sitemap.xml. Если нет — то её теперь можно создать с помощью All In One Seo Pack — читайте, как сделать XML-карту для WP.

Пару слов про скрытие в файле Robots.txt т.н. трекбэков и категорий:

Совет

Трекбэки (trackbacks) при создании ЧПУ и запрете страниц, оканчивающихся на .php, в индекс практически не залетают (во всяком случае, мною для WP это ни разу замечено не было). Но если хочется запретить, то можно в Robots.txt добавить Disallow: /*/trackback

Иногда запрещают индексацию всех категорий — Disallow: /category/ — но обычно это не имеет смысла, т.к. категории могут выдаваться в поиске по ряду запросов и помогают в распределении веса по страницам.

Однако, если есть вложенность категорий, то контент основных категорий дублируется с контентом подкатегорий, так что можно запретить основные категории Например, так:

Вообще, с настройками этого файла можно много поэкспериментировать. Тем более, есть хорошая вещь — инструмент анализа robots.txt от Яндекса.

Кроме того, следует запретить все нежелательные для индексации документы форматов .txt, .doc, .pdf и т.д., на которые есть ссылки со страниц вашего сайта. Записать можно так: Disallow: *.txt$ — закроем все .txt-файлы.

Можно ещё прописать Disallow: /wp-admin/. Но эта запись будет лишней, если спрятать стандартный адрес входа в админку (что неплохо бы сделать). Смотрите — как легко защитить админку WordPress.

Если короче, то для «среднестатистического» сайта на WordPress правильный Robots.txt будет такой:

Можно просто скопировать и не думать..

Настройка файла Robots.txt для WordPress при продаже ссылок

Если основная цель — продавать ссылки с сайта в автоматическом режиме, то здесь главное — загнать и удержать в индексе как можно больше страниц.

Такой вариант:

Почему так?

Здесь «отдаём» поисковому роботу метки — пусть сам решает, что из них выкинуть, а что оставить в индексе. В любом случае, количество страниц в индексе увеличится (что и требуется).

Естественно, полный «мусор» держаться там долго не будет, поэтому feed’ы, различные динамические страницы и страницы-attachment’ы лучше исключить. А в остальном — всё то же (хотя с attachment’ами ещё можно поэкспериментировать ).

Также по теме статьи можно почитать:

Как итог

Таким образом, получается вполне красивый и лаконичный файл Robots.txt для WordPress. Если есть вопросы по написанному выше — спрашивайте в комментариях.

Да, кстати, если вы указываете две XML-карты (http://site.ru/sitemap.xml + http://site.ru/sitemap.xml.gz) — также расскажите, зачем вы это делаете

Источник: http://web-ru.net/wordpress/pravilnyj-robots-txt-dlya-wordpress-nastrojki-bez-plagina.html

Robots txt для вашего WordPress сайта

Содержание статьи:
1. Для чего сайту нужен файл robots.txt
2. Пример написания файла robots txt для WordPress
3. Когда ждать эффект от файла?

Здравствуйте, дорогие читатели! С вами проект «Анатомия Бизнеса» и вебмастер Александр. Мы продолжаем цикл статей мануала «Как создать сайт на WordPress и заработать на нем», и сегодня мы поговорим о том, как создать файл robots.txt для WordPress и зачем нужен данный файл.

В прошлых 16-и уроках мы рассмотрели огромное количество материала. Наш сайт практически готов для того, чтобы начать заполнять его интересным контентом и проводить SEO-оптимизацию.

Итак, давайте перейдем к делу!

Для чего сайту нужен файл robots.txt?

Основную ценность на нашем сайте будет представляет именно контент, но помимо него на сайте есть целая куча технических разделов или страниц, которые для поискового робота не является чем-то ценным.

К таким разделам можно отнести: — админ. панель — поиск — возможно, Вы захотите закрыть от индексации комментарии

— или какие-то страницы-дубли, имеющие в своих урлах одни и те же символы

В общем, robots.txt предназначен для того, чтобы запретить поисковому роботу индексацию тех или иных страниц.
В свое время в понимания того, как работает robots txt, мне очень помогла эта картинка:

Обратите внимание

Авторство на себя не беру, взял на сайте, который написан в левом нижнем углу изображения

Как мы можем видеть, первым делом, когда поисковый робот заходит на сайт, он ищет именно этот Файл! После его анализа он понимает в какие директории ему нужно заходить, а в какие нет.

Многие начинающие веб мастера пренебрегают данным файлом, а зря! Т. к. от того насколько «чистой» будет индексация вашего сайта, зависит его позиции в поисковике.

Пример написания файла robots.txt для WordPress

Давайте теперь разбираться, как писать данный файл. Тут нет ничего сложного, для его написания нам достаточно открыть обычный текстовый редактор «блокнот» или можно воспользоваться профессиональным редактором типа notepad+.
Вводим в редактор следующие данные:

А теперь давайте разбираться со всем этим.

Первое, на что нужно обратить внимание, так это на то, что файл разбит на два больших блока. И в начале каждого блока стоит директория «User-agent», которая указывает для какого робота сделан данный блок.

У нас первый блок сделан для роботов Yandex, о чем свидетельствует данная строка: «User-agent: Yandex»

Второй блок говорит о том, что он для всех остальных роботов. На это указывает звездочка «User-agent: *».

Директория «Disallow» устанавливает, какие именно разделы запрещены к индексации.

Теперь разберем по разделам:

/wp-admin — запрет на индексацию админ. панели

/wp-includes — запрет на индексацию системных папок движка WordPress

/wp-comments — запрет на индексацию комментариев

/wp-content/plugins — запрет на индексацию папки с плагинами для WordPress

/wp-content/themes — запрет на индексацию папки с темами для WordPress

/wp-login.php — запрет на индекс формы входа на сайт

/wp-register.php — закрываем от робота форму регистрации

*/feed — запрет на индекс RSS-фида блога

/cgi-bin — запрет на индекс каталога скриптов на сервере

*?s= — запрет на индексацию всех URL, которые содержат ?s=

Далее указываем основное зеркало сайта строкой:
«Host: site.ru»
Тут должен быть адрес Вашего сайта.

И в самом конце robots.txt показываем роботу, где находится файл sitemap.xml

Sitemap: http://site.ru/sitemap.xml

После того как файл готов, сохраняем его в корневой директории сайта.

Как закрыть какие-то рубрики от индексации?

Например, Вы не хотите показывать какую-то рубрику на Вашем сайте для поисковых роботов. Причины на это могут быть совершенно разные. Например, Вы хотите, чтобы Ваш личный дневник читали только постоянные посетители сайта.

Допустим, рубрика называется «мой дневник»

Важно

Первое, что нам нужно сделать, — это узнать URL данной рубрики. Скорее всего, он будет /moy-dnevnik.

Для того чтобы закрыть данную рубрику, нам достаточно добавить в нее следующую строку: Disallow: /moy-dnevnik

Robots.txt — когда ждать эффект?

Могу сказать из личной практики, что не стоит ожидать, что уже при следующем апдейте все закрытые Вами рубрики уйдут из индекса. Иногда этот процесс может занимать до двух месяцев. Просто запаситесь терпением.

Источник: http://biz-anatomy.ru/vse-stati/sajtostroenie/robots-txt-dlya-vashego-wordpress-sajta

Ссылка на основную публикацию