Как сделать правильный файл robots.txt для Вордпресс

Наряду с созданием правильного файла sitemap.xml еще одним очень важным шагом для улучшения индексации вашего интернет-ресурса поисковыми системами является создание правильного файла robots.txt, о чем и пойдет речь в данной статье.

Что такое robots.txt?

Файл robots.txt используется для управления индексированием ресурса роботами поисковых систем. Он должен размещаться в корне сайта и представляет собой файл ограничения доступа поисковым роботам к содержимому на http-сервере.

В файле robots.txt может содержаться следующая информация:

  • области сайта (страницы, записи и т.д.), которые можно индексировать и которые индексировать нельзя;
  • размещение файла sitemap.xml;
  • области сайта, которые нужно индексировать в первую очередь;
  • главный домен сайта (с www или без).

С помощью правильно составленного файла robots.txt можно избежать дублирования контента (необходимо запретить индексацию тегов или рубрик), тогда вероятность того, что одна и та же статья может быть доступна по нескольким URL и, к примеру, дважды попасть в индекс поисковой системы сведется к нулю. Дублирование контента воспринимается поисковыми системами крайне негативно.

Также иногда возникает необходимости запретить индексирование какого-либо фрагмента интернет-ресурса, в чем опять же на помощь приходит файл robots.txt.

Как создать правильный robots.txt для WordPress?

На первом этапе необходимо создать в корневом каталоге вашего сайта на хостинге (как настроить доступ к файлам на хостинге с помощью FTP-клиента я писал в статье) текстовый файл robots.txt, в котором уже будем вносить изменения с помощью текстового редактора (рекомендую использовать notepad++).

Для простоты приведу в пример файл robots.txt для моего сайта, т.к. в большинстве случаев его содержание аналогично (с незначительными корректировками) для большинства сайтов на WordPress:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
User-agent: Yandex
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
Host: expromtom.ru
 
User-agent: *
Disallow: /wp-login.php
Disallow: /wp-register.php
Disallow: /xmlrpc.php
Disallow: /webstat/
Disallow: /feed/
Disallow: /trackback
Disallow: */trackback
Disallow: */feed
Disallow: */comments
Disallow: /*?*
Disallow: /*?
Disallow: /category/*/*
Disallow: /wp-content/themes
Disallow: /wp-content/plugins
Disallow: /wp-content/languages
Disallow: /wp-content/upgrade
Disallow: /wp-admin/
Disallow: /wp-includes/
Disallow: /comments
 
Sitemap: http://expromtom.ru/sitemap.xml.gz
Sitemap: http://expromtom.ru/sitemap.xml

Можете воспользоваться данным кодом для вставки в созданный файл robots.txt, только необходимо заменить имя сайта и путь к файлу sitemap.xml (и его сжатую версию с расширением gz) на свои.

Теперь разберем подробнее содержимое файла robots.txt. Если посмотреть внимательно на код, то можно легко заметить, что в нем фигурирует всего четыре оператора:

  • User-agent указывается наименование поискового робота, для которого задаются соответствующие персональные настройки. Значение * говорит о том, что параметры задаются для всех поисковых роботов, для которых не заданы персональные настройки;
  • Disallow запрет индексации области сайта по указанному URL;
  • Host наименование главного домена сайта (с www или без);
  • Sitemap путь к файлам sitemap.xml.gz и sitemap.xml.

Нельзя не упомянуть о том, что существует такой оператор, как Allow, который ставится строго перед соответствующим оператором Disallow и разрешает индексацию подобласти сайта, попавшую в область, запрещенную к индексации соответствующим оператором Disallow.

Теперь если немного пораскинуть мозгами, то с легкостью можно понять, что именно мы закрыли от индексации поисковыми системами в нашем файле robots.txt:

  • системные и служебные файлы WordPress (кроме директории с загруженными файлами uploads);
  • ленту RSS;
  • трэкбэки;
  • комментарии;
  • дубли страниц в результатах поиска;
  • дубли страниц в категориях.

Как видно из представленного кода, первым абзацем мы прописали персональные настройки для поисковых роботов Яндекса, которые любят персональный подход, вторым — настройки для всех остальных поисковых систем, а в третьем прописали путь к файлам sitemap.

Аналогично как и в случае с Яндексом, персональные настройки могут быть прописаны для любой другой поисковой системы. При этом рекомендуется размещать в начале файла все персональные настройки для конкретных поисковых систем, а в конце файла — общие настройки для всех остальных.

Следуя вышеуказанным инструкциям вы получите файл robots.txt для вашего сайта.

Далее не мешало бы проверить его работоспособность, для чего воспользуемся сервисом Яндекс.Вебмастер (ваш ресурс должен быть в него предварительно добавлен). В разделе Настройка индексирования находим пункт Анализ robots.txt:

Создание правильного файла robots.txt для WordPress

И нажимаем кнопку Загрузить robots.txt с сайта:

Создание правильного файла robots.txt для WordPress

Если все сделано верно, то в окошке появится код вашего файла robots.txt:

Создание правильного файла robots.txt для WordPress

Нажмите кнопку Проверить, чтобы просканировать файл на наличие ошибок:

Создание правильного файла robots.txt для WordPress

Если появятся похожие записи, сообщающие что Яндекс успешно распознал находящиеся в robots.txt операторы, то все хорошо. Так как код для роботов Яндекса и для остальных поисковых систем абсолютно идентичен, то проверку на этом можно завершить.

На последнем этапе можете проанализировать работоспособность созданного файла robots.txt, для этого достаточно в окне указать несколько проверочных URL сайта, разрешенных и запрещенных к индексации, и нажать кнопку Проверить:

Создание правильного файла robots.txt для WordPress

Создание правильного файла robots.txt для WordPress

Если полученный результат соответствует вашим задумкам: URL, которые вы хотели запретить к индексации, запрещены, а для остальных выдается результат разрешено, то могу вас поздравить, создание файла robots.txt для Вордпресс успешно завершено!

Добавить комментарий

Ваш адрес email не будет опубликован. Обязательные поля помечены *

Этот сайт использует Akismet для борьбы со спамом. Узнайте, как обрабатываются ваши данные комментариев.

Adblock
detector