Наряду с созданием правильного файла sitemap.xml еще одним очень важным шагом для улучшения индексации вашего интернет-ресурса поисковыми системами является создание правильного файла robots.txt, о чем и пойдет речь в данной статье.
Что такое robots.txt?
Файл robots.txt используется для управления индексированием ресурса роботами поисковых систем. Он должен размещаться в корне сайта и представляет собой файл ограничения доступа поисковым роботам к содержимому на http-сервере.
В файле robots.txt может содержаться следующая информация:
- области сайта (страницы, записи и т.д.), которые можно индексировать и которые индексировать нельзя;
- размещение файла sitemap.xml;
- области сайта, которые нужно индексировать в первую очередь;
- главный домен сайта (с www или без).
С помощью правильно составленного файла robots.txt можно избежать дублирования контента (необходимо запретить индексацию тегов или рубрик), тогда вероятность того, что одна и та же статья может быть доступна по нескольким URL и, к примеру, дважды попасть в индекс поисковой системы сведется к нулю. Дублирование контента воспринимается поисковыми системами крайне негативно.
Также иногда возникает необходимости запретить индексирование какого-либо фрагмента интернет-ресурса, в чем опять же на помощь приходит файл robots.txt.
Как создать правильный robots.txt для WordPress?
На первом этапе необходимо создать в корневом каталоге вашего сайта на хостинге (как настроить доступ к файлам на хостинге с помощью FTP-клиента я писал в статье) текстовый файл robots.txt, в котором уже будем вносить изменения с помощью текстового редактора (рекомендую использовать notepad++).
Для простоты приведу в пример файл robots.txt для моего сайта, т.к. в большинстве случаев его содержание аналогично (с незначительными корректировками) для большинства сайтов на WordPress:
1 2 3 4 5 6 7 8 9 10 11 12 13 14 15 16 17 18 19 20 21 22 23 24 25 26 27 28 29 30 31 32 33 34 35 36 37 38 39 40 41 42 43 44 45 | User-agent: Yandex Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /wp-content/languages Disallow: /wp-content/upgrade Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Host: expromtom.ru User-agent: * Disallow: /wp-login.php Disallow: /wp-register.php Disallow: /xmlrpc.php Disallow: /webstat/ Disallow: /feed/ Disallow: /trackback Disallow: */trackback Disallow: */feed Disallow: */comments Disallow: /*?* Disallow: /*? Disallow: /category/*/* Disallow: /wp-content/themes Disallow: /wp-content/plugins Disallow: /wp-content/languages Disallow: /wp-content/upgrade Disallow: /wp-admin/ Disallow: /wp-includes/ Disallow: /comments Sitemap: http://expromtom.ru/sitemap.xml.gz Sitemap: http://expromtom.ru/sitemap.xml |
Можете воспользоваться данным кодом для вставки в созданный файл robots.txt, только необходимо заменить имя сайта и путь к файлу sitemap.xml (и его сжатую версию с расширением gz) на свои.
Теперь разберем подробнее содержимое файла robots.txt. Если посмотреть внимательно на код, то можно легко заметить, что в нем фигурирует всего четыре оператора:
- User-agent указывается наименование поискового робота, для которого задаются соответствующие персональные настройки. Значение * говорит о том, что параметры задаются для всех поисковых роботов, для которых не заданы персональные настройки;
- Disallow запрет индексации области сайта по указанному URL;
- Host наименование главного домена сайта (с www или без);
- Sitemap путь к файлам sitemap.xml.gz и sitemap.xml.
Нельзя не упомянуть о том, что существует такой оператор, как Allow, который ставится строго перед соответствующим оператором Disallow и разрешает индексацию подобласти сайта, попавшую в область, запрещенную к индексации соответствующим оператором Disallow.
Теперь если немного пораскинуть мозгами, то с легкостью можно понять, что именно мы закрыли от индексации поисковыми системами в нашем файле robots.txt:
- системные и служебные файлы WordPress (кроме директории с загруженными файлами uploads);
- ленту RSS;
- трэкбэки;
- комментарии;
- дубли страниц в результатах поиска;
- дубли страниц в категориях.
Как видно из представленного кода, первым абзацем мы прописали персональные настройки для поисковых роботов Яндекса, которые любят персональный подход, вторым — настройки для всех остальных поисковых систем, а в третьем прописали путь к файлам sitemap.
Аналогично как и в случае с Яндексом, персональные настройки могут быть прописаны для любой другой поисковой системы. При этом рекомендуется размещать в начале файла все персональные настройки для конкретных поисковых систем, а в конце файла — общие настройки для всех остальных.
Следуя вышеуказанным инструкциям вы получите файл robots.txt для вашего сайта.
Далее не мешало бы проверить его работоспособность, для чего воспользуемся сервисом Яндекс.Вебмастер (ваш ресурс должен быть в него предварительно добавлен). В разделе Настройка индексирования находим пункт Анализ robots.txt:
И нажимаем кнопку Загрузить robots.txt с сайта:
Если все сделано верно, то в окошке появится код вашего файла robots.txt:
Нажмите кнопку Проверить, чтобы просканировать файл на наличие ошибок:
Если появятся похожие записи, сообщающие что Яндекс успешно распознал находящиеся в robots.txt операторы, то все хорошо. Так как код для роботов Яндекса и для остальных поисковых систем абсолютно идентичен, то проверку на этом можно завершить.
На последнем этапе можете проанализировать работоспособность созданного файла robots.txt, для этого достаточно в окне указать несколько проверочных URL сайта, разрешенных и запрещенных к индексации, и нажать кнопку Проверить:
Если полученный результат соответствует вашим задумкам: URL, которые вы хотели запретить к индексации, запрещены, а для остальных выдается результат разрешено, то могу вас поздравить, создание файла robots.txt для Вордпресс успешно завершено!