Для своего проекта http://zendframework.ru мне был нужен скрипт форума. Нуленые версии ipb (Invision Power Board) и vBulletin меня не интересовали по религиозным соображениям. Поэтому выбирать приходилось из бесплатных вариантов. Плотно я сталкивался только с phpBB и smf (simplemachines). phpBB это классика но в том числе и плохая репутация как ненадежного с точки зрения безопасности. Итого, остановился на smf.
Мой камрад по проекту установил и настроил форум. Но далее захотелось сделать форум более дружественным для поисковых систем. Я видел следующую проблему. На форуме существует масса ссылок, которые не имеют полезной информации для поисковика, это форма регистрации, личные профили пользователей, страница помощи и другое.
Кроме этого, на многие страницы форума существует несколько различных ссылок с разных мест. Например одна и та же страница может быть доступна по разным линкам.
zendframework.ru/forum/index.php?topic=131.0;prev_next=next
zendframework.ru/forum/index.php?topic=167.0
Я предположил, что у поисковиков может возникнуть каша из массы ссылок на одни и те же страницы. Что понизит уникальность контента и, таким образом, его вес в поисковиках.
Создал файл robots.txt и написал в него следующее.
User-agent: *
Disallow: /forum/attachments
Disallow: /forum/avatars
Disallow: /forum/Packages
Disallow: /forum/Smileys
Disallow: /forum/Sources
Disallow: /forum/Themes
Disallow: /forum/index.php?action
Disallow: /*sort
Disallow: /*prev_next
Disallow: /*msg
Я хотел оставить для индексирования только страницы со списком форумов и сами топики. Также я запретил индексировать папки самого форума.
И еще для Яндекса дописал директиву Host: zendframework.ru.
И что вы думаете получилось в итоге?
В итоге все получилось с точностью да наоборот. Сначала Яндекс успешно понял какая версия сайта основная, но где то полмесяца назад он сменил главное зеркало на вариант с www :). Я по глупости ранее не настроил 301 редирект с www, и теперь вот думаю, как ему втолковать обратное. Хорошо хоть трафик с Яндекса был заметно ниже чем с Гугла.
Что же сделал Гугл с форумом. Почти за три месяца, которые прошли с момента как я разместил этот файл, страниц форума в выдаче был самый минимум. Кроме этого через google webmaster я увидел что Гугл обнаружил около 1000 урл которые запрещены в robots.txt.
И вот только полмесяца назад страницы форума стали попадать в топ выдачи. Я решил изменить robots.txt убрав часть запрещающих правил. Получился следующий вариант.
User-agent: *
Disallow: /forum/attachments
Disallow: /forum/avatars
Disallow: /forum/Packages
Disallow: /forum/Smileys
Disallow: /forum/Sources
Disallow: /forum/Themes
Disallow: /forum/index.php?action
Disallow: /*sort
Disallow: /*prev_next
Disallow: /*msg
Сейчас тем форума стало в топе стало гораздо больше.
Мораль следующая. Далеко не всегда стоит помогать поисковым системам :). Хотя возможно на такую ситуацию повлияли и другие факторы, которых я не учел.
Связанные записи
Комментариев: 3
“Я по глупости ранее не настроил 303 редирект с www, и теперь вот думаю, как ему втолковать обратное.”
Скажите, Александр.
А зачем этот редирект делать? Как это повлияет на выдачу?
Спасибо, разобрался в проблеме. Действительно редиректит wordpress на автомате.



29 июня 2008 в 14:31
Денис
Ошибся я, 301 :). Но если 301 тоже ничего не говорит то идея следующая. Для поисковых систем http://www.site.ru и site.ru - разные сайты. Соответственно все параметры он делит на двоих. Короче говоря страдают от этого непосредственно владельцы сайтов. Подробнее в гугле
или тут немного http://help.yandex.ru/webmaster/?id=995297#995320
А если с одного зеркала настроить редирект, то поисковик должен считать что это не разные сайты а один и тот же. То есть заходя на http://www.site.ru он будет попадать на site.ru и думать что это один и тот же сайт, что на самом деле и есть.
Для вордпресса эта проблема решена в самом ядре. например попробуйте зайти на
http://www.nagorsky.net.ru/