В начало » ЖЖ

Хабрахабр занимается SEO спамом!

29 сентября 2010 629 views 2 комментария

Здравствуйте, дорогие мои!

Сегодня я хочу немного рассказать о том, что такое SEO-спам, как его понимают поисковые системы, и почему Хабрахабр занимается им.

Прежде всего, давайте обсудим SEO-спам без привязок к каким-то конкретным поисковым системам. Что же такое, этот самый SEO-спам? А все очень просто, если мы посмотрим глазами поисковых систем на алгоритм работы типичного пользователя:

  1. Пользователь вводит поисковый запрос
  2. Для запроса формируется индекс, в котором наиболее подходящие для пользователя сайты идут выше
  3. Пользователь переходит на нужный ему сайт

Итак, все очень просто. И эта простота — признак гениальности. Любое отклонение позволяет разработчикам поисковых систем мониторить работу алгоритмов системы.

Например, если пользователь просмотрел 10 первых результатов по запросу и запросил следующие десять — это сигнализирует о том, что алгоритмы не смогли определить для этого запроса оптимальный индекс сайтов. Когда пользователь кликнет на нужном, это даст подсказку поисковой системе и через некоторое время такой сайт станет выше в выдаче.

Конечно, многие захотят узнать, а как собственно поисковая система определяет, на каком именно сайте из выдачи был сделан выбор? А очень просто. Во-первых есть  такая штука как яндекс.бар или гугль.бар. Во-вторых многие браузеры передают всю информацию некоторым поисковым системам. Например — Chrome отправляет все запросы в Google. Ну и в-третьих — посмотрите исходный код страницы выдачи. Там на каждой ссылке есть java-script, который при клике передает информацию поисковикам.

В общем, уверяю вас — у них достаточно средств, чтоб отследить обратную связь и понять взаимодействие пользователей по отношению к запросам и сайтам.

Но это так сказать — основа основ, самообучаемая система с обратной связью. А вот как поисковые системы определяют SEO-спам, спросите вы? Так абсолютно аналогично — по обратной связи:

Если пользователь выбрал сайт и зашел туда, но обнаружил, что там никакой информации, то он вернется обратно, на ту же самую страницу и кликнет на следующий сайт.  А поисковая система получит сигнал — отклонение от алгоритма поведения пользователя, сайт не удовлетворил его.

Сайты могут использовать разные технологии обмана пользователя. Но наиболее презираемые как со стороны поисковых систем, так и со стороны белых специалистов по продвижению, это дорвеи и клоакинг.

Дорвеи — это сгенерированные тексты, которые сделаны таким образом, чтоб за счет частоты повторения слов попасть выше. При переходе на такой сайт он перебрасывает пользователя, зачастую на совсем другой ресурс. Искали гвозди, а попали на порносайт.

К счастью, алгоритмы уже давно научились распознавать эту дрянь в автоматическом режиме, и доры долго не живут. Впрочем, борьба алгоритмов не прекратилась — доры создаются полностью в автоматическом режиме, и между дорвейщиками и поисковиками идет самая неприкрытая война.

Ну с этим понятно. Перейдем к клоакингу. Клоакинг — это разновидность дорвея, которая работает без переброса и тем самым затрудняет обнаружение. Суть клоакинга состоит вот в чем:

При запросе одного и того-же URL, поисковым системам отдается одно содержимое сайта, а людям — совсем другое. И конечно, результат будет совсем не тот, что ожидался пользователем.

Но и тут многие хитрят. Например, был когда-то один бесплатный хостинг, имени которого я уже не упомню. Он размещал сайты бесплатно, а зарабатывал вот на чем:

Когда с поисковой системы пользователь переходил на сайт, то ему выдавалось примерно такое сообщение — сайт в архиве, подождите распаковки. И через пару минут сайт появлялся. А все это время пользователь рассматривал рекламу.

Разумеется, никакого архива не было. А если бы даже это было правдой, то поисковой системе тоже должна выдаваться информация о том, что сайт в архиве, но никак не содержимое сайта.

Ну а теперь вернемся к Хабрахабру. Прежде всего следует отметить, что живет этот ресурс в основном за счет показа рекламы, следовательно привлечение посетителей из поисковиков — для него критично важная задача.

У Хабрахабра есть ряд свойств, которые делают его самым первым по многим запросам:

  1. Уникальность контента. Этому поисковые системы отдают больше всего внимания. За копипаст там карают.
  2. Все прямые ссылки, кроме одного раздела «Я пиарюсь», официально не приветствуются. Потому что по ссылкам утекает авторитетность ресурса.
  3. Так называемый пост-ссылка, на самом деле не является такой. Для этого используется редирект, которым закрывается утечка авторитетности.

Однако как оказалось, этого Хабрахабру мало. Теперь он занимается еще и… клоакингом!

Проверить это очень просто. Я как-то писал статью с названием «Детективная история взлома одного коммерческого хостинга с наказанием и рекомендациями». Я просто ввел этот запрос в Яндекс и Гугл.

Вы можете проделать прямо сейчас тоже самое, только учтите — выдача зависит от многих факторов, в том числе от географии. Вполне возможно, что выдача в Одессе будет другой, чем выдача в Москве.

Но вернемся к раскрытию клоакинга. У поисковых систем есть замечательная особенность — они хранят в своем кэше ту страницу, которую им отдает сайт. А теперь посмотрим, как выглядит вот эта страница в кэше Яндекса.

Неплохо, правда? Человек придет за информацией и получает ее отсутствие. И чтоб замаскировать этот клоакинг, никакой рекламы посетителю не выдается, но есть ссылка на главную страницу, по которой он скорее всего кликнет. Вот такая вот хитрая черная поисковая оптимизация.

Интересно, а что будет, если написать в Яндекс вот такой вот запрос:

Сообщение: Здравствуйте. Я ввел запрос в Яндекс, и перешел по первому сайту из выдачи по запросу. Им оказался сайт Хабрахабр. К сожалению, информации я там не обнаружил, а страница об отсутствии документа не отдает 404, как это требуется от качественного сайта. Прошу обратить на это внимание и принять меры.

Я думаю, пропадут все страницы забаненных пользователей из индекса, и с большой вероятностью упадет число проиндексированных страниц вообще.

1 Star2 Stars3 Stars4 Stars5 Stars (No Ratings Yet)
Загрузка...

2 комментария »

  • Tvidoz said:

    Может всё таки это делают не сами создатели хабра? А просто компрометирующие юзеры? 🙂

  • goldnota said:

    Ничего там не закрыто, даже в nofollow

Оставьте комментарий!

Оставьте ваш комментарий или trackback со своего сайта. Вы можете подписаться на новые комментарии через RSS.

Придерживайтесь темы записи. Никакого спама!

Вы можете использовать следующие тэги:
<a href="" title=""> <abbr title=""> <acronym title=""> <b> <blockquote cite=""> <cite> <code> <del datetime=""> <em> <i> <q cite=""> <s> <strike> <strong>