6 Авг, 2010
Категории: Переводы статей, Продвижение
Автор: Вовка

Как мы тестировали робота Google

Партнерская программа Vulkanpartner

Гугл роботGoogle – очень влиятельная поисковая система, уделять время которой просто необходимо. Именно в эту сторону я направил сегодня свой взор и хотел бы обратить ваше внимание на работу робота системы. Именно поэтому публикую перевод статьи голландского SEO-специалиста, опубликованный на seomoz.org. В статье описываются результаты тестирования робота Google - скорость обхода, влияние карты сайта, количества ссылок на странице и так далее. Итак, читаем…

Поисковую систему Google отличает высокое качество ранжирования результатов поискового запроса. Из чего складывается такой уровень интеллекта его алгоритмов? Многие SEO-специалисты время от времени тестируют различные особенности процесса индексации и (намного чаще) факторы, влияющие на присвоение ранга (PR) проиндексированным страницам. Нашу команду интересовал вопрос, насколько умен сам робот Google. Для этого мы решили исследовать соответствие действий робота некоторым широко распространенным принципам поисковой оптимизации. Некоторые из полученных результатов неоднозначны и требуют для уточнения исследовательскую базу из несколько сотен доменов, но в целом результаты исследования получились довольно интересные.

1. Скорость обхода.

Первое, что мы исследовали – это утверждение сотрудника Google Мэтта Каттса (Matt Cutts): «... количество загружаемых нами страниц примерно пропорционально вашему PR».

Одна из частых проблем, свойственных сайтам с большим количеством контента – индексация всех страниц сайта. Если представить, что Amazon.com – недавно созданный сайт, то роботу Google понадобилось бы довольно много времени для загрузки 48 миллионов страниц, причем индексации не было бы вообще (согласно утверждению Мэтта), если бы на сайт Amazon.com не было обратных ссылок.

Для проверки мы взяли чистый домен (не регистрировавшийся, не имеющий истории и обратных ссылок) и создали для него страницу с 250 ссылками. Эти 250 ссылок вели к страницам, на которых также было по 250 ссылок (и т.д.). Анкоры и ссылки были пронумерованы от 1 до 250 в порядке расположения на странице. Мы добавили домен через «addurl» и стали анализировать активность робота. Так как домен не имел обратных ссылок, его PR был равен нулю. Если утверждение Мэтта верно, то робот должен был очень скоро прекратить обход страниц.

Как определить робота Google?

На графике видно, что робот начал обход сайта со скоростью около 2500 страниц в час (стр/час). Через три часа скорость снизилась до 25 стр/час и оставалась такой в течение нескольких месяцев. Для контроля мы проделали этот тест еще с двумя доменами. Оба теста показали примерно такие же результаты. Единственная разница – небольшой пик при первом заходе робота.

Robot Google

2. Влияние карты сайта.

Исследования показали, что карты сайтов – очень важный инструмент повышения скорости обхода. Мы добавили карту со ссылками на 50 000 вновь добавленных страниц (уровень индексации 0). Робот Google поместил страницы, добавленные через карту, в начало очереди обхода. То есть, эти страницы загружались раньше, чем страницы уровня F. Но что более примечательно – это увеличение скорости обхода. Вначале она сохранялась на уровне 20-30 стр/час. После загрузки карты в Центре веб-мастеров Google скорость увеличилась до 500 стр/час. Через несколько дней был достигнут максимум 2224 стр/час. Если до загрузки карты скорость была в среднем 26,59 стр/час, то после скорость была 1257,78 с/час, то есть прирост составил 4630,27%. Скорость не снизилась даже после загрузки всех страниц карты. Все другие страницы уровней F и 0, не включенные в карту, загружались на той же скорости.

Заработок на роботах Вконтакте торрент

Во время загрузки карты сайта очередь обхода была заполнена страницами уровня F. Тот факт, что Google резко увеличил скорость обхода после загрузки карты, может означать, что карта является важным фактором для робота.

Сколько страниц одновременно скачивает робот?

Как же наши тесты соотносятся с утверждением Мэтта Каттса? Всего за 31 день робот Google загрузил около 375 000 страниц сайта. Если считать в пропорции с PR (у нас PR = 0) , то у сайта с PR = 1 за 31 день будет загружено 140 625 000 000 страниц. Напомню, что PR – экспонентная величина. Другими словами, можно утверждать, что вам не следует волноваться из-за низкого PR, даже если у вас самый большой сайт в сети. И еще один вывод: не следует верить всему, что говорят сотрудники Google.

3. Количество ссылок.

Рэнд Фишкин (Rand Fishkin) утверждает: «... вы вполне можете превысить рекомендованный предел в 100 ссылок на страницу, имея высокий PR. Например, с PR = 7,5 вы можете себе позволить 250-300 ссылок на страницу».

Предел в 100 ссылок всегда был очень чувствительной темой для сайтов с большим количеством страниц. История возникновения этого мифа связана с тем, что когда-то Google индексировал только первые 100 Кбайт страницы. На странице объемом 100 Кбайт размещение 100 ссылок казалось вполне разумным и достаточным. Если страница была больше, то робот Google с большой вероятностью мог ее обрезать, не прочитав до конца. Сейчас робот может загружать страницы объемом более 1,5 Мбайт, поэтому рекомендация "100 ссылок на страницу" – это, очевидно, просто забота Google об удобстве пользователей.

Как было показано выше, робот без проблем загружал наши страницы с 250 ссылками, даже на сайтах без обратных ссылок. Но существует ли предел? В следующем нашем тесте мы увеличили количество ссылок до 5000 на страницу (все остальные условия были идентичные). Когда робот пришел на сайт, мы увидели удивительную картину. Он начал загружать страницы:

- http://example.com/1/

- http://example.com/10/

- http://example.com/100/

- http://example.com/1000/

На каждом уровне, на который переходил робот, мы наблюдали одно и то же. Было, похоже, что робот не знает, как обрабатывать такое количество ссылок и пытается следовать чисто компьютерной логике.

4. Семантический разбор.

Один из устойчивых мифов SEO, применяемый практически на каждом оптимизированном сайте, это больший вес ссылок, помещенных в заголовочные тэги. Этот фактор упоминается также в связи с патентом «разумного серфера» Google. У нас были большие сомнения, поэтому мы решили проверить, так ли это на самом деле. На странице с 250 ссылками мы поместили некоторые из них в заголовочные тэги. Эту операцию мы проделали на нескольких уровнях. По прошествии нескольких недель абсолютно ничего не указывало на то, что робот Google как-либо выделяет «заголовочные» ссылки. Это не значит, что робот не делает семантический разбор, но, очевидно, он не считает заголовочные ссылки более важными.

5. Индексирование Javascript.

Программисты Google утверждают, что постоянно совершенствуют распознавание и выполнение кода Javascript роботом. Использование Javascript – не лучший вариант, если вам необходима полная и правильная индексация сайта, но он вполне оправдан, если вы ставите себе обратные цели. Например, Javascript может быть использован для того, чтобы какие-то ссылки были видны только посетителям, но не роботам. В этом случае вебмастер должен быть в курсе того, что Google может распознать и выполнить, а что нет. Для проверки способностей робота к распознаванию Javascript мы использовали код, описанный в статье «Профессиональное руководство по оптимизации PR».

Единственный участок кода, выполненный и распознанный роботом, был ссылкой в строчке «document.write». Это не означает, что робот не умеет распознавать более сложные конструкции. Возможно, роботу требуются дополнительные условия (например, наличие обратных ссылок) для включения более глубокого анализа Javascript.

6. Индексация «хлебных крошек».

«Хлебные крошки» или навигационные цепочки (breadcrumbs) – один из часто используемых элементов, повышающих юзабилити сайта. У нас были подозрения, что робот Google очень неохотно обходит сайты снизу вверх, поэтому следующий наш тест был посвящен этой проблеме. Была создана страница глубокой вложенности с некоторым контентом и ссылками на несколько уровней вверх (http://example.com/lvl1/lvl2/lvl3/). Мы установили несколько обратных ссылок на эту страницу и стали ждать посещения робота. В результате, робот посетил страницу 3 раза, но на страницы верхнего уровня не перешел ни разу.

Гугл постоянно говорит что я робот

Для контроля мы провели такой же тест на другом домене. Страница была размещена еще глубже (http://example.com/lvl1/lvl2/lvl3/lvl4/lvl5/). На этот раз робот посетил несколько страниц, находящихся выше в структуре сайта, но даже через несколько недель не все страницы верхних уровней были загружены. Очевидно, робот предпочитает обходить сайт сверху вниз, а не снизу вверх, так что «хлебные крошки» бесполезны для улучшения структуры сайта.

Выводы.

Один из главных выводов – вы можете повлиять на скорость обхода страниц с помощью карты сайта. Это НЕ значит, что вам всегда нужно загружать карту. Карта может быть полезной при первой индексации страниц. Робот намного медленнее обращается к странице уровня F, чем к проиндексированной странице. Так что, если ваши страницы были обработаны роботом, но выпали из индекса, вам может понадобиться получить больше обратных ссылок перед тем, как загрузить карту. Лучше всего отслеживать дату последнего посещения робота для каждой страницы – так вы сможете легко выявить неполадки в структуре сайта.

Количество ссылок на странице не ограничено 250 (даже если у сайта нет обратных ссылок), но 5000 ссылок – это, очевидно, слишком много. Мы не ставили целью определить точный предел.

Ссылки в заголовочных тэгах не имеют никакого смысла в целях оптимизации. Они могут использоваться для улучшения юзабилити, тем более что WordPress поддерживает эту технику, а может быть они даже имеют какой-то очень небольшой ранжирующий вес, который мы не смогли обнаружить.

Еще один вывод – робот плохо обрабатывает «хлебные крошки», он неохотно переходит на верхние уровни с нижних, поэтому использование этой техники для улучшения структуры сайта не имеет смысла.

Вы можете использовать Javascript для наращивания PR. Робот Google сильно ограничен в своих возможностях по распознаванию кода Javascript. Однако, помните, что программисты Google постоянно совершенствуют алгоритмы робота, поэтому нельзя быть уверенным, что код, который вы сегодня используете для манипуляций с PR, не будет распознан через год или два.

И последний вывод связан с длиной ссылок - в наших тестах короткие ссылки обрабатывались раньше длинных, вывод здесь очевиден.

Вот такая интересная статья. А у вас есть свои наблюдения по теме? Если есть, то обязательно напишите в комментариях.

Информация: вебдизайн и создание сайтов уже покоряют СНГ полным ходом. Вот и создание сайтов казахстан подтверждают мои слова.

ОФФпост:

Вовочка приходит домой:
— Пап, у нас сегодня в школе такое случилось, что твоей зарплаты не хватит! 😀


Робот блога считает, что это может быть вам интересно:

Похожие записи в блоге:

   

Нравится как я пишу? Давайте вместе формировать интересные материалы на моем блоге. Вы можете сделать ретвит данной статьи или подписаться на мою ленту в системе микроблогов Твиттер.
Читайте меня в Твиттере и будьте в курсе последних моих действий.

Комментирование Facebook:


  • Я, конечно, знал о пользе карты, но чтобы она настолько увеличивала скорость индексации... Причем интересно, что скорость не уменьшается.

    А вообще, статья очень интересная. Обычно продвижению под гугл уделяется меньше внимания. Точнее сказать нередко пускается на самотек. Но теперь некоторые вещи придется пересмотреть.

  • Любопытная статейка. Раньше много рылся в буржунете в поисках интересных статей, но там попсы больше, чем у нас(

    А логика работы бота вполне понятная. Удивляет фраза "какой то своей машинной логике". Это ведь чистая математика области графов. Вполне логично, что бот не обязан инждексировать все страницы сразу, иначе скорость обхода значительно снизится. В итоге он движется по зараннее индесированным страницам и страницам верхнего уровня.Карта сайта значительно облегчает ему работу, выводя внутренние страницы на более верхний уровень. Там, наверное, еще есть глубина обхода
    Вообще, что понять принципы работы таких штук, нужно прочитать пару книг. Ведь ни гугл, ни яндекс не являются разработчиками каких то принципиально новых алгоритмов. Большая часть из них вообще применяется в совершенно других областях и хорошо изучена. К примеру, метод классификации контента имеет всего пять алгоритмов, самым эффективным из которых считается "метод опорных векторов". Яндекс использует все пять+свои поправки "на ветер". Понимание каждого из них в отдельности дает неплохое понимание принципов анализа и ранжирования текстовой информации на странице. Обход ботом в туже степь. Есть хорошая книга, в которой описывается алгоритм распределания Pagerank, простейшие структуры баз данных и примеры исходных кодов на Питоне для построения собственной поисковой машины на основе PageRank Гугла..ну и плюс какие то забавные мелочи, к примеру PageRank переводится не как "ранг страницы", а "ранг Пейджа", ларри Пейджа. Это именное название алгоритма.

  • Отличный комментарий... Соглашусь, пожалуй, с вами. Про Ларри, думаю, наши все догадываются...но за бугром не так все сообразительно и идеально, как кажется.

  • Да, скорость это понятие относительное... Нужно направлять нерадивого робота туда, куда нужно тебе...ведь он, можно сказать, без глаз, как на картинке к посту... 😉

  • wlad2

    затронуло про короткие ссылки, ну а ссылки в заголовочных тэгах рулят или мне кажется так

  • Вока, прими эстафету, если не трудно 🙂 http://ti-mo.ru/estafety/what-for-the-blog-is-necessary/

  • Извиняюсь за опечатку. Хотел написать Вовка ))

  • Вовка, приглашаю в акцию - http://www.haserk.ru/blog/akcija_quot_postovoj_...

  • Не могли бы вы поделиться названием этой книги? 🙂 Очень хотелось бы почитать ее

  • http://www.books.ru/shop/books/586615
    + Всё что можно по компьютерной лингвистике

  • Спасибо)

  • Много узнал интересного о работе робота Google. Спасибо!
    Ещё хотелось бы побольше узнать о повышении PR!

  • Что именно вас интересует? PR всего блога или конкретной страницы?

  • Большое спасибо за статью. Интересно было почитать про робота гугли.

  • Интересно было почитать! Спасибо!

  • Я человек новый в Интернете и всех нюансов не знаю. Я лично думал, что PR бывает только для страниц, а что бывает и для всего блога? Меня интересует и первое и второе!

  • Сайты нужно создавать для пользователей, а не для поисковых систем.

  • Я скажу так:
    PR зависит:
    - Количество ссылок на определенную страницу;
    - Количество ссылок на каждой ссылающейся на вашу страницу странице;
    - PR каждой страницы ссылающейся на вас (чем выше, тем, естесственно, лучше);
    - Внутренняя перелинковка.
    На самом деле каждая страница имеет свой PR. Нужны и внутренние ссылки. А каждая внутренняя должна содержать часть главной, что и будет общий поднимать.
    Бывает все! Есть страница блога имеет PR=3, а сам блог имеет PR=2. 🙂 Так, например, есть люди которые усилив PR нескольких страниц серьездным образом добиваются общего хорошего. Несколько страниц я видел с PR=6, общий PR=5.
    Надеюсь понятно объяснил.

  • А никто и не говорил, что нужны ГС, а не СДЛ. Просто есть моменты, которые не делают из СДЛ - ГС, а самому проекту дают только плюсы.

  • Спасибо!

  • SEO

    Must be led on the clumsy robotic wherever you wish to anyone... since the guy
    can declare, with no sight, similar to for the photograph to write.

Я в Google Plus

Блоггеру

Рекомендую

Мануалы

Опрос

У Вас были моменты в жизни, когда вы хотели бросить блоггинг?

Просмотреть результаты

Загрузка ... Загрузка ...

Вовкин блог на Facebook

SEO Powered by Platinum SEO from Techblissonline