6 Авг, 2010
Категории: Переводы статей, Продвижение
Автор: Вовка

Как мы тестировали робота Google

Google – очень влиятельная поисковая система, уделять время которой просто необходимо. Именно в эту сторону я направил сегодня свой взор и хотел бы обратить ваше внимание на работу робота системы. Именно поэтому публикую перевод статьи голландского SEO-специалиста, опубликованный на seomoz.org. В статье описываются результаты тестирования робота Google - скорость обхода, влияние карты сайта, количества ссылок на странице и так далее. Итак, читаем…

Поисковую систему Google отличает высокое качество ранжирования результатов поискового запроса. Из чего складывается такой уровень интеллекта его алгоритмов? Многие SEO-специалисты время от времени тестируют различные особенности процесса индексации и (намного чаще) факторы, влияющие на присвоение ранга (PR) проиндексированным страницам. Нашу команду интересовал вопрос, насколько умен сам робот Google. Для этого мы решили исследовать соответствие действий робота некоторым широко распространенным принципам поисковой оптимизации. Некоторые из полученных результатов неоднозначны и требуют для уточнения исследовательскую базу из несколько сотен доменов, но в целом результаты исследования получились довольно интересные.

1. Скорость обхода.

Первое, что мы исследовали – это утверждение сотрудника Google Мэтта Каттса (Matt Cutts): «... количество загружаемых нами страниц примерно пропорционально вашему PR».

Одна из частых проблем, свойственных сайтам с большим количеством контента – индексация всех страниц сайта. Если представить, что Amazon.com – недавно созданный сайт, то роботу Google понадобилось бы довольно много времени для загрузки 48 миллионов страниц, причем индексации не было бы вообще (согласно утверждению Мэтта), если бы на сайт Amazon.com не было обратных ссылок.

Для проверки мы взяли чистый домен (не регистрировавшийся, не имеющий истории и обратных ссылок) и создали для него страницу с 250 ссылками. Эти 250 ссылок вели к страницам, на которых также было по 250 ссылок (и т.д.). Анкоры и ссылки были пронумерованы от 1 до 250 в порядке расположения на странице. Мы добавили домен через «addurl» и стали анализировать активность робота. Так как домен не имел обратных ссылок, его PR был равен нулю. Если утверждение Мэтта верно, то робот должен был очень скоро прекратить обход страниц.

На графике видно, что робот начал обход сайта со скоростью около 2500 страниц в час (стр/час). Через три часа скорость снизилась до 25 стр/час и оставалась такой в течение нескольких месяцев. Для контроля мы проделали этот тест еще с двумя доменами. Оба теста показали примерно такие же результаты. Единственная разница – небольшой пик при первом заходе робота.

2. Влияние карты сайта.

Исследования показали, что карты сайтов – очень важный инструмент повышения скорости обхода. Мы добавили карту со ссылками на 50 000 вновь добавленных страниц (уровень индексации 0). Робот Google поместил страницы, добавленные через карту, в начало очереди обхода. То есть, эти страницы загружались раньше, чем страницы уровня F. Но что более примечательно – это увеличение скорости обхода. Вначале она сохранялась на уровне 20-30 стр/час. После загрузки карты в Центре веб-мастеров Google скорость увеличилась до 500 стр/час. Через несколько дней был достигнут максимум 2224 стр/час. Если до загрузки карты скорость была в среднем 26,59 стр/час, то после скорость была 1257,78 с/час, то есть прирост составил 4630,27%. Скорость не снизилась даже после загрузки всех страниц карты. Все другие страницы уровней F и 0, не включенные в карту, загружались на той же скорости.

Во время загрузки карты сайта очередь обхода была заполнена страницами уровня F. Тот факт, что Google резко увеличил скорость обхода после загрузки карты, может означать, что карта является важным фактором для робота.

Как же наши тесты соотносятся с утверждением Мэтта Каттса? Всего за 31 день робот Google загрузил около 375 000 страниц сайта. Если считать в пропорции с PR (у нас PR = 0) , то у сайта с PR = 1 за 31 день будет загружено 140 625 000 000 страниц. Напомню, что PR – экспонентная величина. Другими словами, можно утверждать, что вам не следует волноваться из-за низкого PR, даже если у вас самый большой сайт в сети. И еще один вывод: не следует верить всему, что говорят сотрудники Google.

3. Количество ссылок.

Рэнд Фишкин (Rand Fishkin) утверждает: «... вы вполне можете превысить рекомендованный предел в 100 ссылок на страницу, имея высокий PR. Например, с PR = 7,5 вы можете себе позволить 250-300 ссылок на страницу».

Предел в 100 ссылок всегда был очень чувствительной темой для сайтов с большим количеством страниц. История возникновения этого мифа связана с тем, что когда-то Google индексировал только первые 100 Кбайт страницы. На странице объемом 100 Кбайт размещение 100 ссылок казалось вполне разумным и достаточным. Если страница была больше, то робот Google с большой вероятностью мог ее обрезать, не прочитав до конца. Сейчас робот может загружать страницы объемом более 1,5 Мбайт, поэтому рекомендация "100 ссылок на страницу" – это, очевидно, просто забота Google об удобстве пользователей.

Как было показано выше, робот без проблем загружал наши страницы с 250 ссылками, даже на сайтах без обратных ссылок. Но существует ли предел? В следующем нашем тесте мы увеличили количество ссылок до 5000 на страницу (все остальные условия были идентичные). Когда робот пришел на сайт, мы увидели удивительную картину. Он начал загружать страницы:

- http://example.com/1/

- http://example.com/10/

- http://example.com/100/

- http://example.com/1000/

На каждом уровне, на который переходил робот, мы наблюдали одно и то же. Было, похоже, что робот не знает, как обрабатывать такое количество ссылок и пытается следовать чисто компьютерной логике.

4. Семантический разбор.

Один из устойчивых мифов SEO, применяемый практически на каждом оптимизированном сайте, это больший вес ссылок, помещенных в заголовочные тэги. Этот фактор упоминается также в связи с патентом «разумного серфера» Google. У нас были большие сомнения, поэтому мы решили проверить, так ли это на самом деле. На странице с 250 ссылками мы поместили некоторые из них в заголовочные тэги. Эту операцию мы проделали на нескольких уровнях. По прошествии нескольких недель абсолютно ничего не указывало на то, что робот Google как-либо выделяет «заголовочные» ссылки. Это не значит, что робот не делает семантический разбор, но, очевидно, он не считает заголовочные ссылки более важными.

5. Индексирование Javascript.

Программисты Google утверждают, что постоянно совершенствуют распознавание и выполнение кода Javascript роботом. Использование Javascript – не лучший вариант, если вам необходима полная и правильная индексация сайта, но он вполне оправдан, если вы ставите себе обратные цели. Например, Javascript может быть использован для того, чтобы какие-то ссылки были видны только посетителям, но не роботам. В этом случае вебмастер должен быть в курсе того, что Google может распознать и выполнить, а что нет. Для проверки способностей робота к распознаванию Javascript мы использовали код, описанный в статье «Профессиональное руководство по оптимизации PR».

Единственный участок кода, выполненный и распознанный роботом, был ссылкой в строчке «document.write». Это не означает, что робот не умеет распознавать более сложные конструкции. Возможно, роботу требуются дополнительные условия (например, наличие обратных ссылок) для включения более глубокого анализа Javascript.

6. Индексация «хлебных крошек».

«Хлебные крошки» или навигационные цепочки (breadcrumbs) – один из часто используемых элементов, повышающих юзабилити сайта. У нас были подозрения, что робот Google очень неохотно обходит сайты снизу вверх, поэтому следующий наш тест был посвящен этой проблеме. Была создана страница глубокой вложенности с некоторым контентом и ссылками на несколько уровней вверх (http://example.com/lvl1/lvl2/lvl3/). Мы установили несколько обратных ссылок на эту страницу и стали ждать посещения робота. В результате, робот посетил страницу 3 раза, но на страницы верхнего уровня не перешел ни разу.

Для контроля мы провели такой же тест на другом домене. Страница была размещена еще глубже (http://example.com/lvl1/lvl2/lvl3/lvl4/lvl5/). На этот раз робот посетил несколько страниц, находящихся выше в структуре сайта, но даже через несколько недель не все страницы верхних уровней были загружены. Очевидно, робот предпочитает обходить сайт сверху вниз, а не снизу вверх, так что «хлебные крошки» бесполезны для улучшения структуры сайта.

Выводы.

Один из главных выводов – вы можете повлиять на скорость обхода страниц с помощью карты сайта. Это НЕ значит, что вам всегда нужно загружать карту. Карта может быть полезной при первой индексации страниц. Робот намного медленнее обращается к странице уровня F, чем к проиндексированной странице. Так что, если ваши страницы были обработаны роботом, но выпали из индекса, вам может понадобиться получить больше обратных ссылок перед тем, как загрузить карту. Лучше всего отслеживать дату последнего посещения робота для каждой страницы – так вы сможете легко выявить неполадки в структуре сайта.

Количество ссылок на странице не ограничено 250 (даже если у сайта нет обратных ссылок), но 5000 ссылок – это, очевидно, слишком много. Мы не ставили целью определить точный предел.

Ссылки в заголовочных тэгах не имеют никакого смысла в целях оптимизации. Они могут использоваться для улучшения юзабилити, тем более что WordPress поддерживает эту технику, а может быть они даже имеют какой-то очень небольшой ранжирующий вес, который мы не смогли обнаружить.

Еще один вывод – робот плохо обрабатывает «хлебные крошки», он неохотно переходит на верхние уровни с нижних, поэтому использование этой техники для улучшения структуры сайта не имеет смысла.

Вы можете использовать Javascript для наращивания PR. Робот Google сильно ограничен в своих возможностях по распознаванию кода Javascript. Однако, помните, что программисты Google постоянно совершенствуют алгоритмы робота, поэтому нельзя быть уверенным, что код, который вы сегодня используете для манипуляций с PR, не будет распознан через год или два.

И последний вывод связан с длиной ссылок - в наших тестах короткие ссылки обрабатывались раньше длинных, вывод здесь очевиден.

Вот такая интересная статья. А у вас есть свои наблюдения по теме? Если есть, то обязательно напишите в комментариях.

Информация: вебдизайн и создание сайтов уже покоряют СНГ полным ходом. Вот и создание сайтов казахстан подтверждают мои слова.

ОФФпост:

Вовочка приходит домой:
— Пап, у нас сегодня в школе такое случилось, что твоей зарплаты не хватит! 😀

Похожие записи в блоге:

   

Нравится как я пишу? Давайте вместе формировать интересные материалы на моем блоге. Вы можете сделать ретвит данной статьи или подписаться на мою ленту в системе микроблогов Твиттер.
Читайте меня в Твиттере и будьте в курсе последних моих действий.

Комментирование Facebook:


Блоггеру

  • Gogettop - уникальный сервис продвижения вечными ссылками с максимальной эффективностью и рассрочкой платежа на 12 месяцев. Эффективность естественных вечных ссылок очень высокая. Продвижение становится еще доступнее.

Опрос

Как вы относитесь к администрированию в Твиттере?

Просмотреть результаты

Загрузка ... Загрузка ...

Вовкин блог на Facebook