Перед вами краткий перевод статьи Д-ра Питера Дж. Майерса, президента компании User Effect и признанного на Западе сео-специалиста. Майерс регулярно публикует интересные статьи на сайте Moz.com. Блог Moz.com входит в топ 25 лучших западных сео-блогов и посвящён как техническим, так и теоретическим вопросам сео-оптимизации.

 

Оригинал статьи можно прочитать здесь http://moz.com/blog/comparing-ranktracking-methods-browser-vs-crawler-vs-webmaster-tools
В глубине души каждый сеошник знает, что мониторинг ранжирования — инструмент ненадёжный. Это в лучшем случае. В худшем, бездумный мониторинг может ввести в заблуждение. Нужно мониторить с умом. Мониторинг с умом — полезный инструмент для диагностики состояния сайта как стетоскоп у врача.

 

К сожалению, на ранжирование влияют очень много факторов: локализация, персонализация, прозрачность и т.д. Поэтому не всегда понятно, как именно конкретное ключевое слово влияет на ранжирование. В этой статье я попытаюсь сравнить 4 метода мониторинга ранжирования:

 

-браузер — персонализированный поиск;

-браузер — неперсонализированный поиск (в режиме инкогнито);

-паук (поисковый робот);

-инструменты Google для вербмастера (GWT).

 

Команда Moz создала много инструментов для измерения ранжирования. Поэтому нас нельзя назвать плохо подготовленными.

Статья, наверное, получилась слишком сухая и даже академичная. Это потому, что я старался быть точным. Ведь наша цель — найти и предоставить клиентам надёжные данные. Я подробно изложу нашу методологию, а решать вам придётся самим.

 

Методология

Для начала мы собрали 500 лучших запросов за июль 2013 года. Запросы были взяты из данных Moz по отчётам GWT. Это дало достаточный диапазон ранжирования и кликабельности. Мы использовали данные GWT, потому что это самый ограниченный метод отслеживания.

7 августа мы измерили эти 500 запросов, используя 4 метода:

 

1.Браузер — персонализированный поиск.

Старомодный подход. Я залогинился в своём аккаунте Google и вручную вводил запросы в браузере Google Chrome.

 

2. Браузер — неперсонализированный поиск (в режиме инкогнито)

Тут я снова “работал руками”, но в свой аккаунт не входил. Поиск шёл в режиме инкогнито.

 

3. Паук (поисковый робот)

Мы немного изменили наш MozCast (инструмент для мониторинга ранжирования, разработанный командой SeoMoz). Проверили каждый из 500 запросов по рангу случайных (рандомных) IP-адресов (и C-blocks). Так как паук не эмулирует cookie и другие логины, добавили параметр персонализации (“&pws=0”), чтобы удалить другие формы персонализации. Для того, чтобы удалить локализацию, ввели опцию “&near=us” . Мы проверили до 5 страниц выдачи для каждого запроса и собрали данные для всех 500 запросов, кроме 12 (по ним Moz.com недавно занял первое место в ранжировании).

 

4. Инструменты Google для вебмастера (GWT)

Тут мы собрали данные из GWT за 7 августа (отчёт “Поисковый трафик” — “Поисковые запросы”) по параметрам “Веб” и “США”. GWT использует данные со многих точек измерения и выдаёт среднее значение — ““Avg. position”. Плюс в том, что точек измерения много. Минус — что результат не очень точный.

 

После мы сравнили данные GWT и данные остальных методов. Часть запросов пришлось отбросить, так как данные по ним были неполными (в основном, из-за GWT). Мы исследовали оставшиеся 206 запросов с полными данными.
Результаты: корреляции

Чтобы сравнить методы, мы измерили коэффициент корреляции Спирмена.

 

Подробнее о нём читайте здесь http://www.machinelearning.ru/wiki/index.php?title=%D0%9A%D0%BE%D1%8D%D1%84%D1%84%D0%B8%D1%86%D0%B8%D0%B5%D0%BD%D1%82_%D0%BA%D0%BE%D1%80%D1%80%D0%B5%D0%BB%D1%8F%D1%86%D0%B8%D0%B8_%D0%A1%D0%BF%D0%B8%D1%80%D0%BC%D0%B5%D0%BD%D0%B0

 

Были обнаружены существенные корреляции на уровне p<0.01*.

Значения коэффициента корреляции показаны на графике ниже:

 

примечание: к p-значениям мы применяли коррекцию Бонферрони. О корреции Бонферрони можно прочесть статью на английском языке

http://en.wikipedia.org/wiki/Bonferroni_correction

 

Любопытно, что результаты всех методов сильно коррелируют. Особенно Персонализированный поиск vs Неперсонализированный поиск. Это нормально, ведь оба поиска основаны на данных браузера.

 

На рисунке ниже представлены данные Персонализированный поиск vs Неперсонализированный поиск.

 

У паука и GWT была довольно низкая корреляция. Но ни одно из различий не является достаточно значимым.

 

Различия по оси Y довольно большие, а на оси X данные во многом совпадают. Многие ключевики из этих данных в GWT занимают первую позицию в ранжировании. Это повышает корреляцию. Всё равно, даже если не принимать во внимание этот факт, разница в показаниях обоих методов довольно мала.

 

Тем, кто слабо разбирается в корреляции и r-значениях (коэффициентах корреляции), автор советует прочесть статью Correlation vs. Causation (A Mathographic)

ссылка http://moz.com/blog/correlation-vs-causation-mathographic

 

Неравенство «p<0.01» означает, что вероятность того, что r-значения случайны (рандомны), составляет менее 1 %. Я хочу сказать, что мы на 99% уверены, что существует некая корреляция. Неважно, насколько значима эта корреляция. В данном случае, мы просто сравниваем наборы данных, чтобы увидеть, насколько они похожи, не выясняя причин этой схожести.

 

Результаты: соглашение

Я уверен, что вы уже заметили, что мы искали парные корреляции. В принципе, ничего плохого в этом нет. Проблема в том, что так мы только сравниваем один метод с другим, и всё. Методы сильно зависят друг от друга, поэтому сложно определить, насколько сильна корреляция. Поэтому мы решили выяснить, данные какого метода больше всех согласуются или не согласуются с остальными данными. ( Образно говоря, какой метод самый “согласный” или “несогласный”).

Для этого мы разработали “Метод Измерения Расхождений”. В “Дополнении А” можно прочесть о нём подробно. Здесь я кратко изложу суть.

Предположим, все 4 метода дают нам следующее ранжирование (не забудьте, что GTW даёт среднее значение):

 

Метрика расхождений выглядит так:

 

Как видите, 2 первых метода дают наибольшее совпадение. Метод 4 даёт наибольшую разницу с методом 1. Чем больше “расстояние” между методами, тем больше разница в показателях.

Мы посчитали коэффициент (показатель) расхождения по каждому из 4 методов для каждого из 206 поисковых запросов. Вычислим средний показатель расхождений для каждого метода:

 

1. Персонализированный поиск — 1.12

2. Неперсонализированный поиск — 0.82

3. Паук — 0.98

4. GWT — 1.26
Самый высокий показатель расхождений у GWT, самый низкий — у неперсонализированного поиска. Вывод напрашивается сам собой: метод GWT чаще всего “не соглашается” с другими методами.

Насколько эти расхождения существенны статистически? Для вычислений мы применили статистический U-критерий Манна-Уитни.

 

Почитать подробнее про U-критерий Манна -Уитни на английском можно здесь http://www.nyx.net/~tmacfarl/STAT_TUT/mann_whi.ssi

краткая статья из русскоязычной Википедии http://ru.wikipedia.org/wiki/U-%D0%BA%D1%80%D0%B8%D1%82%D0%B5%D1%80%D0%B8%D0%B9_%D0%9C%D0%B0%D0%BD%D0%BD%D0%B0_%E2%80%94_%D0%A3%D0%B8%D1%82%D0%BD%D0%B8
Сравнивая показатели расхождений для каждой пары методов, мы обнаружили, что единственное статистически значимое различие даёт пара Неперсонализированный поиск vs GWT — p=0.22. А я стараюсь стремиться к показателю p<0.01. Поэтому наши данные о расхождениях для этой пары ненадёжны.

 

Результаты: информация к размышлению

Предположим, с помощью этой статистики мы бы нашли самый “несогласный” метод. И что? Самый “несогласный” — не значит, самый неверный. Как я уже говорил выше, все методы в той или иной мере неточны и неверны. И ни одна статистика не поможет нам определить лучший метод.

 

Давайте лучше рассмотрим повнимательней самые масштабные случаи разногласия и попытаемся разобраться, что происходит.
Случай первый: высокое ранжирование в персонализированном поиске

Возьмём, к примеру, Moz.com. В персонализированном поиске по запросу “контрольный список сео” Moz.com занимает позицию 3. В неперсонализированном поиске — позицию 7. Для GWT средний результат равен 6.7. Если мы уберём персонализацию, позиция Moz.com упадёт до 4. А если выйти из системы и подождать несколько дней — до 5.

Я ожидал, что данные персонализированного поиска будут сильнее отличаться от данных других методов. Ведь я захожу на сайт Moz.com каждый день и вообще веду себя очень активно. Если бы персонализация оказывала такое большое влияние, как я ожидал, то самым “несогласным” методом был бы персонализированный поиск. Тем не менее, это не так.

Вывод: на выдачу по некоторым запросам персонализация оказывает большое влияние. Но это влияние имеет пределы.

 

Случай второй: наказание за персонализацию

В некоторых случаях персонализация фактически снизила ранжирование. Например, в выдаче по запросу “аналитик — кто это?” Moz.com занимал 12 позицию в персонализированном и неперсонализированном поиске. Для паука — 3 позицию, а для GWT — 5. Я перепроверил результаты практически вручную. Результаты: позиция 10 для персонализированного поиска и позиция 2 для паука.

Что происходит? Оба поиска (персонализированный vs паук) дают в топе окно с определением, кто такой аналитик. А следующие 10 ссылок в каждом поиске разные. Логично предположить, что Moz.com должен иметь лучшее ранжирование в любом из персонализированных поисков. Но это не так. В реальности всё намного сложнее.

 

Случай третий: GWT ( или сам Google) ненавидит нас

Здесь GWT, кажется, неправ. По данным от 7 августа для запроса “СЕО” позиция Moz.com была 3 для персонализированного поиска, и 4 для паука и непероснализированного поиска. Для GWT мы были на 6 месте. Вообще, не такая уж и большая разница. Но для столь важного ключевого слова это может иметь значение.

Пока я писал эту статью, Moz.com занимал 4 место. Я попросил “помощь зала”, т.е. соцсетей: сделать персонализированный поиск по запросу “СЕО” и отметить позицию Moz.com. Данные неамериканцев я отбросил (это 63 результата, 36 из Twitter и 27 из Facebook). Ранжирование американцев колебалось от3 до 8. Среднее значение — 4.11. Только 2 американца сообщили о позиции 6. Вот необработанные данные:

Как видите, 4 позиция — самая популярная. Да, большинство моих друзей — сеошники, и поэтому данные могут быть не совсем объективными. Но я думаю, что это спекуляция. Утверждать, что показатели GWT не коррелируют с остальными из-за персонализации, это всё равно что говорить, что вселенная должна состоять из тёмной материи, только потому что без тёмной материи у нас не сходятся вычисления. Может, это и вправду так, но нам нужны доказательства.

 

Доверять Google?

В конце концов, что такого, если показатели GWT не согласуются с остальными? Это ведь мои личные проблемы. Почему бы просто не доверять Google?

Может, так и надо поступить. Но уж слишком много у меня вопросов. С одной стороны, мы знаем, что локализация, персонализация и прочее могут сместить показатели. С другой стороны, 56 человек из 63 (89%) видят мой сайт на 3 или 4 месте в персонализированном поиске. А Google даёт 6 позицию. Почему?

В конце концов, показатель Google может быть верным. Проблема в том, что мы не знаем, откуда он взялся. Как он был измерен? Как Google считает, к примеру, локальные результаты? Какие показатели входят в “Средний показатель” Google? Включены ли результаты из поиска not provided?

Выводы

Хорошая новость в том, что все 4 метода (персонализированный, инкогнито, паук и GWT) не сильно отличаются друг от друга. Если проводить измерения в течение достаточно долгого времени и не в абсолютных числах, то результаты будут примерно одинаковыми.

Плохая новость в том, что всё может измениться. Даже сейчас ни один из этих методов ничего не значит без базового (основного) органического ранжирования. Ни один из методов не включает локальные результаты, ничего не говорит нам о кликабельности или трафике. Методы линейны, и поэтому всегда чуточку некорректны. Т.е. мы тупо тянем сайт с 10 на позицию 1, зная, что начиная с 3 позиции и ниже показатель кликабельности катастрофически падает.

Независимо от того, какой метод мы используем, наше представление о ранжировании и видимости сайта должно выходить за рамки самого метода. Нужно отдавать себе отчёт, что любые данные являются неполными и неточными. Собирайте данные из многих источников и никому не доверяйте полностью. Мониторьте с умом.
Дополнение А: Как мы измеряли показатель расхождений

Во время пилотного исследования мы поняли, что в дополнение к парной корреляции нам необходимо понять, как каждый метод соотносится с другими. Иными словами, какие методы “соглашаются” или “не соглашаются” со всеми методами в целом? Мы придумали простую метрику, основанную на сумме различий между всеми методами. Например, для ключевого слова X методы дали следующее ранжирование:

 

Методы 2 и 3 дали похожие результаты. Методы 1 и 4 дали самую большую разницу. После нескольких тестов мы вычислили сумму квадратных корней абсолютных разностей между каждым методом и остальными тремя. Это не так сложно, как может показаться. Давайте вычислим показатель несогласия для метода 1. назовём его М1. Аналогично другие методы будут называться М2, М3 и М4. Для М1 для ключевого слова Х показатель разногласия равен:

 

Мы использовали абсолютное значение, потому что направление различий нам не важно. Квадратный корень, по существу, занижает результаты. Это сделано для того, чтобы неточности в данных какого-либо метода не смогли повлиять на конечный результат. Значение разногласия для М1 такое:

<   т.е. подходит к показателю 2.8. Вот значения для всех 4 методов:

Чтобы вам не пришлось верить мне на слово, рассмотрим ещё пару примеров. В примере ниже 2 метода всё ещё “соглашаются” друг с другом. Позиции в ранжировании здесь ниже:

Метрика расхождений имеет следующие значения:

 

М1 и М2 “соглашаются” друг с другом, поэтому имеют одинаковые значения расхождений. Значения немного увеличены, чтобы показать, что полное расстояние между этими методами довольно большое.

Пример с парами методов, которые согласуются друг с другом:

 

В этом случае все 4 метода имеют одинаковый показатель расхождений:

Мы игнорируем тот факт, что 2 метода дали ключевому слову Х позицию 2, а 2 других — позицию 5. Мы обращаем внимание только на то, насколько один метод соглашается с другим. В данном случае, если рассматривать весь набор методов сразу, все методы соглашаются друг с другом. Если бы различие между парами методов было шире, то показатель расхождения увеличился бы.

Приведённые выше вычисления нельзя считать статистически значимыми. Но я постарался изложить все подробности. Думаю, они пригодятся в будущем.