И чтобы лишний раз попиарить курс в #tceh по веб-аналитике, я съездил в офис «Островка» и поговорил с Евгением Курышевым (Chief Marketing Officer @ Ostrovok.ru) и Михаилом Павловым (Chief Product Officer @ Ostrovok.ru) о работе с данными.
Каждый немного аналитик
В «Островке» работает больше 300 человек. 180 из них так или иначе работают с данными. Каждый специалист, которому необходима аналитика, а это почти все, кто занимаются продуктом, бизнесом и маркетингом, должен уметь самостоятельно выгружать и интерпретировать данные.
«Если ты не можешь анализировать свои данные — то ты неудачник. Каждый сотрудник должен быть немного аналитиком», — говорит Евгений.
Чтобы достичь такого результата, компания проводит тестирование на знание базовых вещей, прежде чем брать нового сотрудника. В чём отличие между медианой и среднеарифметическим? Что такое и зачем нужно среднеарифметическое взвешенное?
«Мы сразу выбираем людей, которые дружат с цифрами. Мы мотивируем дружить с цифрами тех, кто уже работает. Учим, проводим образовательную работу. Короче, к нам не попадают люди, которые не любят считать, копаться в данных».
Все механизмы работы с данными построены по принципу self service, или по-русски — помоги себе сам. Маркетологи, бизнес-девелоперы, даже sales-менеджеры — если кому-то нужно выгрузить данные, он сам это делает. В компании практически нет прокладки между цифрами и тем, кому они нужны — есть аналитики, которые обеспечивают доступ к данным, проводят обучение и помогают сотрудникам, если появляется необходимость.
У сотрудников нет барьеров к информации — каждый может залезть почти в любой кусок бизнеса. Данные защищены только там, где это требуется по закону, либо по этическим соображениям, например, зарплаты сотрудников.
На вопрос о том, что многие предприниматели и топ-менеджеры боятся открывать своей команде полные данные о бизнесе, потому что их могут украсть, Евгений отвечает:
«Нужно просто не ссать. Есть так много вещей, которые могут убить бизнес, и последнее, о чём я бы беспокоился — что конкуренты украдут твои данные. Даже если бы нашу базу сейчас украли целиком и полностью, никто бы не стал прыгать с крыши. Думаю, это актуально не только для стартапов, но и для e-commerce, например».
Открытость данных рождает культуру работы с ними, прививает любовь к цифрам.
Система сбора и хранения данных
Обычно в компаниях нет консолидированного центра сбора данных (data warehouse). Всё разбросано кусочками по разным инструментам — что-то в Google Analytics, что-то в CRM, что-то в Mixpannel, и так далее. Это накладывает ряд проблем. Например, стыковка разных слоёв информации происходит в Excel, если вообще происходит.
Основной DWH в «Островке» — колоночная база данных Vertica, к которой делают запросы более-менее опытные и владеющие SQL сотрудники, а таких в компании бо́льшая часть.
Для простоты есть более дружелюбное решение в виде OLAP-кубов — это многомерная система обработки данных, такое централизованное многомерное хранилище уже подготовленных данных, к которому можно подключиться прямо через привычный Excel и дальше вертеть, крутить и визуализировать данные через стандартные инструменты, которыми владеют практически все.
«Мы используем Google Analytics для конкретных продуктово-маркетинговых исследований. Но у этого инструмента роль второго плана», — комментирует Михаил.
Компания начала собирать данные с первого дня существования: «…идея, что нам нужен свой data warehouse, куда стекаются все данные, возникла сразу, потому что изначально инженеров в компании было больше, чем всех остальных», — говорит Евгений.
Выводы на основе данных
Верная интерпретация — большая проблема. Даже если кто-то собрал систему сбора данных, возникает вопрос: а что с этими данными делать? Если не уметь задавать правильные вопросы и делать правильные выводы, данные могут обмануть. Большинство людей, которые мало работали с данными, видят то, чего на самом деле нет. Особенно если заранее хотят увидеть в данных какой-то конкретный вывод. Люди активно подгоняют данные под свои гипотезы, и это легко получается.
«Я часто слышу, что инструменты аналитики с красивыми графиками и приятным интерфейсом — это невероятно просто. Что они содержат качественные ответы, и вот вы просто 18 раз сделаете А/Б-тестирование, каждый даёт какой-то результат, и сайт уже улучшен на порядок. На самом деле всё очень сложно. Большинство людей, которые работают с данными долго, спустя несколько лет работы понимают, сколько они ранее сделали ошибочных выводов, основываясь вроде на чистых данных», — комментирует Евгений вопрос об интерпретации.
Люди находят то, чего нет, ещё и потому что привыкли связывать понятные им явления с изменениями в бизнесе. Пример — большинство маркетологов смотрят на конверсию. Она выглядит понятной, интуитивной, и кажется, что она в ответе за весь бизнес. Изменения в конверсии привязывают к каким-то действиям. Получается такая связка — мы на сайте что-то поменяли, из-за этого конверсия выросла, а как результат — выросли продажи.
«Мы в эту ловушку попадали часто. Показываем отчёт и говорим: за квартал конверсия выросла на 18%, наш продукт стал лучше конвертить. А потом начинаем копаться и понимаем, что продукт вообще ни при чём. Самым частым фактором было изменение соотношения новых и вернувшихся пользователей в пользу последних. У тех пользователей, которые впервые приземлились на сайт, конверсия в среднем за всё время существования сервиса, изменилась, ну может быть, на 30-40%. И это годы улучшений.
Но пользователи, которые возвращаются, имеют конверсию настолько выше, что в миксе они тянут общий показатель сильно вверх. И данные можно ложно интерпретировать, как если бы мы сделали невероятно крутой продукт», — замечает Михаил.
Парни приводят в пример А/Б-тест в Google, когда компания сделала 3 варианта выдачи поиска: 10 ссылок, 18 ссылок и 30 ссылок. Результат эксперимента — чем меньше ссылок видит пользователь, тем больше конверсия. Но перепроверив результаты, компания нашла настоящую причину — дело не в том, сколько ссылок видно в выдаче, а с какой скоростью загружается страница. Чем меньше результатов в выдаче, тем быстрее грузится страница и тем выше конверсия.
«Бывает обратная фигня, когда в результате эксперимента вроде ничего не поменялось и нет статистически значимого результата, но если разделить потоки пользователей, например бизнес-тревел и классический тревел, и замерить их по-отдельности, то ты сильно негативно повлиял на одних, и сильно позитивно на других», — говорит Михаил о разборе результатов экспериментов.
Данные могут как дать ответ, так и запутать. Парни приводят в пример парадокс Симпсона.
Парадокс Симпсона — когда при наличии двух групп данных, в каждой из которых наблюдается одинаково направленная зависимость, при объединении этих групп направление зависимости меняется на противоположное.
Пример: лекарство тестируется отдельно на мужчинах и отдельно на женщинах. В обоих случаях оно показало эффективность — с ним больше выздоравливают, чем без него. Но если объединить мужчин и женщин в одну группу, то результаты меняются на обратные — без лекарства выздоравливало больше людей, чем с лекарством.
В компании обучают интерпретации, объясняя результаты предыдущих экспериментов, а также комментируя выводы на общих собраниях и встречах.
Когда нужно внедрять в компанию data warehouse
С одной стороны, если стартап маленький или средний, такое масштабное решение неактуально. С другой, любой уважающий себя стартап рассчитывает, что он вырастет в размерах в десятки раз. И вот если это произойдёт, тогда отсутствие данных может сильно ударить по темпам роста.
«Нужно заранее собирать и хранить важные вещи где-то за пределами SaaS-систем. Хотя бы просто экспортировать куда-то. Отсутствие warehouse нормально на этапе прототипа, тестирования идеи или первого роста, но очень скоро этого будет мало. Если вы заранее не организовали общее хранилище данных, то вам неоткуда будет потом их взять. И в момент, когда у вас могли бы быть данные, полезные для роста, вы их только начнёте собирать», — советует Евгений.
Какие-то данные можно ретроспективно вытащить из Google Analytics, но некоторые достать невозможно, если вы не озаботились их сбором. Например, если в момент продажи не сохранялась информация о том, что пользователь делал ранее, то она будет безвозвратно потеряна.
«Я пытаюсь вспомнить хоть один случай, когда данные, которые сначала все считали бесполезными, потом бы не пригодились, и ничего не вспоминается. Всё, что мы хранили, оказалось где-то и зачем-то нужно. Рано или поздно», — Михаил также ратует за ранний сбор данных.
«Мы с самого начала старались сохранять максимум информации. Всегда был момент «Ага!», когда мы понимали, зачем хранили эту гору данных. Обычно это самое «Ага!» сопровождалось удивительной и очень ценной находкой, которая помогала расти.
И да, во многом ответ на вопрос, почему мы растём звучит так: потому что мы умеем работать с данными. Более того, если бы мы пошли другим путём, компании бы уже не было. Большинство ответов и секретов, которые когда-либо были, мы нашли в данных».
Про метрики и дашборды
Метрикам также обучают внутри компании. Есть стандартный набор знаний о том, как устроен бизнес — ему обучают всех вновь прибывших. Есть стандартные дашборды (dashboards — экраны, на которые выводятся метрики в реальном времени), где даже самый юный маркетолог может увидеть финансовый перфоманс компании — сколько денег зарабатывает и тратит направление.
Кстати, про дашборды — в компании их несколько сотен. Они висят на стенах, в проходах, даже на кухне:
«У нас это начиналось как карго-культ, а-ля давайте сделаем, чтобы везде циферками мигало, и сразу заживём, все станут аналитиками… Но в какой-то момент мы поняли, что если выбрать правильные метрики, на которые люди любят дрочить, то они постоянно о них думают — фотографируют, выкладывают в Instagram, когда рекорд какой-нибудь…».
Мониторы-дашборды быстро оповещают об ошибках:
«…как только в вашей компании 18-минутный взлёт или падение метрики из-за какой-нибудь ошибки становятся дороже, чем стоимость одного телевизора, возможно, вам стоит купить этот телевизор и вывести на него эту метрику».
Куда дальше
Система эволюционирует. Финального варианта как такового нет.
У команды ещё большая работа впереди, например, нет системы визуализации данных, которая тоже была бы self service, чтобы каждый сотрудник мог быстро сделать визуальный дашборд. В «Островке» есть Tableau, но вот как раз нет культуры её повсеместного использования, и, наверное, отчасти проблема в том, что она не нравится команде. С OLAP-кубами может работать любой нуб, а Tableau оказалась неприятно сложной, медленной и не эстетичной.
Самое сложное, считают Евгений и Михаил, не в постройке системы, а в привитии культуры работы с данными: я думаю, у нас 2 года ушло на то, чтобы донести: нужны данные — иди и возьми. Что нужно разбираться самим и не рассчитывать, что сейчас прилетит аналитик в голубом вертолёте, и всё за тебя посчитает».
Вариант «приставить аналитика к сотрудникам» компания не допускает: «Это не то, к чему мы стремимся в “Островке”. Если ты, например, биздев, то ты должен понимать всю ширину бизнеса. Чтобы понимать всю ширину бизнеса, нужно понимать аналитику, а чтобы её понимать, нужно самому руками работать с данными. Допускаем вариант, что есть компромиссное решение — когда биздев сам умеет работать с данными и сам с ними работает, но при этом к нему приставлен человек, который саппортит по рутинной работе. Компромиссы возможны только при очень сложных исследованиях, где без бутылки не разберёшься. Иногда это принимает экстремальные формы, например, для анализа саплая у нас есть hadoop кластер и сразу несколько человек, которые им пользуются и его обслуживают только ради нескольких сложных задач по анализу данных».
***
Наблюдать за тем, как компания искусно обращается с информацией, жонглируя метриками и выцепляя ценнейшие откровения — большое удовольствие. Уезжать не хотелось.
LETS_SUBSC
Комментарии