Потребность мира и бизнеса в анализе больших данных будет только расти. В 2011 году International Data Corporation оценивала вес накопленных в мире данных в 1,8 зеттабайта (=1,8 трлн Гб), спустя два года, в 2013-м, их было уже 4,4 зеттабайта. В прошлом году только совокупный интернет-трафик превысил 1,1 зеттабайта. Ежедневно генерируется более 2,5 квинтилионов байт данных, а за год их объём как минимум удваивается.

Грамотный диджитал-аналитик (войти в эту профессию и развить скиллы поможет ближайший курс #tceh по digital-аналитике) требуется сегодня каждой компании, работающей в интернете. Cпрос на data scientist'ов тоже растёт. По подсчётам IDC, компаниям США уже к 2018 году потребуется 181 тыс. специалистов по анализу big data. В 2015 году этот сегмент российского рынка исследовал портал Superjob.ru. По данным опроса работодателей, в 6% отечественных компаний уже два года назад открывалась позиция аналитика больших данных. Это быстрорастущая профессиональная сфера, где инструменты и технологии меняются тоже стремительно. Есть несколько основных точек входа в data science для digital-аналитиков — это Excel, SQL, SAS, R и Python. Итак, 5 главных инструментов big data аналитика.


Начнём с базовых


Excel

Чем крут Excel? Довольно прост и знаком каждому. 1 млн 48 тыс. 576 строк! 16 тыс. 384 столбца!) Набор решаемых аналитических задач ограничен только вашими знаниями, навыками и фантазией.


SQL

SQL универсален и потому популярен среди аналитиков. Используется и внутри SAS, и в R, и в Python. Позволяет создавать базы данных, выбирать данные из таблиц по заданным условиям и легко группировать их.


Подробнее о продвинутых


SAS

«Крёстный отец» аналитики: используется в бизнесе с 1976 года. Он проще в изучении, чем R и Python. Имеет подробную документацию и поддержку клиентов, поэтому многие компании, которые давно на SAS, редко переходят на что-то другое. А вот более молодые организации чаще используют R или Python.

Сертификат SAS — до сих пор огромный плюс для кандидатов на вакансии аналитиков. Но обучение стоит дорого, да и сама система SAS обходится компаниям недёшево. Чтобы быть востребованным на рынке труда, digital-аналитику явно стоит учить R или Python.


R

Если вы уже опытный практик Data Science, то вас непременно спросят, знаете ли вы R. Этот язык используют в разработке с 2007 года. Применялся прежде всего в научных и прикладных исследованиях, но быстро набирал обороты и в бизнесе. Популярность R продолжает расти, бросая вызов почти 40-летней монополии SAS. Аналитики ценят этот язык за простоту и функциональность, в том числе за бесплатные инструменты.

Для R существует около 12 тысяч статистических, графических и аналитических пакетов.

ВАЖНО


У R есть ограничение: если вы используете этот язык без параллельной обработки, то объём данных при анализе будет лимитирован размером установленной оперативной памяти. То есть, если у вас есть 4 ГБ оперативной памяти на ноутбуке, вы не можете обрабатывать больший объём данных. Для анализа массивов, превышающих размер оперативки, потребуются специальные платные пакеты, техники программирования или параллельной обработки.



Python

Благодаря открытому коду Python — отличная бесплатная альтернатива R. Его преимущества — в читаемости кода и пригодности к производственной среде. Многие системы производства больших объёмов данных используют именно Python. Есть и недостатки: к примеру, в R больше статистических пакетов. Зато для Python есть множество библиотек и модулей, которые помогают аналитику превращаться в Data Scientist.

Pandas — пакет для первичного анализа данных. В частности, с помощью этого пакета вы можете создавать структуры данных, управлять числовыми таблицами (DataFrame) и временными рядами (Series). Это бесплатное программное обеспечение, распространяемое по лицензии BSD.

Scikit-Learn содержит много алгоритмов машинного обучения для классификации, регрессии, кластеризации (включая методы опорных векторов, k-средних, случайные леса, gradient boosting и DBSCAN).

NumPy — обширная библиотека математических функций высокого уровня. Обеспечивает быструю предварительную компиляцию функций для задач с многомерными массивами числовых данных.

Statsmodels — модуль для исследования данных, оценки статистических моделей, построения функций и статистических тестов.

NLTK — набор библиотек и программ статистической обработки естественного языка, используется в создании прототипов и исследовательских систем.

Theano позволяет эффективно применять математические функции и выражения к многомерным массивам данных.

Библиотеки в различном сочетании дают свободу в выборе опций для работы с большими данными и создания прогнозов.


Кратко резюмируем

В базисе аналитику больших данных необходимы SQL и Excel. Чтобы двигаться дальше внутри профессии, стоит выбрать один из языков в зависимости от ваших потребностей — R, Python или SAS. А в идеале — использовать все три. Например:

  • • SAS — чтобы обрабатывать большие массивы данных;
  • • Python — создавать модель машинного обучения;
  • • R — обеспечивать графическое представление данных.

ОПЫТНЫЕ НАБЛЮДЕНИЯ ОТ ЭКСПЕРТА


Продакт-менеджер, эксперт по экономике продуктов и метрикам, основатель и генеральный директор Magic Ink, инструктор ФРИИ Илья Красинский:

Мой опыт собеседования digital-аналитиков, продуктовых аналитиков и data scientist’ов позволил сделать несколько наблюдений.

Самые главные инструменты, которые нужны аналитику — это понимание, что и зачем нужно посчитать, и умение ясно излагать мысли.

Не стоит ожидать, что бизнес правильно сформулирует задачу: он и сам чаще всего не знает, что хочет получить. Поэтому навык задавать вопросы и правильно формулировать результаты сэкономит часы обработки данных.

Я делю аналитиков на тех, кто знает много хитрых алгоритмов и пытается применить их к любой задаче (просто потому что прикольно) и тех, кто действительно решает нужную задачу. Первые применят к любой задаче с десяток data-mining методов и в каждый кейс засунут новомодный метод, сведут поставленную задачу к сферическому коню и днями напролёт будут писать алгоритмы обработки целого вагона показателей. Вторые — пользуются эвристиками, упрощениями и усреднениями. Но зато они быстро получают цифры, достаточно точные для принятия верного управленческого решения.

В Magic Ink мы в основном используем связку Python+Pandas. Она позволяет быстро проредить массив данных и посмотреть разные его срезы. Детали и нюансы дотачиваем в Google Таблицах. Но на мой взгляд, выбор инструментов — это больше вопрос вкуса, скиллсета и традиций в компании.

Главное помнить: как и в любом деле, 80% результата достигается за счет верной постановки задачи и 20% известных эвристик. Оставшиеся методы чаще всего могут дать совсем небольшой прирост к ценности решения.

Алина Драгун,

Автор #tceh