Что почитать аналитику данных: 5 книг для саморазвития

Кто такой SQL-аналитик

Начнем чуть раньше. Если утрировать, то бизнес-анализ представляет собой процесс превращения данных в информацию, а информации — в деньги. Основная цель такого процесса — повысить эффективность компании и ее конкурентоспособность. 

Бизнес-аналитика применяет  результаты анализа в практических целях. Бизнес-аналитик изучает потребности, проблемы, потенциальные возможности бизнеса в рамках заданных требований и рекомендует наиболее оптимальные решения, позволяющие компании достичь цели. 

SQL-аналитика — это более узкая часть бизнес-аналитики, главным инструментом которой стал SQL, или Structured Query Language — язык запросов, позволяющий работать с данными из БД: «читать» их, извлекать, исследовать, обрабатывать и визуализировать. 

Утрированный пример: представим таблицу (Students_data), которая содержит следующее:

  • ФИО человека (student);
  • номер школы (school);
  • предмет (subject);
  • количество баллов по ЕГЭ (points).

Как только вся информация собрана, мы получаем сущность — готовую таблицу, атрибуты — столбцы, записи — строки. Итого: некая база данных. Нам надо узнать, кто из школьников написал ЕГЭ по математике на 60 и выше баллов. И чтобы вытащить эту информацию из базы, нужно прописать на специфическом языке специальный запрос, который реализует как раз SQL:

select

student

from students_data

where subject = ‘Математика’ and points >=60

Несмотря на то, что SQL принято считать лишь одним из инструментов аналитики, он очень гибкий и достаточно обширный: на нем можно в том числе проектировать базы данных, задавать их структуру, создавать таблицы и т.д. Но мы используем в большей степени только ту часть, которая отвечает за запросы, то есть за извлечение данных из базы и их обработку.

В качестве источников данных в большинстве случаев выступают логи — данные из журналов событий информационных систем, где в хронологическом порядке зафиксированы все действия пользователя. Вспомните, где, как и в скольких программах вы работаете в течение дня, умножьте это на пару месяцев и еще на пару десятков/сотен человек. Данные получаются действительно огромными. 

Отсюда вытекает основная задача SQL-аналитика: понять, как нужно извлечь, преобразовать и визуализировать нужную информацию, чтобы это было полезно для бизнес-заказчика. 

Если я гуманитарий, то не могу стать аналитиком?

Академический бэкграунд для новичка не так важен. Инженеру-строителю аналитика больших данных будет даваться так же, как и филологу. Хорошо, если вы помните некоторые темы из базового курса по математике. Но если нет, ничего страшного: практика показывает, что разобраться в них могут и технари, и гуманитарии. При этом наличие другого, не связанного с математикой и программированием образования, иногда может быть на руку. Например, решать медицинские задачи биологам специализация поможет быстрее, чем человеку, который просто хорошо знает Python. Конечно, бэкграунд в математике и знание языка программирования могут упростить обучение. Но куда важнее способность и желание все время учиться новому и следить за тем, что происходит на переднем крае науки.

Статьи, каналы и видео о продуктовой аналитике

Каналы, блоги 

Всё об A/B-тестах — подборки материалов про A/B-тестирование.

Product Science — Антон Мартсен делится материалами о продуктовой и бизнес-стратегии, метриках, аналитике, прикладной Data Science и исследовании пользователей. Автор детально копает вглубь каждого топика, чтобы передать самую суть разных методов и подходов.

Интернет-аналитика — канал с 33 000 аудиторией, где Алексей Никушин делится статьями и исследованиями со всего мира.

Burger Data — cоветы, практики и новости веб-аналитики от руководителя группы аналитики «СберМаркетинг» Севы Мироновича.

Make Sense podcast — канал подкаста Make Sense

Ведущий Юрий Агеев говорит с гостями о том, что важно при создании продуктов — людях, идеях, деньгах, инструментах и практиках.

BigQuery Insights — инсайты и примеры SQL-запросов от продуктового аналитика в MacPaw.com.

No Flame No Game — авторский канал о развитии и разработке продуктов Анны Булдаковой.

Krasinsky: growth, marketing & product, analytics — Илья Красинский отвечает на часто задаваемые вопросы о продуктовом менеджменте и маркетинге, юнит-экономике, аналитике.

Datalytics — блог Алексея Макарова о веб-аналитике, анализе данных с помощью Python.

Close2Sense — канал о продуктовой аналитике, анализе данных и смысле.

Тёмная сторона — канал Аркадия Морейниса о работе с продуктами, маркетинге и стартапах.

Grow Horse — канал про Growth Management, команды роста и всё, что помогает хорошим продуктам быстро расти (в том числе аналитика).

Видео 

  1. Илья Красинский, AppCraft. Юнит-экономика или поиск точек кратного роста
  2. Глеб Сологуб, Skyeng. Как построить культуру аналитики в компании
  3. Алексей Смирнов, Wrike. Качественный анализ в продуктовой аналитике
  4. Александр Сергеев, Едадил. Продуктовая аналитика и выбор метрик
  5. Олег Рудаков, AGIMA. Продуктовые исследования мобильных приложений: поиск потребностей и барьеров клиентов
  6. Максим Годзи, Retentioneering. Тренды продуктовой аналитики
  7. Леонид Чёрный, Rambler. Сквозная аналитика как инструмент развития продукта или история одной монетизации
  8. Евгений Гильманов, Ultimate Guitar. Процессы и место аналитика в продукте
  9. Анастасия Кузнецова, Алексей Горгадзе, «Сетевые исследования». Методы анализа текста в R
  10. Алексей Рехлов, Creative Mobile. Как посчитать всё, что нужно, имея только Excel и 6 классов школы
  11. Василий Сабиров, Devtodev Долгосрочное удержание в играх
  12. Михаил Табунов, CPO FunCorp. Как мы растили ретеншен в продукте iFunny

Навыки

Знание Python.

Это наиболее популярный язык программирования для аналитиков данных и его знание хотя бы на базовом уровне требует большинство работодателей

Знание SQL.

Аналитики данных должны уметь работать с SQL и реляционными базами данных

Знание систем визуализации данных.

Таких программ много, к наиболее распространенным можно отнести Power BI, Qlik, Tableau

Умение использовать инфраструктуру Apache Hadoop.

Это платформа для обработки больших объемов данных

Для старта в профессии

  1. Понимание математики в части статистики, дискретной математики и теории вероятностей. Гением математики быть не нужно, достаточно основ
  2. Умение работать с гибкими методологиями создания продуктов. Обычно имеется в виду Agile, Scrum, Kanban.
  3. Знание Microsoft Excel. Электронные таблицы так же нужны для обработки данных.

Продвинутый уровень

  1. Проведение A/B-тестирования. Это метод оценки эффективности потенциальных изменений путем сравнения их результатов.
  2. Знание английского языка. Это позволит рассчитывать на более высокие должности в российских и на работу в зарубежных компаниях, плюс позволит изучить большой пласт англоязычной спецлитературы.
  3. Знание дополнительных языков программирования. Помимо упомянутого Python, аналитиками используются Java или R.


Согласно рейтингу, составленному по результатам опроса, более 57 тысяч респондентов, SQL, Python являются одними из самых востребованных технологий среди разработчиков.

Дата-сайентисты в облаках

Облегчить и ускорить работу по сбору данных, построению и развертыванию моделей помогают специальные облачные платформы. Именно облачные платформы для машинного обучения стали самым актуальным трендом в Data Science. Поскольку речь идет о больших объемах информации, сложных ML-моделях, о готовых и доступных для работы распределенных команд инструментах, то дата-сайентистами понадобились гибкие, масштабируемые и доступные ресурсы.

Именно для дата-сайентистов облачные провайдеры создали платформы, ориентированные на подготовку и запуск моделей машинного обучения и дальнейшую работу с ними. Пока таких решений немного и одно из них было полностью создано в России. В конце 2020 года компания Sbercloud представила облачную платформу полного цикла разработки и реализации AI-сервисов — ML Space. Платформа содержит набор инструментов и ресурсов для создания, обучения и развертывания моделей машинного обучения — от быстрого подключения к источникам данных до автоматического развертывания обученных моделей на динамически масштабируемых облачных ресурсах SberCloud.

Футурология

«Я бы вакцинировал троих на миллион». Интервью с нейросетью GPT-3

Сейчас ML Space — единственный в мире облачный сервис, позволяющий организовать распределенное обучение на 1000+ GPU. Эту возможность обеспечивает собственный облачный суперкомпьютер SberCloud — «Кристофари». Запущенный в 2019 году «Кристофари» является сейчас самым мощным российским вычислительным кластером и занимает 40 место в мировом рейтинге cуперкомпьютеров TOP500

Платформу уже используют команды разработчиков экосистемы Сбера. Именно с ее помощью было запущено семейство виртуальных ассистентов «Салют». Для их создания с помощью «Кристофари» и ML Space было обучено более 70 различных ASR- моделей (автоматическое распознавание речи) и большое количество моделей Text-to-Speech. Сейчас ML Space доступна для любых коммерческих пользователи, учебных и научных организаций.

«ML Space ­– это настоящий технологический прорыв в области работы с искусственным интеллектом. По нескольким ключевым параметрам ML Space уже превосходит лучшие мировые решения. Я считаю, что сегодня ML Space одна из лучших в мире облачных платформ для машинного обучения. Опытным дата-сайентистам она предоставляет новые удобные инструменты, возможность распределенной работы, автоматизации создания, обучения и внедрения ИИ-моделей. Компаниям и организациям, не имеющим глубокой ML-экспертизы, ML Space дает возможность впервые использовать искусственный интеллект в своих продуктах, приложениях и рабочих процессах», — уверен Отари Меликишвили, лидер продуктового вправления AI Cloud, компании SberCloud.

Облака помогают рынку все шире использовать платформы для работы с данными, предлагая безграничные вычислительные мощности, подтверждают аналитики Mordor Intelligence.

По мнению экспертов из Anaconda, потребуется время, чтобы бизнес и сами специалисты созрели для широкого использования инструментов DS и смогли получить результаты. Но прогресс уже очевиден. «Мы ожидаем, что в ближайшие два-три года Data Science продолжит двигаться к тому, чтобы стать стратегической функцией бизнеса во многих отраслях», — прогнозирует компания.

Аналитик Big Data

Big Data (Большие данные) — это термин, обозначающий огромные объемы структурированных и неструктурированных данных, которые можно обработать с помощью особых аналитических инструментов.

В качестве примера Big Data можно привести статистику всего поведения всех пользователей крупной социальной сети вроде Facebook за определенный период или данные обо всех торгах на Нью-Йоркской бирже.

Ручная обработка такого массива данных была бы невероятно затяжной и трудоёмкой. Но современные инструменты позволяют эффективно их анализировать, формулировать выводы и рекомендации и даже подстраивать под них поведение систем.

Аналитики BigData занимаются построением рекомендательных и предсказательных моделей, в том числе и для искусственного интеллекта — например, учат его распознавать пол человека по фотографии. Или могут спрогнозировать вероятность покупки платной версии мобильного приложения, исходя из поведения пользователя и данных о том, как вели себя люди, купившие приложение.

Профессия аналитика больших данных скорее ближе к деятельности разработчика, чем к труду других аналитиков, хотя непосредственно написанием кода они практически не занимаются. При этом в работе таким специалистам помогают инструменты программирования (Python, Scala, Bash) и системы для работы с данными (Spark, Hadoop). Но основную базу знаний Big Data аналитика составляют продвинутые знания в математической статистике, теории вероятностей, построении математических моделей, линейной алгебре и сложных методах вычислений.

Кому подойдет это направление аналитики?

Тем, кто всегда был на короткой ноге с математикой, и хотел бы применить свои знания в современной развивающейся области. Узнать больше о профессии аналитика больших данных можно на странице нашего факультета по Big Data Analytics.

Таковы наиболее популярные и востребованные аналитические специальности — хотя на самом деле их, безусловно, больше. Также существуют профессии CRM-аналитиков, категорийных аналитиков, аналитиков продуктовых категорий, аналитиков клиентского сервиса, SMM-аналитиков и многие другие.

Надеемся, что эта статья помогла вам лучше разобраться в многообразии аналитических профессий — и, возможно, «присмотреть» свою будущую стезю!  

Зарплата аналитика данных

Уровень заработной платы зависит от двух факторов.

  • Регион проживания. В столице и крупных городах он выше. На старте карьеры аналитику данных в регионах могут предлагать оплату в пределах 25–40 тысяч рублей. В столице начальный порог выше, он составляет 60–75 тысяч рублей.
  • Уровень квалификации. Уровень Junior или новичок предполагает, что специалист лишь начинает развитие, не обладает опытом, а потому пока не представляет высокой ценности для компаний. В процессе профессионального роста до уровня Middle, а затем и Senior будет увеличиваться и доход: 75–130 тысяч для специалиста с опытом 2–3 года и до 200 тысяч рублей для профессионала с большим набором реализованных кейсов.

Знание английского языка позволяет хорошему специалисту трудоустроиться в зарубежную компанию и увеличить уровень заработка в 6–7 раз.

Types of Data Analytics

Data analytics is broken down into four basic types.

  1. Descriptive analytics: This describes what has happened over a given period of time. Have the number of views gone up? Are sales stronger this month than last?
  2. Diagnostic analytics: This focuses more on why something happened. This involves more diverse data inputs and a bit of hypothesizing. Did the weather affect beer sales? Did that latest marketing campaign impact sales?
  3. Predictive analytics: This moves to what is likely going to happen in the near term. What happened to sales the last time we had a hot summer? How many weather models predict a hot summer this year?
  4. Prescriptive analytics: This suggests a course of action. If the likelihood of a hot summer is measured as an average of these five weather models is above 58%, we should add an evening shift to the brewery and rent an additional tank to increase output.

Data analytics underpins many quality control systems in the financial world, including the ever-popular Six Sigma program. If you aren’t properly measuring something—whether it’s your weight or the number of defects per million in a production line—it is nearly impossible to optimize it.

Some of the sectors that have adopted the use of data analytics include the travel and hospitality industry, where turnarounds can be quick. This industry can collect customer data and figure out where the problems, if any, lie and how to fix them.

Healthcare combines the use of high volumes of structured and unstructured data and uses data analytics to make quick decisions. Similarly, the retail industry uses copious amounts of data to meet the ever-changing demands of shoppers. The information retailers collect and analyze can help them identify trends, recommend products, and increase profits. 

Why Is Data Analytics Important?

Data analytics is important because it helps businesses optimize their performances. Implementing it into the business model means companies can help reduce costs by identifying more efficient ways of doing business. A company can also use data analytics to make better business decisions and help analyze customer trends and satisfaction, which can lead to new—and better—products and services. 

What Are the 4 Types of Data Analytics?

Data analytics is broken down into four basic types. Descriptive analytics describes what has happened over a given period of time. Diagnostic analytics focuses more on why something happened. Predictive analytics moves to what is likely going to happen in the near term. Finally, prescriptive analytics suggests a course of action.

Who Is Using Data Analytics?

Data analytics has been adopted by several sectors, such as the travel and hospitality industry, where turnarounds can be quick. This industry can collect customer data and figure out where the problems, if any, lie and how to fix them. Healthcare is another sector that combines the use of high volumes of structured and unstructured data and data analytics can help in making quick decisions. Similarly, the retail industry uses copious amounts of data to meet the ever-changing demands of shoppers.

Где учиться на SQL-аналитика

В университете у нас был небольшой курс, посвященный изучению SQL, однако, приступив к работе, я поняла, что это больше теория. Практика же требует намного больших знаний и умений, поэтому большим подспорьем были экспертные статьи, книги, курсы и даже Telegram-каналы. Что могу посоветовать:

Интерактивный тренажер по SQL

Один из самых известных и мейнстримных, но очень толковых курсов. Акцент сделан на том, чтобы научить созданию БД и правильно прописывать запросы, дать азы о связанных таблицах. Особенно полезным курс будет для тех, кто только начинает знакомство с SQL и пока мало понимает, что это и о чем это. Многие из наших ребят начинали свой путь в аналитике именно с этих курсов.

SQL Для Начинающих

Тоже для тех, кто делает первые шаги в анализе. Об SQL рассказывают просто и с самых азов — от установки до решения задач с различными операторами.

Учебник по языку SQL (DDL, DML) на примере диалекта MS SQL Server

Отличный и понятный, что немаловажно, учебник по SQL. Был очень полезен на начальных этапах работы, когда приходилось освежать знания

Кирилл Еременко «Работа с данными в любой сфере» 

Для тех, кто очень хочет связать свою жизнь с аналитикой, но не знает, с чего начать. Автор делает акцент на именно на том, как работать с информацией и на чем лучше концентрироваться. 

ClickHouse 

Священная вещь. Большой русскоязычный (!) портал с документацией по ClickHouse, к которой постоянно обращаемся. Здесь можно найти ответ на любой интересующий вопрос. Все расписано емко, подробно и без воды. Кстати, в Telegram есть классный чат «ClickHouse не тормозит» с живым обсуждением самых разных тем.

Совет: перед тем, как выбрать курс, обязательно посмотрите, есть ли обратная связь и домашние задания. Теория теорией, но лучше практики ничего нет.

Быть SQL-аналитиком не значит сидеть с девяти до шести в офисе. Это интерес к своему делу в любое время дня. Не раз замечала, что для нас скинуть интересный кейс, экспертную статью в рабочий чат — естественное дело.

Профессия SQL-аналитика, с одной стороны, требует огромной точности и «аналитически заточенного разума», с другой же — предполагает креатив и возможность проявить творческую нотку. Не стоит этого бояться.

К чему надо быть готовым:

  • постоянное повышение своих скиллов;
  • поиск нестандартных путей решения задач;
  • готовность перенимать чужой опыт и двигаться вперед;
  • рутина, частая однообразная работа.

During your Studies

By pursuing a master’s degree (MSc) in Data and Network Analytics, you will receive well-rounded, theoretically-driven and empirically rigorous training in the latest state-of-the art analytics. You will learn every aspect of working with data, from data management to advanced analysis – including quantitative analysis – and you will be able to apply the skills you’ve learned in a number of settings, from medicine to linguistics to social sciences.

Every course offered in the programme covers the mathematics necessary to master the content, the software and programming skills required to perform analysis, and practical examples to work from. Moreover, since our programme has an applied focus, we start from problems rather than mathematics and proofs.

The programme starts with the basics of data analytics. We then move to progressively more advanced topics applicable to different types of data. As the programme progresses, training will become increasingly rigorous.

To enhance the flexibility of the programme, students are given the freedom to tailor their education to their specific needs by selecting courses they want to take from a large pool of available electives. Each topic brings a focus on specific problems and challenges that real-life analytics present. You will work through these problems, attempting to find the best solution, combining methods and tools from different courses, all while continuing to master advanced programming and software skills.

«Бизнес-моделирование и анализ данных. Решение актуальных задач с помощью Microsoft Excel», Уэйн Лесли Винстон

Книга американского ученого научит вас анализировать и обрабатывать данные, принимать решения, составлять отчеты и строить аналитические модели в Excel.

Материал объясняется на понятных примерах, а практические бизнес-задачи после каждого раздела помогают закрепить новые знания. Книга подойдет не только тем, кто начинает погружаться в аналитику. Она учит финансовым и статистическим функциям в Excel, а это полезно и в других сферах. Понимание, как увеличить прибыль, сократить затраты, эффективно управлять производством, пригодится как в крупной корпорации, так и в малом бизнесе.

Святослав Зборовский, Corporate Data Analyst в DataArt

Книги

«Статистика и котики», Владимир Савельев

Книга объясняет основные принципы статистики простым языком. Но автор рассказывает только о базовых методах. Поэтому книги хватит только для того, чтобы понимать, о чем говорят аналитики.

 «Голая статистика», Чарльз Уилан 

Уилан рассказывает о сложных статистических методах, их достаточно для свободного погружения в работу аналитиком

Особенно отмечается важность интерпретации данных и риск искажения результатов

DAMA-DMBOK: Data Management Body of Knowledge: 2nd Edition

Эта книга посвящена подготовке источников чистых и надежных данных. В ней подробно описаны все этапы сбора информации и дата-менеджмента. 

«Введение в машинное обучение с помощью Python. Руководство для специалистов по работе с данными», Андреас Мюллер и Сара Гвидо

Книга рассказывает об особенностях работы с machine learning в Python, а также о базовых ML-алгоритмах. Она отлично подойдет и новичкам, и опытным аналитикам, которые хотят углубиться в машинное обучение. 

Telegram

Reveal The Data

Автор канала Роман Бунин рассказывает об особенностях визуализации данных. Очень интересный канал, с учетом того, что сейчас недооценивают визуализацию как метод анализа данных.

Чат Tableau

Tableau — одна из самых популярных BI-платформ и настоящий must have для аналитиков. В чате обсуждают особенности работы с Tableau и разбирают частые ошибки при построении дашбордов. 

Любому игровому проекту нужна аналитика

посчитали достигнетData Driven

  • Традиционная статистика — собираем отчёты, в которых рассказываем, что на прошлой неделе в игре упали продажи определённых предметов. Показываем в динамике, как менялся уровень продаж за весь год.
  • Data Driven — собираем данные, которые показывают, почему игроки перестали покупать предметы. Выяснили, что после последнего обновления слегка поменялся баланс в нескольких квестах, игроки буквально пробегают все задачи без труда и потребность в предметах исчезла. В отчёте предлагаем пути исправления — например, изменение характеристик мобов в нужных локациях.

Александр Кутовой, Senior Data Scientist в Klarna

Блоги

Open Data Science 

Это огромное комьюнити в Slack, где вы найдете помощь, советы и поддержку по всем вопросам любого уровня сложности, связанным с data science. 

Если вы столкнулись с проблемой или хотите узнать про какую-то область знаний в DS — там найдутся люди, которые уже давно в этой нише и готовы помочь вам советом или поделиться хорошими ссылками на тему.

Towards Data Science

Вероятно, лучший источник информации в кейсовой форме. Информация сбалансирована (теория/практика) и удобна для восприятия (хорошо структурированные тексты, в суть которых можно вникнуть за 15-20 минут). Много примеров имплементации конкретных приемов, лучшие практики решений разных проблем и задач, способы имплементации. 

Эти два ресурса — 95% всего, что я читаю по теме. Рано или поздно туда стекается все остальное.