Самообучение в data science, с нуля до senior за два года

Содержание

Введение

Привет, я хочу рассказать вам, как стать Data Scientist, не имея диплома (или просто бесплатно). По иронии судьбы, у меня есть диплом, и он даже имеет отношение к Data Science (Магистерская программа в Северо-Западном университете). Но до этого я работал бухгалтером в Deloitte. Странно, да? Я был далек от Data Science и всего технического. Мне приходилось много изучать онлайн самостоятельно после работы и даже во время магистратуры, чтобы догнать однокурсников, так как я пришел не из технической сферы. Как человек, прошедший через все это, могу с уверенностью сказать, что обучение в университете очень помогает, но совсем не обязательно. Мне кажется, раз я побывал по обе стороны — и диплом получил, и онлайн учился — я смогу дать вам особый взгляд. Получение магистерской степени в Data Science — хороший и быстрый способ попасть в эту сферу, но, к счастью, вовсе не единственный, особенно, если вы не хотите тратить $60–90 тысяч на обучение. Однако от вас потребуется строгая самодисциплина.

Если кто-то спросит меня, как попасть в Data Science, этот пост будет для них. Надеюсь, что мои советы будут актуальны и полезны; во время моего обучения мне очень помогали эти ресурсы. Прежде, чем мы углубимся в детали, давайте разберемся, что такое Data Science.

Полный курс по Data Science

Длительность: 18 месяцев, Около 8 часов в неделюФормат: занятия в записи, проверяют дз, есть общий чат и по выходным проводят вебинары с ответами на вопросыОсобенности: Школа специализируется на аналитике и разработке
Полная стоимость: 162 000₽/курс
Стоимость в рассрочку: от 4 500₽/месПрограмма курса

Ступеньки карьеры и перспективы

Профессия Data Scientist сама по себе является высоким достижением, для которой требуются серьёзные теоретические знания и практический опыт нескольких профессий. В любой организации такой специалист является ключевой фигурой. Чтобы достичь этой высоты надо упорно и целенаправленно работать и постоянно совершенствоваться во всех сферах, составляющих основу профессии.

Интересные факты о профессии

Про Data Scientist шутят: это универсал, который программирует лучше любого специалиста по статистике, и знает статистику лучше любого программиста. А в бизнес-процессах разбирается лучше руководителя компании.

ЧТО ТАКОЕ «BIGDATA» в реальных цифрах?

  1. Через каждые 2 дня объём данных увеличивается на такое количество информации, которое было создано человечеством от Рождества Христова до 2003 г.
  2. 90% всех существующих на сегодня данных появились за последние 2 года.
  3. До 2020 г. объём информации увеличится от 3,2 до 40 зеттабайт. 1 зеттабайт = 10 21 байт.
  4. В течение 1 минуты в сети Facebook загружается 200 тысяч фото, отправляется 205 млн. писем, выставляется 1,8 млн. лайков.
  5. В течение 1 секунды Google обрабатывает 40 тыс. поисковых запросов.
  6. Каждые 1,2 года удваивается общий объём данных в каждой отрасли.
  7. К 2020 г. объём рынка Hadoop-сервисов вырастет до $50 млрд.
  8. В США в 2015 г. создано 1,9 млн. рабочих мест для специалистов, работающих на проектах Big Data.
  9. Технологии Big Data увеличивают прибыль торговых сетей на 60% в год.
  10. По прогнозам объём рынка Big Data увеличится до $68,7 млрд. в 2020 г. по сравнению с $28,5 млрд. в 2014 г.

Несмотря на такие позитивные показатели роста, бывают и ошибки в прогнозах. Так, например, одна из самых громких ошибок 2016 года: не сбылись прогнозы по поводу выборов президента США. Прогнозы были представлены знаменитыми Data Scientist США Нейт Сильвером, Керк Борном и Биллом Шмарзо в пользу Хиллари Клинтон. В прошлые предвыборные компании они давали точные прогнозы и ни разу не ошибались.

В этом году Нейт Сильвер, например, дал точный прогноз для 41 штата, но для 9 штатов — ошибся, что и привело к победе Трампа. Проанализировав причины ошибок 2016 года, они пришли к выводу, что:

  1. Математические модели объективно отражают картину в момент их создания. Но они имеют период полураспада, к концу которого ситуация может кардинально измениться. Прогнозные качества модели со временем ухудшаются. В данном случае, например, сыграли свою роль должностные преступления, неравенство доходов и другие социальные потрясения. Поэтому модель необходимо регулярно корректировать с учётом новых данных. Это не было сделано.
  2. Необходимо искать и учитывать дополнительные данные, которые могут оказать существенное влияние на прогнозы. Так, при просмотре видео митингов в предвыборной кампании Клинтон и Трампа, не было учтено общее количество участников митингов. Речь шла приблизительно о сотнях человек. Оказалось, что в пользу Трампа на митинге присутствовало 400-600 человек в каждом, а в пользу Клинтон — всего 150-200, что и отразилось на результатах.
  3. Математические модели в предвыборных кампаниях основаны на демографических данных: возраст, раса, пол, доходы, статус в обществе и т.п. Вес каждой группы определяется тем, как они голосовали на прошлых выборах. Такой прогноз имеет погрешность 3-4 % и работает достоверно при большом разрыве между кандидатами. Но в данном случае разрыв между Клинтон и Трампом был небольшим, и эта погрешность оказала существенное влияние на результаты выборов.
  4. Не было учтено иррациональное поведение людей. Проведенные опросы общественного мнения создают иллюзию, что люди проголосуют так, как ответили в опросах. Но иногда они поступают противоположным образом. В данном случае следовало бы дополнительно провести аналитику лица и речи, чтобы выявить недобросовестное отношение к голосованию.

В целом, ошибочный прогноз оказался таковым по причине небольшого разрыва между кандидатами. В случае большого разрыва эти погрешности не имели бы такого решающего значения.

Требования к специалисту

За последнее десятилетие специалисты по обработке данных стали необходимым активом и присутствуют практически во всех организациях. Эти профессионалы – разносторонне образованные люди с техническими навыками высокого уровня, способные создавать сложные количественные алгоритмы для организации и синтеза больших объемов информации, используемых для ответа на вопросы и реализации стратегии в организации.

Указанные знания должны сочетаться с хорошими коммуникативными и лидерскими качествами, необходимыми для достижения полезных результатов для различных заинтересованных сторон внутри организации или бизнесе в целом.

Заинтересованность в своей работе в сочетании с высочайшими отраслевыми знаниями и хорошими навыками коммуникации позволяют data scientists легко объяснять высокотехнологичные результаты другим сотрудникам с нетехническим образованием.

Как правило, для работы в качестве специалиста по данным требуется высшее образование в области информатики, математики или естествознания, при этом высоко ценится специализация в сфере высшей математики, физики, статистики и инженерного дела. Ожидается, что сотрудник будет знать некоторые языки программирования (R, Python, SQL, C и/или Java) и особенности работы с базами данных.

Отдельные крупные работодатели предлагают самостоятельные программы подготовки специалистов, которые обычно занимают около двух лет. Некоторые из них принимают в качестве учеников выпускников ВУЗов с любой специальностью.

Квалификация последипломного образования (например, степень магистра или доктора наук) также может быть полезной для профессиональной карьеры. В некоторых учебных заведениях доступно обучение в магистратуре по специальности бизнес-аналитика или дата сайенс, однако для поступления требуется иметь диплом первой ступени ВУЗа по специальности в области математики, инженерии, информатики или естественных наук, в редких случаях допускаются бакалавры, окончившие факультеты бизнеса, экономики или психологии, при наличии математических способностей и базового опыта программирования.

*2020: Академия больших данных MADE и HeadHunter выяснили, как меняется спрос на Data Scientist в России

16 июля 2020 года Академия больших данных MADE от Mail.ru Group и российская платформа онлайн-рекрутинга HeadHunter (hh.ru) составили портреты российских специалистов по анализу данных (Data Science) и машинному обучению (Machine Learning). Аналитики выяснили, где они живут и что умеют, а также чего ждут от них работодатели и как меняется спрос на таких профессионалов.

Академия MADE и HeadHunter (hh.ru) проводят исследование уже второй год подряд. На этот раз эксперты проанализировали 10 500 резюме и 8100 вакансий. По оценкам аналитиков, специалисты по анализу данных — одни из самых востребованных на рынке. В 2019 году вакансий в области анализа данных стало больше в 9,6 раза, а в области машинного обучения – в 7,2 раза, чем в 2015 году. Если сравнивать с 2018 годом, количество вакансий специалистов по анализу данных увеличилось в 1,4 раза, по машинному обучению – в 1,3 раза.

Активнее других специалистов по большим данным ищут ИТ-компании (на их долю приходится больше трети – 38% – открытых вакансий), компании из финансового сектора (29% вакансий), а также из сферы услуг для бизнеса (9% вакансий).

Такая же ситуация и в сфере машинного обучения. Но здесь перевес в пользу ИТ-компаний еще очевиднее – они публикуют 55% вакансий на рынке. Каждую десятую вакансию размещают компании из финансового сектора (10% вакансий) и сферы услуг для бизнеса (9%).

С июля 2019 года по апрель 2020 года резюме специалистов по анализу данных и машинному обучению стало больше на 33%. Первые в среднем размещают 246 резюме в месяц, вторые – 47.

Самый популярный навык — владение Python. Это требование встречается в 45% вакансий специалистов по анализу данных и в половине (51%) вакансий в области машинного обучения.

Также работодатели хотят, чтобы специалисты по анализу данных знали SQL (23%), владели интеллектуальным анализом данных (Data Mining) (19%), математической статистикой (11%) и умели работать с большими данными (10%).

Работодатели, которые ищут специалистов по машинному обучению, наряду со знанием Python ожидают, что кандидат будет владеть C++ (18%), SQL (15%), алгоритмами машинного обучения (13%) и Linux (11%).

В целом предложение на рынке Data Science соответствует спросу. Среди самых распространенных навыков специалистов по анализу данных – владение Python (77%), SQL (48%), анализом данных (45%), Git (28%) и Linux (21%). При этом владение Python, SQL и Git – навыки, которые практически одинаково часто встречаются в резюме специалистов любого уровня. Опытных специалистов отличают развитые навыки анализа данных, в том числе интеллектуального (Data Analysis и Data Mining).

У специалистов по машинному обучению в топе такие навыки, как владение Python (72%), SQL (34%), Git (34%), Linux (27%) и С++ (22%).

На долю Москвы приходится больше половины (65%) вакансий специалистов по в сфере анализа данных и ровно половина вакансий специалистов в области машинного обучения. На втором месте Санкт-Петербург: 15% вакансий специалистов в сфере анализа данных и 18% вакансий в области машинного обучения — в этом городе.

По сравнению с первым полугодием 2019 года в июле 2019 года – апреле 2020 года доля вакансий специалистов по анализу данных в Москве несколько возросла — с 60% до 65%.

Что касается соискателей, больше половины из них также находятся в Москве: 63% специалистов по анализу данных и 53% специалистов по машинному обучению. Вторая строчка – тоже за Санкт-Петербургом (16% и 19% резюме соответственно).

Профессия Data Scientist от Skillbox

Для анализа больших и неоднородных массивов данных используется технология Big Data. Машинные технологии научились делать выводы и использовать инфографику для визуализации данных. На услуги Data Scientist предъявляют спрос банки, мобильные операторы, производители программных продуктов. Уровень оплаты в Big Data стабильно высок. Обучиться профессии с нуля могут новички, а опытные программисты прокачают свои навыки. Курс от Skillbox задействует разные инструменты — языки кода, фреймворки, библиотеки и базы данных.

Освоение новых знаний происходит в контакте с наставником. Сообщество профессионалов Skillbox даёт обратную связь при выполнении заданий и помогает выпускникам с трудоустройством.

Чем еще нужно обладать?

Помимо образования, есть несколько качеств, которые, как мне кажется, пригодятся дата-сайентисту.

Математический склад ума. В процессе принятия решений человек должен руководствоваться в первую очередь логическими умозаключениями.

Нестандартное мышление. Часто бывает, что для того, чтобы все работало, достаточно добавить или заменить всего одну строчку в коде. И аналитику нужно додуматься, какую именно.

Усидчивость. У дата-сайентистов довольно много рутинной работы, например, загрузка и предварительная обработка данных, проверка гипотез — не самые интересные и приятные этапы рабочего процесса. Но без них остальная часть работы невозможна, поэтому специалист должен уметь себя заставить делать что-то не очень интересное. 

Дотошность

Мне, например, важно системно докопаться до сути вопроса, даже если на самом деле он не является важным. Например, после просмотра какого-нибудь фильма от Marvel я могу потратить много времени, систематизируя информацию об этой киновселенной: о супергероях, их истории, способностях и взаимоотношениях, о значимых событиях и так далее

В работе это качество необходимо, чтобы понимать нюансы применения различных алгоритмов и моделей, вплоть до деталей реализации.

Конечно, для дата-сайентистов очень важны внимание к деталям и настойчивость. Но это не значит, что одно только упорство или талант к математике сделают из вас профессионала

Дата-сайентист — профессия для целеустремленных и увлекающихся. Для тех, кто не боится трудностей и не бросает дело на полпути. И если все перечисленное про вас, то почему вы до сих пор не с нами в команде?

Фото в материале: архив компании

Кто такой Data Scientist и чем он занимается?

Говоря простыми словами, это специалист по анализу данных. Он собирает их, объединяет в базы, ищет и анализирует закономерности и на этой основе создает модели, которые помогают принимать те или иные решения. Чаще всего они востребованы в следующих сферах: ИТ, телеком, банки и финансы, консалтинг, маркетинг, научные исследования.

Какие задачи они решают:

  • Создание рекомендательных систем.
  • Формирование прогнозов, например, на рынках акций.
  • Создание скоринговых систем, которые принимают решения на основе анализа большого объема данных. Например, выдать кредит клиенту или нет.
  • Выявление аномалий в различных системах. Например, для автоматической блокировки подозрительных банковских операций.
  • Персонализированный маркетинг. Формирование уникальных предложений для клиентов, акций, скидок.

Чтобы проще понять, чем занимается Data Scientist, разберем пример рекомендательного алгоритма. Многие музыкальные сервисы на основе статистики прослушиваний могут предлагать пользователям другие треки, которые им понравятся. Алгоритм, по которому работает эта программа, создает специалист по анализу больших данных.

Все больше компаний собирают различные базы данных, которые используются для разных целей. Поэтому востребованность специалистов растет. Им предлагают хорошие зарплаты, о чем расскажем ниже.

Мы разобрались, кто такой Data Scientist и что это за профессия. Пора поговорить о преимуществах и недостатках данной работы.

Обязанности дата-сайентиста:

  • проводить анализ и исследование данных, чтобы решать бизнес-задачи;
  • использовать большие объемы данных из внутренних и внешних источников, чтобы отвечать на запросы бизнеса;
  • использовать аналитические программы, машинное обучение и статистику для прогнозирования;
  • исследовать данные, чтобы находить скрытые закономерности;
  • подавать полученную информацию в доступном формате акционерам и руководителям.

Курс

Data Science с нуля

Освойте самую востребованную профессию 2021 года! Только реальные знание и навыки, поддержка менторов и помощь в трудоустройстве. Дополнительная скидка 5% по промокоду BLOG.

Узнать больше

«Самая сексуальная профессия»

Как написал несколько лет назад журнал Harvard Business Review: «Data Scientist — самая сексуальная профессия XXI века».

В статье рассказывалось о Джонатане Голдмане, физике из Стэнфорда, который устроившись на работу в социальную сеть LinkedIn, занялся чем-то странным и непонятным. Пока команда разработчиков ломает голову над тем, как модернизировать сайт и справиться с наплывом посетителей, Голдман строит прогностическую модель, которая подсказывает владельцу аккаунта LinkedIn, кто еще из пользователей сайта может оказаться его знакомым.

С тех пор профессия Data Scientist не стала менее сексуальной, скорее наоборот. В 2016 году она возглавила кадровой компании Glassdoor. Не будем подробно останавливаться на том, почему сегодня эта профессия считается одной из самых высокооплачиваемых, привлекательных и перспективных в мире. Отметим лишь, что число вакансий в этом направлении продолжает расти по экспоненте. Согласно прогнозам McKinsey Global Institute, к 2018 году в одних только США понадобится дополнительно порядка 140-190 тысяч специалистов по работе с данными.

Неудивительно, что сегодня так много желающих  освоить эту профессию. Давайте разберемся, кто же такой Data Scientist и какими навыками и знаниями он должен обладать.

Как им стать

Учеба обязательна для этой профессии. Причем учиться надо много, долго и основательно. Для начала надо освоить азы математики, статистики и информатики, а дальше изучить языки программирования, лучше начать с Python.

На блоге iklife.ru собраны лучшие курсы по Python для начинающих и опытных программистов, которые будут полезны при освоении должности Data Scientist.

Также рекомендую вам прочитать следующие книги:

  • Брендан Тирни, Джон Келлехер “Наука о данных”
  • Кирилл Еременко “Работа с данными в любой сфере”
  • Уэс Маккинни “Python и анализ данных”

Куда пойти учиться

Лучшее обучение – это онлайн-обучение. Платформы Skillbox, Нетология, GeekBrains, SkillFactory, ProductStar и Stepik предлагают свои обучающие программы:

  • Профессия‌ ‌Data‌ ‌Scientist‌
  • Data Scientist
  • Data Science с нуля

Ознакомиться с полным перечнем курсов для Data Scientist можно на нашем блоге.

Уточню, что на этом учеба не должна заканчиваться. Data Scientist – это такая профессия, которая предполагает непрерывное обучение. Даже если вы уже работаете, периодически повышать свой уровень надо обязательно. К тому же выбор достаточно широк – это и онлайн-курсы, и тренинги, и конференции.

Где найти работу

Сложно сказать, где именно искать работу по этой профессии. Не из-за того, что мало мест, а, наоборот, потому что нет такой сферы бизнеса, где нельзя было бы применить талант этого специалиста. Ему доступна как работа в офисе, так и удаленно на дому.

Он востребован в таких областях деятельности как:

  • IT-сфера,
  • медицина,
  • банковские структуры,
  • СМИ,
  • торговля,
  • политика,
  • транспортные компании,
  • страховые фирмы,
  • сельское хозяйство,
  • наука,
  • метеослужбы.

Как я уже говорила, Data Scientist нужен во многих сферах, где необходимы прогнозы, анализ рисков и поведения клиентов. Поэтому список можно дополнить.

Перед откликом на вакансию надо подготовить резюме. В нем сосредоточиться в первую очередь нужно на математических и IT-навыках, опыте работе, успешных проектах и достижениях. Описание должно получиться кратким, лаконичным и простым. Специалисту надо прикрепить портфолио к резюме.

Учтите, что вакансии на эту должность не всегда называются именно “Data Scientist”. Работодатели могут написать, что требуется IT-аналитик, специалист по анализу систем, аналитик Big Data.

Вакансии и зарплата, перспективы профессии

Эта профессия достаточно молодая, но уже востребована на рынке. Количество данных растет в геометрической прогрессии и требует нестандартного подхода к обработке. Традиционное машинное обучение не срабатывает, нужен совершенно другой подход.

Специалистов разного уровня недостаточно, спрос на их услуги очень высок

Но важно понимать, что выйти на достойную оплату труда за несколько месяцев для Data scientist невозможно. Но для старта в профессии достаточно иметь отличную математическую базу, навыки программирование и знать алгоритмы

В зависимости от уровня знаний и опыта работы зарплата специалиста будет следующая:

Квалификация (уровень знаний)

Опыт работы и зарплата

Junior

Опыт работы до 1 года. Специалисты этого уровня уже знают базовые модели и могут их адаптировать для решения конкретной задачи. Умеют визуализировать данные. Зарплата специалиста 60 000 – 120 000 рублей.

Middle

Опыт работы 1-3 года. Специалисты этого уровня уже могут обучать прототипы и подбирать модель под конкретную задачу. Они хорошо понимают потребности бизнеса и могут быстро решить задачу. Зарплата специалиста 150 000 – 180 000 рублей.

Senior

Опыт работы от 3-х лет. Специалист такого уровня уже может управлять командой, быть связующим звеном между исполнителями и бизнесом. Он хорошо разбирается в распределенных вычислениях, может быстро обучить прототип на незнакомых данных для оценки эффективности новой идеи. Зарплата специалиста 180 000 – 270 000 руб.

Самые свежие вакансии с кратким описанием требований к кандидату

Итак, начинающий специалист может рассчитывать на зарплату от 60 000 рублей. Востребованность и высокую оплату подтверждают следующие вырезки только с одного сайта с вакансиями:

Направления развития в профессии

Data scientist всегда работает в команде, состоящей из аналитиков и инженеров данных. Каждый специалист занимается только одним направлением:

  • Data engineer – инженер данных, отвечает за создание и поддержку инфраструктуры, обеспечивая сбор, хранение и управление потоками данных в реальном времени.
  • Chief data officer – директор по данным, управляет жизненным циклом данных так, чтобы каждый специалист получал нужную информацию в подходящем виде и приемлемом качестве. Контролирует работу других специалистов.
  • Data mining – аналитик данных, который обрабатывает исходные данные и предоставляет их в компактном виде.
  • Text mining – аналитик текстов, который обрабатывает и разделяет тексты на категории, извлекая информацию и обрабатывая изменения.

Сферы применения Data scientist

В настоящее время формирование и обработка баз данных есть в любой сфере деятельности. В реальной жизни специалист может найти применение своих знаний в следующих отраслях:

Отрасль

Пояснения

Производство

Необходимо мониторить текущие процессы и находить причины возникновения брака. Предлагать варианты оптимизации и улучшения качества продукции. Планировать различные эксперименты и предлагать новые виды продукции.

Энергетика

Основные задачи специалиста состоят в прогнозировании объемов потребления и цен на электроэнергию. Он может провести диагностику объектов и рассчитать оптимальные тарифы. Предложит оптимизировать режим потребления электроэнергии, подготовит заявки на почасовое потребление.

Ритейл

Необходимо прогнозировать спрос и цены, отток или увеличение количества клиентов. Анализировать предпочтения потребителей. Оптимизировать склады и логистику для увеличения эффективности.

Финансы

Оценивать риски и резервные фонды. Отслеживать мошенничество и возможные риски неисполненных кредитных обязательств. Построение инвестиционных моделей входит в задачи специалиста.

Самые популярные вопросы

Если никогда не занимался аналитикой, получится ли освоить Data scientist?

Если у новичка развито аналитическое мышление, то при правильном подходе к обучению можно достигнуть хорошего уровня. Достаточно своевременно выполнять задания, общаться с куратором и самостоятельно расширять кругозор.

Можно ли совмещать обучение с основной работой?

Каждый студент проходит обучение в своем темпе. Все уроки доступны после окончания поддержки куратора еще некоторое время. Всегда можно вернуться к теме и повторить пройденный материал.

Как можно найти работу по специальности после получения диплома?

Уже во время обучения каждый студент выполняет реальные задачи и наполняет портфолио. После окончания обучения будет доступен раздел с рекомендациями по поиску проектов.

Как искать вакансии?

На самом деле в вакансии пишут, что требуются IT-аналитики, специалисты по анализу. Только при собеседовании будет понятно, какой именно специалист требуется работодателю.

Data Scientist: кто это и что он делает

В переводе с английского Data Scientist – это специалист по данным. Он работает с Big Data или большими массивами данных.

Источники этих сведений зависят от сферы деятельности. Например, в промышленности ими могут быть датчики или измерительные приборы, которые показывают температуру, давление и т. д. В интернет-среде – запросы пользователей, время, проведенное на определенном сайте, количество кликов на иконку с товаром и т. п.

Данные могут быть любыми: как текстовыми документами и таблицами, так и аудио и видеороликами.

От области деятельности зависят и результаты работы Data Scientist. После извлечения нужной информации специалист устанавливает закономерности, подвергает их анализу, делает прогнозы и принимает бизнес-решения.

Человек этой профессии выполняет следующие задачи: оценивает эффективность и работоспособность предприятия, предлагает стратегию и инструменты для улучшения, показывает пути для развития, автоматизирует нудные задачи, помогает сэкономить на расходах и увеличить доход.

Его труд заканчивается созданием модели кода программы, сформировавшейся на основе работы с данными, которая предсказывает самый вероятный результат.

Профессия появилась относительно недавно. Лишь десятилетие назад она была официально зафиксирована. Но уже за такой короткий промежуток времени стала актуальной и очень перспективной.

Каждый год количество информации и данных увеличивается с геометрической прогрессией. В связи с этим информационные массивы уже не получается обрабатывать старыми стандартными средствами статистики. К тому же сведения быстро обновляются и собираются в неоднородном виде, что затрудняет их обработку и анализ.

Вот тут на сцене и появляется Data Scientist. Он является междисциплинарным специалистом, у которого есть знания статистики, системного и бизнес-анализа, математики, экономики и компьютерных систем.

Знать все на уровне профессора не обязательно, а достаточно лишь немного понимать суть этих дисциплин. К тому же в крупных компаниях работают группы таких специалистов, каждый из которых лучше других разбирается в своей области.

Более 100 крутых уроков, тестов и тренажеров для развития мозга

Начать развиваться

Эти знания помогают ему выполнять свои должностные обязанности:

  • взаимодействовать с заказчиком: выяснять, что ему нужно, подбирать для него подходящий вариант решения проблемы;
  • собирать, обрабатывать, анализировать, изучать, видоизменять Big Data;
  • анализировать поведение потребителей;
  • составлять отчеты и делать презентации по выполненной работе;
  • решать бизнес-задачи и увеличивать прибыль за счет использования данных;
  • работать с популярными языками программирования;
  • моделировать клиентскую базу;
  • заниматься персонализацией продуктов;
  • анализировать эффективность деятельности внутренних процессов компании;
  • выявлять и предотвращать риски;
  • работать со статистическими данными;
  • заниматься аналитикой и методами интеллектуального анализа;
  • выявлять закономерности, которые помогают организации достигнуть конечной цели;
  • программировать и тренировать модели машинного обучения;

внедрять разработанную модель в производство.

Четких границ требований к Data Scientist нет, поэтому работодатели часто ищут сказочное создание, которое может все и на превосходном уровне. Да, есть люди, которые отлично понимают статистику, математику, аналитику, машинное обучение, экономику, программирование. Но таких специалистов крайне мало.

Еще часто Data Scientist путают с аналитиком. Но их задачи несколько разные. Поясню, что такое аналитика и как она отличается от деятельности Data Scientist, на примере и простыми словами.

В банк пришел клиент, чтобы оформить кредит. Программа начинает обрабатывать данные этого человека, выясняет его кредитную историю и анализирует платежеспособность заемщика. А алгоритм, который решает выдавать кредит или нет, – продукт работы Data Scientist.

Аналитик же, который работает в этом банке, не интересуется отдельными клиентами и не создает технические коды и программы. Вместо этого он собирает и изучает сведения обо всех кредитах, что выдал банк за определенный период, например, квартал. И на основе этой статистики решает, увеличить ли объемы выдачи кредитов или, наоборот, сократить.

Аналитик предлагает действия для решения задачи, а Data Scientist создает инструменты.

Управление данными

  • Master Data Management (Управление основными мастер-данными) Каталог систем и проектов
  • Системы управления нормативно-справочной информацией в России. Ведущие игроки и главные тренды
  • Управление данными (Data management)
  • Директор по данным (Chief Data Officer, CDO)
  • Наука о данных (Data Science)
  • Специалист по изучению данных (data scientist)
  • Директор по цифровым технологиям Chief Digital Officer, CDO
  • Директор по цифровым технологиям (Chief Digital Officer, CDO) в России
  • ИТ-директор (CIO — Chief Information Officer)
  • Директор по информационной безопасности (Chief information security officer, CISO)
  • Финансовый директор (CFO — Chief Financial Officer)
  • Системный администратор
  • Большие данные (Big Data)
  • Большие данные (Big Data) в России
  • Большие данные (Big Data) мировой рынок
  • Специалист по работе с большими данными (big data)
  • Data Mining

Чем отличается аналитик Big Data от исследователя данных

На первый взгляд может показаться, что Data Scientist ничем не отличается от Data Analyst, ведь их рабочие обязанности и профессиональные компетенции частично пересекаются. Однако, это не совсем взаимозаменяемые специальности. При значительном сходстве, отличия между ними также весьма существенные:

  • по инструментарию – аналитик чаще всего работает с ETL-хранилищами и витринами данных, тогда как исследователь взаимодействует с Big Data системами хранения и обработки информации (стек Apache Hadoop, NoSQL-базы данных и т.д.), а также статистическими пакетами (R-studio, Matlab и пр.);
  • по методам исследований – Data Analyst чаще использует методы системного анализа и бизнес-аналитики, тогда как Data Scientist, в основном, работает с математическими средствами Computer Science (модели и алгоритмы машинного обучения, а также другие разделы искусственного интеллекта);
  • по зарплате – на рынке труда Data Scientist стоит чуть выше, чем Data Analyst (100-200 т.р. против 80-150 т.р., по данным рекрутингового портала HeadHunter в августе 2019 г.). Возможно, это связано с более высоким порогом входа в профессию: исследователь по данным обладает навыками программирования, тогда как Data Analyst, в основном, работает с уже готовыми SQL/ETL-средствами.

На практике в некоторых компаниях всю работу по данным, включая бизнес-аналитику и построение моделей Machine Learning выполняет один и тот же человек. Однако, в связи с популярностью T-модели компетенций ИТ-специалиста, при наличии широкого круга профессиональных знаний и умений предполагается экспертная концентрация в узкой предметной области. Поэтому сегодня все больше компаний стремятся разделять обязанности Data Analyst и Data Scientist, а также инженера по данным (Data Engineer) и администратора Big Data, о чем мы расскажем в следующих статьях.


Data Scientist – одна из самых востребованных профессий на современном ИТ-рынке

В области Big Data ученому по данным пригодятся практические знания по облачным вычислениям и инструментам машинного обучения. Эти и другие вопросы по исследованию данных мы рассматриваем на наших курсах обучения и повышения квалификации ИТ-специалистов в лицензированном учебном центре для руководителей, аналитиков, архитекторов, инженеров и исследователей Big Data в Москве:

  • PYML: Машинное обучение на Python
  • DPREP: Подготовка данных для Data Mining
  • DSML: Машинное обучение в R
  • DSAV: Анализ данных и визуализация в R
  • AZURE: Машинное обучение на Microsoft Azure

Смотреть расписание
Записаться на курс

Нет единого мнения, что означает «Data Science»

У руководства часто нет единого мнения о том, что означает наука о данных. Также опыт показывает, что, учитывая ограничения в бизнесе, у них нет возможности строго следовать структуре распределения ролей. 

Это означает, что обязанности «data scientist’а» в разных компаниях сильно различаются. 

Хотя идеальный спектр должностей между программистом и специалистом по данным может существовать, маловероятно, что он будет реализован на самом деле. Это особенно касается стартапов, создающих основу инфраструктуры. 

Наемные кандидаты в конечном итоге работают над проблемами, которые на самом деле необходимо решать силами компании, а не силами сотрудника, который только что был принят на должность data scientist. 

Один из смешных случаев среди коллег в данной области заключался в том, что многие специалисты по данным писали бэкэнд-код, как разработчики программного обеспечения. Я знаю и других data scientist’ов, которые сидели в Excel и ломали головы над финансовыми вопросами.

Это резко контрастирует с тем, что вы ожидаете, если вы выросли на соревнованиях Kaggle.

Вакансии data scientist

Количество вакансий для эксперта по аналитике увеличивается, поскольку данные — ценнейший ресурс. Сотрудников не хватает, особенно на руководящих должностях (Lead/Chief data scientist). Топовые позиции предполагают наличие у кандидата специальных качеств, необходимых в конкретной сфере. С практикантами и специалистами уровня junior проще: data science — модное направление, в котором многие хотят попробовать себя.

Как составить резюме data scientist

В резюме нужно сосредоточиться на технических навыках и кратко рассказать о своем опыте. На выходе документ должен получиться простым и лаконичным. Стоит перечислить навыки (начиная с тех, которыми кандидат владеет лучше всего), проекты и достижения.

Специалисту обязательно нужно портфолио. Желательно взять несколько проектов с реальными наборами данных — это может конкурсное или тестовое задание, собственный проект. Результаты можно разместить на GitHub.

Хорошее резюме и портфолио — не гарантия получения должности мечты. Собеседования часто состоят из нескольких этапов, кандидаты выполняют тестовые задания в условиях довольно жесткой конкуренции.