Поступление в шад глазами куратора и студента

[править] Сотрудничество с вузами

В 2007 году при поддержке ШАД на базе МФТИ была создана кафедра анализа данных. Для студентов Физтеха обучение начинается на 3-4 курсах бакалавриата, магистерская программа доступна всем желающим.

Весной 2014 года Высшая школа экономики и Яндекс открыли факультет компьютерных наук. Преподаватели ШАД и сотрудники компании участвуют в создании учебного плана, ведут занятия для студентов.

С сентября 2011 года ШАД сотрудничает с факультетом прикладной математики и информатики Белорусского государственного университета. В 2014 году на ФПМИ БГУ стартовала магистерская программа по направлению «Алгоритмы и системы обработки больших данных».

Программа Школы анализа данных и магистратуры механико-математического факультета МГУ действует с 2012 года. Для обучения по ней требуется одновременно поступить в ШАД и в магистратуру университета по специальности «Компьютерная алгебра».

УРФУ

С сентября 2017 года в рамках направления «Компьютерные науки» открыта совместная магистратура ШАДа и Уральского федерального университета в Институте естественных наук и математики по траектории «Анализ данных».

ННГУ

Ряд дисциплин института информационных технологий, математики и механики Нижегородского государственного университета преподаётся с использованием материалов ШАД. В 2018 году в ННГУ запущена магистерская программа «Когнитивные системы», учебный план и материалы которой подготовлены при участии преподавателей Школы анализа данных Яндекса.

РЭШ

В 2019 году ШАД и Российская экономическая школа создали программу подготовки специалистов, обладающих одновременно навыками экономического моделирования и анализа данных. При прогнозировании в дополнение к классическим моделям машинного обучения они смогут учитывать экономические факторы, поведение людей, строение сложных экосистем.

ИТМО

Магистерская программа «Аналитика данных» открылась в Университете ИТМО в 2020 году при содействии Яндекса. Студентов учат создавать, адаптировать и применять методы анализа данных к разным предметным областям, используя машинное обучение, анализ временных рядов, компьютерное зрение, интеллектуальный анализ изображений, звуков и текстов на естественном языке.

ЕУ СПб

Осенью 2020 года Европейский университет в Санкт-Петербурге и Яндекс запустили программу профессионального образования «Пандан» (Прикладной анализ данных). В рамках образовательного цикла выпускники гуманитарных и общественных специальностей узнают больше о количественном повороте в своих и смежных областях, а выпускники технических направлений получат представление о проблемах в общественных науках.

СПбГУ

При участии Яндекса и СS-центра в Санкт-Петербургском государственном университете был создан факультет математики и компьютерных наук.

ЦЕРН

ШАД — участник совместных экспериментов с LHCb и ЦЕРН по применению возможностей машинного обучения и анализа данных в задачах физики высоких энергий.

Вика Ходырева, Москва

ШАД для меня — такая маленькая группа людей, которые делают большие дела. И это очень вдохновляет: ты туда приходишь и понимаешь, сколько невероятных людей вокруг. Даже не верится, что так всё удачно сложилось, что возникло место, в котором лучшие умы могут в самых комфортных условиях общаться, учиться и развиваться вместе. 

Самым напряженным и интересным временем в ШАДе была сдача алгоритмов. Там очень веселая система: либо ты сделал всё идеально, либо тебя не пропускают дальше «огненные драконы» — переделывай. Было классно: едешь в метро — делаешь алгоритмы, сидишь на парах — делаешь алгоритмы. 

Это работает так: чем больше ты понимаешь, тем больше тебе это нравится. А когда тебе всё подробно объясняют замечательные преподаватели — ты просто начинаешь в это влюбляться. Хочется глубже этим заниматься, оставаться в курсе научных прорывов. Может быть, база ШАДа позволит в будущем даже быть причастной к ним. 

Что я хочу посоветовать ребятам, которые будут поступать в ШАД? Во-первых, не бояться поступать в ШАД. Нужно верить в себя и хотя бы пробовать. Второй совет: когда уже поступил — не сидеть дома, а приходить в Школу и как можно больше общаться с людьми. Третий совет: не забывать про жизнь вне ШАДа, это поможет как-то существовать после того, как эти чудесные два года закончатся. 

Проекты Академии Яндекса

Лицей Академии Яндекса

Двухгодичные курсы промышленного программирования на языке Python для школьников 8-10 классов.

Для того, чтобы поступить в Лицей, нужно справиться с онлайн-экзаменом и пройти собеседование. На вступительных испытаниях проверяются знания по математике и информатике, а также мотивация к поступлению. После выпуска из Лицея ребята уже могут разрабатывать свои небольшие сервисы на языке Python.

Школа анализа данных

Двухгодичная программа для студентов старших курсов и выпускников, которые хотят стать продвинутыми датасаентистами или архитекторами систем хранения и обработки больших данных.

Для того, чтобы поступить в ШАД, нужно успешно пройти три этапа вступительных испытаний: онлайн-тестирование, экзамен и собеседование. На них проверяются мотивация, а также знания в области высшей математики и алгоритмов, навыки программирования. Выпускники ШАД не только работают в крупнейших IT-компаниях России и мира, но и занимаются исследованиями в области компьютерных наук.

Сезонные школы Академии Яндекса

Ежегодные краткосрочные программы для начинающих разработчиков, менеджеров и дизайнеров.

Участие в них позволит прокачаться в профессии, получить недостающие знания и навыки, а также получить опыт работы в команде.

Конкурсный отбор на каждую из профессиональных программ предполагает прохождение онлайн-экзамена и собеседования, на которых проверяются базовые знания в рамках специальности, а также мотивация абитуриентов. После успешного завершения обучения студенты устраиваются на работу в Яндекс и другие IT-компании.

Программы Академии в университетах

Совместные бакалаврские, магистерские и ДПО-программы в ведущих вузах России и Беларуси.

Преподаватели Академии Яндекса учат студентов разработке, а также работе с данными. Сейчас совместные программы есть в ВШЭ, МФТИ, СПбГУ, ННГУ, РЭШ, УрФУ, Европейском университете и БГУ.

Программы по разработке и анализу данных в Сириусе

В образовательном центре «Сириус» старшеклассники могут принять участие в образовательной смене «Алгоритмы и анализ данных». А в университете «Сириус»студенты воспроизводят результаты научных статей и под руководством менторов из Яндекса создают собственные IT-проекты.

Онлайн-курсы

Онлайн-курсы и специализации на платформах Coursera и Stepik, разработанные преподавателями Академии Яндекса совместно с ведущими университетами России и мира.

Видеолекции и часть онлайн-заданий бесплатны для всех пользователей, а полностью курсы можно пройти, оплатив использование платформы. Для этого студенты могут воспользоваться финансовой помощью от Coursera.

Как проходил отбор тем для программы потока

Математика похожа на огромный айсберг. Профессионалы тратят всю жизнь на изучение того, что скрыто под водой, потому что им это интересно. Но подавляющее большинство этих знаний сложно приложить к жизни.

И ФКН, и ШАД стремятся выбрать из этого айсберга то, что действительно может пригодиться. Есть несколько отдельных математических дисциплин, без которых в машинном обучении никуда:

  • Математический анализ — основа для формирования математического аппарата;
  • Линейная алгебра – язык, на котором формулируются понятия машинного обучения;
  • Теория вероятностей — дисциплина, которая позволяет рассуждать о случайных объектах, алгоритмах, которые работают не во всех случаях, и прочих любопытных явлениях.

Именно эти дисциплины проверяются на вступительных экзаменах в основной поток обучения в ШАДе.

Иногда полезно знать и более «экзотические» разделы математики. Я сам считаю абстрактную математику бессмысленной и беспощадной, но иногда она удивляет меня своими внезапными приложениями в реальном мире.

Например, в Международной лаборатории алгебраической топологии и ее приложений на ФКН, где при помощи топологических методов изучается головной мозг. Её руководитель — Антон Айзенберг, алгебраический тополог. К нему обратились биофизики одной из международных лабораторий по изучению головного мозга, которые попробовали применить в своей работе инструменты по подсчёту гомологий.

В ходе работы они представили мозг человека через геометрические объекты, и с помощью специализированных программ подсчитали размерности гомологий. Это позволяет вычислять для каждого отдельного головного мозга представление в форме последовательности натуральных чисел. В результате сотрудники лаборатории обнаружили закономерности: если мозг здоров, то числа ведут себя одним образом, а если есть какое-то заболевание – то другим. 

Однако делать ставку на то, что вам повезёт и подобная «экзотика »пригодится в работе, не стоит. На новом потоке мы даём базу, знания, которые точно пригодятся

Важно освоить зарекомендовавшие себя методы, а не увлекаться сложными теориями, которые могут и вовсе не пригодиться. Зато, если однажды придётся разбираться с чем-то абстрактным, то базовые знания в этом тоже очень помогут

Собеседование

Андрей Спиридонов: Собеседование – самый увлекательный этап отбора. Я пришёл на него с четырьмя баллами из восьми, набранными на очном туре, стараясь думать, что с этим можно работать. Чтобы расслабиться, я сидел на кофе-поинте в ШАДе и параллельно решал какую-то домашнюю работу у себя в тетради. Вокруг мельтешили другие ребята: ходили из стороны в сторону и нервничали. Я знал, что Школа анализа данных — это популярное место, но перед собеседованием я впервые ощутил, что людям действительно нравится ШАД, и они мечтают туда поступить. Я отложил в сторону тетрадь и решил пообщаться с другими поступающими, сказать: «Ребят, не переживайте, всё будет хорошо». С некоторыми из них мы теперь вместе учимся.

Собеседование проходило в три этапа: сперва я обсудил мотивацию для поступления, потом решал математические задачи и наконец отвечал на вопросы по алгоритмам. C кофе-поинта меня забрал парень, который представился Никитой, и повёл говорить про то, зачем я хочу поступать в ШАД. Я стал рассказывать ему про то, как сильно люблю теоретическую  физику, что я изучил, и какими исследованиями в теории струн хочу заниматься.

Кажется, моя теория подтвердилась: Никита увлечённо меня слушал и задавал уточняющие вопросы. Я рассказывал ему про бордизмы (понятие из дифференциальной геометрии; многообразия, границами которых служат два заданных многообразия). Свойства бордизмов часто изучаются в теории струн: потому что перемещения струн описываются не кривыми, а плёнками.

Я стал описывать эти плёнки и то, какие топологические характеристики у них изучают. Я вошёл в раж и стал у доски рассказывать про то, как склеить тор из квадрата, и почему при разных склейках получаются разные фундаментальные группы. Так прошло минут сорок: я просто рассказывал про то, что меня увлекает, и это был не анализ данных.

В какой-то момент мой рассказ внезапно подошёл к концу, и я подумал: «Чёрт, а теперь-то что рассказывать». Сел на стул и говорю: «Вот то, чем я занимаюсь, а в ШАД я пришел, потому что прочитал на Хабре, что у вас очень успешно учатся физики. Был такой выпускник МФТИ — Никита Казеев, который потом использовал анализ данных для поиска частиц, работая на Большом адронном коллайдере». 

Мой собеседник ехидно заулыбался. Я вспомнил, что его зовут Никита. И это был он. Вот почему он так понимающе меня слушал: потому что сам физик. Мы по душам поговорили про научную составляющую в физике и в анализе данных, а формального интервью так и не произошло. Но думаю, что это скорее исключение из правил.

У меня было очень хорошее настроение, когда мы разошлись. Потом Стас Федотов позвал меня решать задания по математике: я чувствовал себя уверенно и поэтому сразу решил все. С частью по алгоритмам было сложнее: я рассказывал про алгоритм поиска подстроки Ахо-Корасик сначала студентке ШАДа, а потом Максиму Бабенко

Максим задавал много уточняющих вопросов: важно было действительно разбираться в теме, а не знать её поверхностно

Как мне тогда казалось, я задержался на собеседовании допоздна — и освободился в семь вечера. А теперь я учусь в ШАДе и не ухожу из Яндекса раньше одиннадцати: охраннику даже приходится меня выгонять.

Стас Федотов: Для нас собеседование – это шанс узнать о поступающем что-то такое, что мы не узнали на предыдущих этапах. В первую очередь о его мотивации: о том, насколько человек интересуется анализом данных или инфраструктурой больших данных, насколько он понимает, что происходит в ШАДе и чему хотел бы здесь научиться, насколько он готов к  временным и ресурсным затратам, которые его ожидают. 

Помимо этого на заключительном этапе нужно решать задачи. В каком-то смысле это шанс компенсировать те проблемы, которые могли возникнуть на втором этапе, и показать себя с лучшей стороны. Решать задания на собеседовании намного проще: ведь мы подсказываем, когда видим, что человек зашёл в тупик, и не пытаемся никого «завалить».

Data scientist

Никита Попов, выпускник 2016 года:

«Data scientist — так сейчас называют аналитиков всех мастей. Мы в Яндексе привыкли считать, что data scientist — это человек, который отлично владеет машинным обучением и статистикой и, главное, на практике может извлечь полезную информацию из огромного объема данных.

Сейчас я работаю в команде метрик Поиска. Мы работаем над тем, чтобы оценивать качество нашего поиска, выбирать, в какую сторону двигаться и какой из множества проводимых экспериментов действительно увеличит “счастье пользователя”. В команду я попал через стажировку сразу после окончания ШАДа. Школа анализа данных дала мне отличную базу: курсы по машинному обучению и вероятностным моделям — это как раз то, что я использую каждый рабочий день.

Я поступил за компанию со своими одногруппниками, но уже с первых семинаров стало понятно, что ШАД — это безумно интересно. Именно там я осознал, чем хочу заниматься. Думаю, что каждый data scientist должен хорошо разбираться в различных методах машинного обучения, знать их плюсы, минусы и область применения, уметь находить в данных зависимости и делать правильные выводы на их основе. Несмотря на то, что работаю я аналитиком, очень часто приходится заниматься и разработкой. Недавно я допилил сервис, для которого разрабатывал и фронтенд, и бекенд, и сами алгоритмы — data scientist должен уметь всё».

Уральский федеральный университет

Чему мы учим?

Совместная траектория УрФУ и ШАДа работает в рамках магистерской программы «Современные проблемы компьютерных наук» с сентября 2017 года. Программа включает курсы ШАДа, семинары по которым ведут преподаватели Школы и разработчики Яндекса, и обязательные для всех магистрантов УрФУ общеобразовательные курсы.

Обучение длится четыре семестра. Первые три семестра студенты посещают курсы ШАДа и УрФУ, в четвёртом — курсы ШАДа, а в УрФУ проходят преддипломную практику и сдают государственные экзамены.

Как поступить?

Чтобы поступить на совместную траекторию, необходимо пройти все этапы отбора и в ШАД, и в магистратуру УрФУ «Современные проблемы компьютерных наук». Поступление проходит отдельно. Подробнее об экзаменах в ШАД можно прочитать на сайте Школы анализа данных. Поступление в магистратуру «Современные проблемы компьютерных наук» проходит в июле, узнать о нём больше можно на сайте университета. Чтобы претендовать на место в программе, необходимо предоставить документ, подтверждающий окончание бакалавриата.

Набор на совместную траекторию ограничен — сейчас доступно 10 мест. Если на программе останутся свободные места, то абитуриенты, которые не попали в ШАД, но показали высокие результаты на вступительных испытаниях в магистратуру, получат возможность учиться на траектории «Анализ данных» в течение первого семестра. По итогам семестра принимается решение о том, продолжит студент учиться на траектории, или нет. Если курсы ШАДа сданы на хорошо и отлично, студент считается зачисленным на программу. Если оценки ниже, придётся отчислиться или перевестись на другое направление.

Очный экзамен

Андрей Спиридонов: Оба раза, когда я участвовал в очном туре, на нём было много знакомых лиц. В первый раз это были ребята с олимпиад, а во второй — с мехмата МГУ и из Вышки: с прикладной математики и информатики и программной инженерии.

Для меня последний очный экзамен начался с того, что я пришёл и стал общаться с людьми, с которыми давно не виделся.  В какой-то момент ворвался Стас Федотов и сказал:  «Так, ребята, сейчас всё начнём. Если что, все вопросы задавайте мне». И мы сразу поняли, что он главный. Нам раздали задания, на которые выделялось четыре часа. Я решил только половину из них — это не очень много, и я был собой недоволен.

Задачи были классные: встречались простые, которые решались общеизвестными трюками, — например, про матрицу проекций с пропущенными значениями. Был номер про комбинаторную вероятность: в нём можно было найти производящий функционал и дифференцированием получать из него ответы для разных N.

Мне понравились сложные, красивые задания — даже те, которые я не решил. Например, задача про дифференциальные неравенства, которую можно было решать несколькими подходами: подставляя равенства или исследуя свойства монотонности функции. Было задание про рекуррентную последовательность.

Мне попалась простая задача на алгоритмы: была дана последовательность чисел, и нужно было правильно упорядочить их квадраты.

Стас Федотов:  В 2020 году очный экзамен будет состоять из двух частей: в первой будет восемь математических задач, в которых нужно не использовать заученные алгоритмы, а думать. Мы хотим увидеть, как рассуждают поступающие, а не просто проверить какие-то конкретные знания.

Письменный этап дополнился соревнованием по программированию и анализу данных на платформе Яндекс.Контест – это шанс показать себя для тех, кто уже занимается data science. В этом году в контесте, скорее всего, будет пять задач:

  • Простое задание, в котором нужно написать рабочий код, не забыв про граничные случаи
  • Задача, в которой нужно будет соблюсти довольно сложную логику и не запутаться
  • Задача по анализу данных, которую можно решать при помощи любых инструментов 
  • Две сложных задачи по алгоритмам, близкие к олимпиадным

Специалист по инфраструктуре больших данных

Влад Бидзиля, выпускник 2017 года:

«Со старших классов мне хотелось профессионально заниматься программированием. В ШАД я поступил, когда был на третьем курсе университета. Он открыл передо мной дивный новый мир машинного обучения и интеллектуального анализа данных, высокоэффективных систем с кучей алгоритмов на стыке прикладной математики и программирования.

В течение нескольких лет я работал в Яндексе в команде качества ранжирования видеопоиска. Курсы ШАДа по продвинутому С++ и Python помогли мне в короткие сроки втянуться в рабочий процесс — перейти от написания академических программ в университете до серьезного продакшн-кода в компании. 

С недавнего времени я работаю в службе технологий распределенных вычислений. Мы занимаемся разработкой MapReduce-системы YT. Здесь знания и навыки, приобретенные в ШАДе, тоже оказались чрезвычайно полезными: курс по классическим алгоритмам и структурам данных привил алгоритмическую культуру, выработал умение быстро писать эффективный и чистый код с минимальным количеством багов и понятной структурой, разбираться в сложных алгоритмических решениях; курс по алгоритмам работы с большими объемами данных продемонстрировал сложности, возникающие при обработке массива данных, не помещающегося в память компьютера, и методы борьбы с этими сложностями, позволил получить понимание основных паттернов построения алгоритмов во внешней памяти и потоковых (streaming) алгоритмов, выработал базовые практические навыки их написания; курс по параллельным и распределенным вычислениям познакомил с основными конструкциями многопоточного и распределенного программирования, применяемыми везде и всюду в разрабатываемой системе.

Кроме того, стоит отметить, что благодаря ШАДу мне удалось глубоко познакомиться с прикладными математическими курсами, которые часто остаются за бортом классической университетской программы: теория информации и вычислительной сложности, продвинутая дискретная математика, статистический анализ, комбинаторная и выпуклая оптимизация. Эти знания соединяют теоретическую математику и IT-индустрию высоких технологий».

Почему не охватить больше

В вузе математический анализ и линейную алгебру изучают в течение двух лет — а у нас есть всего полгода. Даже базовую информацию нужно правильно упаковать, подавать в понятном виде и в разумном объёме, который студент сможет воспринять. Поэтому моя главная задача – рассказывать эффективно. Когда преподаёшь математику, часто наблюдаешь такую картину: пока ты пытался быстро дойти до содержательного материала, все уже растерялись, сидят и ничего не могут понять. Это сигнал, что рассказывать что-то дальше бессмысленно: новую информацию уже точно не воспримут.

У меня уже был опыт «сжатия» программ математических курсов. Сначала в рамках подготовки к магистратуре ФКН НИУ ВШЭ нужно было сократить до 10-ти занятий курс линейной алгебры, который занимает 35 пар на очном отделении. Позже у меня были эксперименты по другим предметам в рамках различных подготовительных курсов в ВШЭ. Сложнее всего было организовать курс, в котором основы линейной алгебры, математического анализа и теории вероятностей рассказывались бы за 6 занятий.

Однажды я услышал от своего товарища инженера: «Худшее, что есть в математике — это доказательства». В некотором смысле это правда. Достаточно посмотреть, как устроено классическое обучение высшей математике. Представьте себе учебник «Как пользоваться компьютером», в котором первая глава называется «Как добыть руду», далее объясняется, как протравить дорожки на материнской плате, припаять микросхемы, написать драйверы для клавиатуры и видеокарт… На последней странице вы читаете: «Вы собрали компьютер, нажмите кнопку “Пуск”». 

По этой же аналогии можно представить, как один математик традиционно готовит других. Преподаватели тратят огромное количество часов, чтобы объяснить, как строится та или иная математическая теория, как сделать её непротиворечивой, как добиться того, чтобы все детали работали. Студенты изучают это, а потом им нужно ещё и разобраться, как это применять. 

Однако доказывать теоремы и применять их – абсолютно разные навыки. Любой разработчик использует компилятор, но далеко не каждый представляет, как компилятор устроен внутри; ему достаточно знаний о том, как применять этот инструмент. Поэтому я сокращал материал ровно до тех знаний, которые нужны для работы: вырезал объяснения о том, как выстроена теория, оставлял информацию об основных объектах и о том, как можно эти знания использовать на практике.

На основании этой работы я собрал программу для своих курсов, подготавливающих к поступлению в ШАД: восемь занятий по линейной алгебре, семь занятий по теории вероятностей, три-четыре занятия по математическому анализу. За это время можно дать весь материал, достаточный для поступления.

Пока я этим занимался, мою программу увидел Стас Федотов. Он рассказал о том, что ШАД собирается набирать людей с нематематическим образованием и предложил вести такие занятия для разработчиков.

Анастасия Новичкова

Я два года не могла поступить в ШАД из-за того, что заваливала задания по математике. А когда узнала о новом треке с другими условиями для поступления, то поняла, что у меня  появился шанс: да, математическая подготовка у меня не такая, как у студентов мехмата, но зато есть практический опыт. На втором курсе я проходила стажировку для разработчиков в Яндекс.Маркете, а на следующий год я снова решила пойти стажироваться, но уже в «Тинькофф» — в команду  разработки голосового помощника Олега.

Там я занималась экспериментами над N-грамм моделями: в NLP они используются для того, чтобы на основании первых слов в предложении предугадывать, какие слова будут идти дальше. А к концу стажировки подготовила небольшую статью, в которой описала результаты всех экспериментов.

После этого опыта я поняла, что хочу посвятить свою работу именно машинному обучению. Я пишу диплом по этой теме и занимаюсь созданием библиотеки для рекомендательных систем. Есть немало библиотек для классического машинного обучения: они позволяют строить модели, в которых есть линейные регрессии или деревья принятия решений. Но для рекомендательных систем готовых библиотек практически нет. Они пригодились бы малому бизнесу, у которого нет ресурсов для того, чтобы разрабатывать всё с нуля. Думаю, что ШАД как раз может помочь моему развитию в этой области.

При подготовке к поступлению в Школу я делала упор на программирование, особенно на алгоритмы: решала задания из списка литературы, прорабатывала каждую тему и готовилась к собеседованиям. 

Мне предлагали остаться работать в «Тинькофф», но я твёрдо решила, что буду учиться в ШАДе. Я рада, что пошла на этот трек: мне очень нравится, как читают вводные лекции по математике, особенно по линейной алгебре. Учёба идёт по-разному: я то спокойно и размеренно занимаюсь, то на меня сваливается по несколько дедлайнов в один день. Иногда я сижу с домашками по ночам, но у меня вроде бы получается всё успевать.

Иначе в сложные периоды на меня находит апатия. Справиться с ней мне помогают вдохновляющие видео на YouTube, в которых рассказывается о проектах, реализованных с помощью машинного обучения. Например, ролик о разработчике, который обучил нейронную сеть водить в машину в GTA.

Если вы хотите поступить в ШАД, то стоит готовиться по списку литературы, который выложен на сайте

Важно разбираться в демоверсиях заданий, искать в интернете ответы на возникающие вопросы. 

Разработчик машинного обучения

Женя Захаров, выпускник 2018 года:

«Еще в универе мне больше всего нравились задачи, где существенную роль играет математика, но результат можно «потрогать руками». Моя текущая работа довольно хорошо соответствует этим двум условиям: мы имплементируем различные алгоритмы, попутно дорабатывая, чтобы они работали быстрее, выше, сильнее с нашими данными. Один из ключевых показателей для нас — это производительность. Данных много, и алгоритм должен уметь быстро предсказывать и обучаться за разумное время.

Программирования у меня было достаточно много в университете, но ШАДовские курсы отличаются алгоритмически более сложными задачами, большим акцентом на производительность и чистоту кода.

ШАД дал мне хороший набор базовых навыков, которые я использую каждый день: машинное обучение в различных его ипостасях, прикладная статистика, алгоритмы и представление о том, как должен выглядеть промышленный код. Очень релевантным оказался проект курса больших данных, где мы с ребятами в команде писали градиентный бустинг, пытаясь догнать по скорости LigthGBM, который мы не догнали, но таки смогли добиться сравнимого времени».

Специалист по анализу данных в прикладных науках

Никита Казеев, выпускник 2015 года:

«Я работаю над применением методов машинного обучения для задач фундаментальной физики в ЦЕРНе в статусе аспиранта ФКН ВШЭ и Sapienza University of Rome.

Физикой увлекался со школы, был призёром Всероссийской олимпиады, пошел на ФОПФ МФТИ. Во многом из-за идеалистических соображений — если заниматься не наукой, то чем? Но к компьютерам тянуло всегда. Бакалаврская работа была посвящена компьютерному моделированию неидеальной плазмы, и в ней было много алгоритмов и C++.

На четвертом курсе я поступил в ШАД, через год меня пригласили в формирующуюся группу международных учебно-научных проектов в Яндексе. Сейчас она трансформировалась в совместную лабораторию Яндекса и ВШЭ — LAMBDA. Мы не только делаем что-то руками, но и учим физиков машинному обучению, так что я в некотором роде преподавал в Оксфорде. На нашей летней школе, но всё же 😉

Из того, что нам преподавали в ШАДе, хочется отметить:

  • Курс алгоритмов: общая культура программирования и, внезапно, алгоритмы. Было забавно за два часа ускорить физический симулятор в десять раз, просто добавив k-d tree вместо полного перебора.
  • Машинное обучение, глубинное обучение: bread and butter, особенно, внезапно, теоретическая часть. В физике высоких энергий приходится иметь дело с нестандартными задачами, в которых недостаточно import xgboost.
  • Доменная адаптация: как совместить физические соображения и машинное обучение, чтобы сделать алгоритм, который будет обучаться по симулированным данным, а применяться к реальным? Как быть, если обучающая выборка грязная, но есть отрицательные веса, которые её очищают? Как измерить точность восстановления распределения GANом?
  • Обработка больших данных: пришлось попользоваться Hadoop.
  • Недавний курс по продукту: мы работаем в составе коллаборации в 1000 человек, и многие наши результаты — это не научное открытие в чистом виде, а инструмент, предназначенный для других людей. Например, проект, с которого я начинал, придя практикантом, — поисковый индекс по событиям, которые регистрирует детектор, — в итоге оказался не востребован, в отличие от системы мониторинга, с помощью которой прямо сейчас отслеживают качество данных с детектора.

Как поступить в Школу анализа данных от Яндекса

Школа анализа данных рассчитана на студентов и выпускников инженерных и математических специальностей, готовых несколько раз в неделю посещать вечерние занятия. Для обучения в ШАД требуется хорошая математическая подготовка. Чтобы принять участие в отборе, до 10 мая заполните анкету поступающего и пройдите онлайн-тестирование. Кроме того, 8 апреля в Москве прошел День открытых дверей ШАД. Вы можете посмотреть видеозапись встречи.

Как проходит набор?

Отбор в школу проходит в три этапа:

  1. Онлайн тестирование: после заполнения анкеты поступающего вы получите письмо со ссылкой. На решение заданий теста отводится пять часов.
  2. Письменный экзамен: для поступающих в московское отделение ШАД экзамен состоится очно в Москве в конце мая или в начале июня.
    Поступающие в филиалы и на заочное отделение сдадут экзамен онлайн в начале июня. В письменном экзамене могут поучаствовать только те, кто успешно прошли этап онлайн-тестирования.
  3. Собеседование: в конце июня — начале июля для всех, кто успешно прошел первые два этапа, пройдут собеседования в отделениях ШАД или по скайпу.

Подготовка

При поступлении в ШАД проверяются знания в рамках общей программы, включающей базовые разделы высшей алгебры, математического анализа, комбинаторики, теории вероятностей, а также основы программирования. Примеры заданий письменного экзамены:

  • Набор 2012 года
  • Набор 2013 года
  • Набор 2014 года
  • Набор 2015 года (статья на хабрахабр с решениями)
  • Набор 2015 года (статья выпускника ШАД на хабрахабр с решениями)
  • Набор 2016 года
  • Набор 2017 года

Платное обучение

Поступающие, хорошо показавшие себя на собеседовании, но не прошедшие по общему конкурсу, смогут начать учиться на платной основе (только в московском отделении). Платная учёба ничем не отличается от бесплатной — нужно выполнять все те же непростые задания, укладываясь в жёсткие сроки. Обучение стоит 110 000 рублей за семестр. Если студент заканчивает семестр на «хорошо» и «отлично», стоимость обучения для него снижается до 55 000 за семестр. Сдавший на «хорошо» и «отлично» две сессии подряд дальше учится бесплатно.

Стажировки

Если вы чувствуете, что ваших знаний достаточно для непосредственной работе в Яндексе, подобрали несколько открытых вакансий:

  • Стажер-тестировщик

  • Стажер-исследователь (Data Mining, Machine Learning)

  • Дежурный администратор

  • Вакансии для начинающих специалистов

Подробнее о стажировках в компании можно прочитать на сайте Яндекса.

Работа стажёра

  • наукоёмкие технологии
  • реальные сервисы
  • «боевые» задачи