Дата Кампус: может ли школьник освоить машинное обучение за 10 дней?

Всем привет. В этой статье хотим поделиться нашим опытом организации и проведения “Дата Кампуса” – буткемпа по Data Science, который проводится для старшеклассников в разных регионах России.

Data Science – уже не новая профессия. Отрасль созрела, требования к специалистам по DS на рынке труда стали более конкретными и понятными. В свою очередь, система школьного образования (да и высшего тоже) не успевает перестроиться вслед за потребностями индустрии.

Существует и региональная дифференциация с точки зрения доступности дополнительного образования. Далеко не в каждом регионе России у школьника есть возможность знакомиться с современными предметами такими как анализ данных и машинное обучение. Причин тому множество — от нехватки цифровой инфраструктуры для обучения до отсутствия соответствующих компетенций у педагогов. Что касается онлайн-курсов, то они, в основном, ориентированы на уровень профессионального образования.

“Дата-Кампус” начинался как серия тематических образовательных смен в рамках федерального проекта «Кадры для цифровой экономики», но со временем превратился в самостоятельное образовательное событие. За два года около 2000 человек из 62 населенных пунктов России приняли участие в «Дата-Кампусе».

География участников “Дата-Кампуса”
География участников “Дата-Кампуса”

Программа “Кампуса” довольно насыщенная и состоит из лекций, семинаров и консультаций, где участников знакомят со средой разработки, основами программирования и темами по машинному обучению. Далее участники делятся на группы, выбирают исследовательскую задачу по анализу данных, над которой и работают основную часть времени. В конце — защита проектов, лидерборд по итогу оценок экспертов и награждение.

Дата-Кампус 2020
Дата-Кампус 2020

В чём фишка кампуса?

Формат буткемпа

Большинство людей, которые к нам приходят, ранее не сталкивались с машинным обучением. Некоторые из них имеют базовые навыки программирования на Python, а некоторые и вовсе ни разу не программировали. Конечно, за одну-две недели не стать экспертом, да у нас и нет цели добиться от участников ремесленного совершенства в этой области. Ценно то, что каждый участник “Дата-Кампуса” получает базовое представление о Data Science, знакомится с тем, что и как делают профессионалы в этой области, делает проект в составе группы, участвует в оформлении и презентации результатов.

Профессиональная проба

В школьное время очень важно искать себя, пробовать разное. “Кампус” ставит перед участниками открытые задачи по анализу данных, где нет заведомо правильных ответов. У участников появляется возможность поразмышлять над методами исследования, прочувствовать сложность и многогранность задачи, представить и аргументировать выбранные подходы. Такой формат позволяет сформировать представление о профессии и самоопределение по отношению к карьере в этой области.

Акцент на структуре научного исследования

Когда речь заходит о преподавании школьникам Data Science и машинного обучения, можно услышать: «Как без матстатистики этим можно заниматься?! Они же ее еще не знают». Но сложность вовсе не в этом. Нам важнее донести до участников мысли о том как проводить качественное исследование в целом, нежели глубоко погружаться в детали алгоритмов. Мы обучаем методологии CRISP-DM, учим постановке гипотез, выбору и аргументации методов исследования, интерпретации и представлению результатов. Лучше, если участники воспользуются простой моделью или эвристикой, но доведут дело до логического конца, чем потеряются, попытавшись завести нетривиальные модели.

Темы проектов и данные

Поскольку наша аудитория – подростковый и младший юношеский возраст, важно, чтобы данные и проекты были релевантными их интересам. Это в более старшем возрасте можно продуктивно работать над решением заказной задачи или абстрактной проблемы. Когда же студентам между 14 и 17 лет, и они не представляют, как данные, с которыми им предложили работать, связаны с реальной жизнью, вся работа может им представляться бессмысленной. Мы исходим из того, что знание Data Science — это не самодостаточная ценность, но инструмент, позволяющий решить максимально конкретные задачи, в том числе исподволь – задачи, актуальные для юношеского возраста, связанные с самоопределением, освоением способов совместной деятельности с другими людьми и апробацией версий о своей будущей профессии.

Поэтому, хотя самые разнообразные датасеты у нас заготовлены заранее, темы проектов у нас всегда идут от команд. Сначала многие проектные идеи выглядят завиральными, но после проработки и консультаций с экспертами участникам удается сформулировать решаемую задачу. В итоге этот подход оправдывает себя. Образовательная программа должна предусматривать решение таких образовательных задач, которые имеют статус «настоящих» для всех ее участников.

Межпредметность

Мы особенно поддерживаем междисциплинарные проекты и призываем «миксовать» данные из разных датасетов. Так, на «Кампусах» всегда много аналитических проектов по экономике, культуре, экологии, образованию.

Самой популярной всегда оказывается инженерная тематика, и мы наблюдаем, что строго технические проекты школьникам даются легче. Сюда относятся задачи, связанные с инженерией и техникой, например, имплементация алгоритма классификации изображений или построение рекомендательной системы. Такие темы бывают сложнее гуманитарных в плане создания моделей, но концептуально они проще.

В отношении социально-экономических тем дела обстоят сложнее. Не все школьники продуктивны в этих областях. Многие вроде и проходили что-то в школе по истории, экономике, обществознанию, но зачастую не способны применить эти знания для того, чтобы исследовать комплексный социокультурный или политико-экономический конструкт, например «бедность» или «счастье» или «регион». Уже на этапе формулировки гипотез учащиеся сталкиваются с тем, что для такого объекта трудно сформулировать определение, выделить существенные признаки и их корреляты из разных предметных областей и подобрать соответствующие данные.

И здесь очень важно, что с ребятами у нас работают профессионалы из индустрии. Они демонстрируют определенную культуру мышления. А инструментальные навыки подтянутся – при желании.

В таблице ниже приведены примеры дата-проектов, реализованных участниками «Дата-Кампуса» в разное время, позволяющие оценить степень сложности тех проблем, которые фактически решали ученики.

Краткое содержание

Техническое направление

Области

Представленность регионов в федеральной новостной повестке 2009-2019 гг. и тематическое моделирование федеральных новостей

Обработка естественного языка

Коммуникации

Скрининг на пневмонию по рентгеновским снимкам

Компьютерное зрение

Медицина

Определение жанра живописи по фотографии картины

Компьютерное зрение

Культура

Сортировщик для раздельного сбора мусора

Классический ML

Экология

Рекомендации по географическому применению солнечных панелей для генерации электроэнергии

Рекомендательные системы

Энергоносители; Экология

Предсказание победителей спортивных матчей по цифровым видам спорта

Классический ML

Цифровые экосистемы

Система компьютерного зрения для беспилотного карьерного самосвала

Компьютерное зрение

Промышленность, инновации

Анализ факторов, влияющих на популярность массовых онлайн-курсов

Аналитика

Коммуникации, цифровые экосистемы

Исследование жанрового многообразия, лексической сложности книг и статистики книгоиздания в разных возрастных сегментах

Обработка естественного языка

Коммуникации

Преподаватели из дата-индустрии

Преподами и экспертами у нас уже успели побывать ML-разработчики, проджект-менеджеры, тимлиды из разных компаний, таких как Яндекс, Rambler&Co, Евраз-холдинг и другие. Нам очень важно, чтобы преподавателями Кампуса были действующие профессионалы из индустрии. Не только потому, что с профессионалами программа идет легче, но и потому что такие специалисты для старшеклассников – это ролевые модели и носители соответствующей культуры. Поэтому мы всегда ищем специалистов, которым нравится делиться своими знаниями с другими.

“Дата-кампус.Медиа” 2021

За последние пару лет прошло несколько очных и “гибридных” “Кампусов”, но поподробнее хочется рассказать о последнем (на текущий момент), который мы провели в июне 2021 года.

Во-первых, это наш первый тематический “Кампус”. Если раньше мы пробегались по всем основным темам машинного обучения, то на этот раз мы сфокусировались на обработке естественного языка. Мы использовали данные, связанные с разными медиа: новостными лентами, электронными книгами, обзорами кинофильмов и музыкальными текстами. Во-вторых, в связи с эпидемией нам пришлось полностью перейти на онлайн-формат, что стало настоящим вызовом как для организаторов и преподавателей, так и для участников. В-третьих, специфика онлайнового тематического “Кампуса” подразумевала более детальную проработку программы, подготовку датасетов и гипотез исследования с тем, чтобы максимально структурировать рабочее время.

Результаты

На “Дата-кампус.Медиа” мы проводили отбор с помощью вступительного тестирования, где проверялись базовые знания программирования на Python. Несмотря на проверку знаний, критерии отбора были довольно мягкие. Необходимость тестирования заключается в том, чтобы оценить уровень участников и впоследствии разбить их на сбалансированные по навыкам программирования команды.

Главным достижением участников мы считаем успешный опыт работы в географически распределенных командах: были команды, участники которых работали из дома в Чебоксарах, Югре, Новосибирске и т.д. Вся коммуникация участников между собой (видео, командный чат), хранение данных и написание и исполнение кода были организованы на единой облачной платформе, доступной через браузер и мобильные приложения.

Несмотря на геймификацию всего процесса (на «Кампусе» действует специально разработанная игровая модель), наличие онлайн-наставников, закрепленных за каждой группой, четкий таймлайн проектной работы, у нас были опасения относительно того, насколько юные (средний возраст 15 лет) участники будут мотивированы и активны в условиях “удаленки”. Но оказалось, что соотношение активных и неактивных участников мало отличается от оффлайна, и заинтересованные команды прекрасно самоорганизуются в онлайне, более того, занимаются своим проектом далеко за пределами формально отведенного для этого времени. Так что мы не можем разделить распространенное в школьных кругах разочарование “дистантом”.

Что дальше?

«Дата-Кампус» продолжает развиваться. Если у вас есть практическое знание DS & ML и желание поделиться профессиональным опытом с молодыми людьми, для которых общение с вами может стать определяющим в выборе профессии, пишите нам в Telegram.

Instagram

Вконтакте

АНО ДПО “Открытое образование”



Источник 📢