Хакатон по анализу открытых данных пользователей социальной сети ВКонтакте. Для школьников и первокурсников
» — Они очень молоды, у них все впереди, а у нас впереди — только они.»
«Гадкие лебеди» А. и Б. Стругацкие
Привет, Хабр.
Уже более двух лет я знаком с замечательной командой, которая делает классные штуки для школьников.
Все началось с Яндекс-лагеря («Свой образовательный лагерь с покером, 3d-принтером, роботами и посадкой на Марс») где мы играли с ребятами в покер (сугубо в образовательных целях). Там я запилил «инженерную олимпиаду», где из скотча и туалетной бумаги нужно было делать функциональные объекты, притащил 3д-принтер (на котором мы пробовали печатать отмычки) и научил пару ребят, как лазить в окно ночью и мазать зубной пастой. Ах, да, еще мы написали несколько статей на Хабр, сначала под строгим присмотром, а потом самостоятельно.
На следующий год я взял в лагерь наручники и нейроинтерфейс NeuroSky.
Был конкурс на скоростное программирование в наручниках, а так же выявляли, кто дольше всех сможет протянуть в лагере, не снимая браслеты. Еще мы спаяли пояс для развития нейропластичности. «Детский лагерь: биссектрально-пифагоровы треугольники, перепрограммирование мозга, радар-детектор и взлом наручников».
А так же стартанули «пиратский» флешмоб по переводу книги от главреда WIRED (бывшего blackhat хакера) про подпольный миллиардный рынок кардеров: «Шкворень: школьники переводят книгу про хакеров».
И вот сейчас команда организаторов решила запустит хакатон (и серию лекций и воркшопов) по анализу открытых данных и нам нужны советы, идеи и гипотезы от хабрачитателей.
Под катом немного описания мероприятия и лекторов, а так же полезные материалы для подготовки к хакатону. В комментах можно предложить свои задачки, идеи и варианты гипотез на проверку. (Вспомните себя школьником, над чем вам было бы интересно поработать, если бы вы попали на подобный хакатон?)
Алена, организатор, созналась мне, зачем они все это делают:
- Вся data science и смежные дисциплины позиционируется (воспринимаются) как очень сложные штуки и учат этому только на старших курсах и в ШАДах, а на самом деле ничего страшного там нет и чаще важна идея. Можно смело пробовать, делать исследования. Причём анализ данных штука полезная во всех областях, и это мы покажем на открытых лекциях (на примерах от CERNа до рекламы с банками). И идея там важнее владения сложными инструментами.
- Во-вторых, мы работаем с поколением школьников и первокурсников, но не так много о нем знаем. Да и оказалось, что социологи знают не больше. Они делают опросы о времени в онлайне, задавая вопрос в бумажной анкете. В России как-то совсем туго с исследованиями соцсетей, мы нашла всего несколько социологов, и позвали их на хакатон.
- В-третьих, эта штука образовательная, нам хочется затащить и «укусить» побольше ребят всякими популярными технологиями, с которыми в их возрасте не знакомят вовсе. Да и эксперимент с перемешиванием школьников и младшекурсников осознанный, хочется подтвердить гипотезу о том, что разницы в их обучении и способностях на новых поприщах несущественна (или нет?).
К участию приглашаются старшеклассники и студенты возрастом 15–18 лет со всей России, умеющие программировать хотя бы на одном языке, а также имеющие представления о алгоритмах, структурах данных и базах данных.
Для участия необходимо подать заявку на участие на сайте. После этого организаторы вышлют вам отборочное задание по анализу субтитров к роликам конференции TED, решение которого нужно выслать в течение ровно 10 дней с момента отправления вам письма организаторами. Основной и резервный список участников будет опубликован 12 февраля, свое участие необходимо подтвердить в течение 2 дней со дня публикации списков.
За время хакатона необходимо сформулировать и проверить одну или несколько гипотез о своем поколении или разработать рекомендательную систему или сервис на основе данных открытых данных ВКонтакте 15–18-летних пользователей. Работа над заданием будет проходить в командах по 2–3 человека, формирование которых пройдет в первые часы хакатона.
Каждой команде будет предоставлен консультант, который будет помогать преодолевать технические трудности в течение всего хакатона.
Лекторы и жюри
Я где-то слышал про исследование, что посмотрев 5-ти секундное видео с преподавателем ученик подсознательно формирует у себя представление, насколько эффективно он будет у него учиться. Вот несколько видео тех людей, которых знаю лично.
Иван Бибилов, Яндекс
«Основы функционального программирования»
Григорий «Бобук» Бакунов, Яндекс
Андрей Устюжанин, Яндекс
«Обработка больших данных БАК»
Александр Белоцерковский, Microsoft
Полезные материалы
Habrahabr
Big Data от А до Я. Часть 1: Принципы работы с большими данными, парадигма MapReduce
«Этой статьёй я открываю цикл материалов, посвящённых работе с большими данными. Зачем? Хочется сохранить накопленный опыт, свой и команды, так скажем, в энциклопедическом формате — наверняка кому-то он будет полезен.
Проблематику больших данных постараемся описывать с разных сторон: основные принципы работы с данными, инструменты, примеры решения практических задач. Отдельное внимание окажем теме машинного обучения.
Начинать надо от простого к сложному, поэтому первая статья — о принципах работы с большими данными и парадигме MapReduce.»
Ананлитика и визуализация «Войны и мира»
voinaimir.com/info — это визуальный и лингвистический анализ романа «Война и мир»
Rusbase
Подтяни бигдату. Курсы и полезные ссылки по теме data science
«Rusbase публикует список образовательных курсов и полезных ссылок для тех, кто хочет развиваться в сфере анализа больших данных. Если вы еще не сталкивались с Data Science, то рекомендуем вам ознакомиться с нашим словарем big data, а также посмотреть, какие игроки работают на этом рынке в России.»
Coursera
Введение в машинное обучение
«Не так давно получил распространение термин «большие данные», обозначивший новую прикладную область — поиск способов автоматического быстрого анализа огромных объёмов разнородной информации. Наука о больших данных ещё только оформляется, но уже сейчас она очень востребована — и в будущем будет востребована только больше.
С её помощью можно решать невероятные задачи: оценивать состояние печени по кардиограмме, предсказывать зарплату по описанию вакансии, предлагать пользователю музыку на основании его анкеты в интернете.»
ФКН ВШЭ
«Data Science, черные ящики — и почему вам сильно повезло»
Лектор — Андрей Себрант, компания Яндекс
«Я расскажу, почему именно сейчас Data Science оказывается одной из главных причин радикального изменения информационных технологий –, а через них, в свою очередь, промышленности и жизни людей в целом. Ситуации, когда алгоритмы эффективно заменяют людей и меняют целые отрасли рассмотрены на примерах как сервисов Яндекса, так и некоторых других крупнейших мировых компаний. При этом наряду с повышением эффективности и другими достижениями возникают и неприятные побочные эффекты, способные в итоге повлиять на веками складывавшиеся в человеческом обществе институты — об этом тоже важно знать.»
ПостНаука
«В чем заключаются сильные и слабые стороны анализа данных? Как проверить наблюдаемые паттерны? Как методы анализа данных помогают формировать новые концепции? На эти и другие вопросы отвечает доктор технических наук Борис Миркин.»
Статья — Анализ данных
Какие есть ништяки
- [до 10 февраля] Поучаствовать и попрактиковаться (если подделать паспорт, сделать пластическую операцию и выглядеть моложе 18-ти лет)
- [до 16 февраля] Послушать открытые лекции крутых преподов
- Предложить задание/гипотезу для проверки
- Присоединиться к проекту в качестве эксперта
Если у вас есть на примете талантливые школьники/студенты — приглашайте, мотивируя примерно вот так:
Бонусная задачка:
Чему равна сумма цифр в числе 2^1000?
Немного фоток, передающих атмосферу в лагерях и показывающих адекватность преподавателей
P.S.
Вот пара статей про «выпускников» лагерей и хакатонов:
Программированием я увлеклась самостоятельно: сама пошла читать статьи и обсуждения на форумах, стала изучать другие языки программирования. Обучающих ресурсов сейчас настолько много, что можно просто вбить в строку поиска что-то типа «программирование для новичков» и приступать к учебе. Я вот изучала язык Java на сайте JavaRush. Там обучение программированию дается в игровой форме — с мультиками и баллами за правильно выполненные задания. Вообще, программирование — это практика, практика и еще раз практика. Плюс не нужно бояться экспериментировать.
Статья »11-классница Алена Карнаухова об искусственном интеллекте и связи музыки с программированием»
Мы с ребятами из школьного кружка делаем оптокоптер для биостанции МГУ. Три раза в год мы ездим от школы на биостанцию, где нас учат биологии. Но я и там все равно занимаюсь математикой. Сделать оптокоптер по-настоящему трудно. Это огромная штука, которая должна летать над лесом, причем довольно долго (минут 30), снимать видео и передавать его в реальном времени — прямо во время полета. Такие задачи мне действительно интересны: и потому, что они сложные, и потому, что можно контролировать процесс на всех стадиях, и потому, что они служат реальной цели.
Статья »10-классник Андрей Творожков об алгоритмическом мышлении и поиске стоящих идей»