Майним технохардкор в сезоне Data Mining05.09.2022 15:33

С 5 сентября по 20 октября на Хабре открыт сезон Data Mining — конкурс технических статей для дата-сатанистов, знающих толк в оккультных практиках работы с данными.

Хабр проводит сезон вместе с SM Lab (IT-компанией «Спортмастера»). У них, кстати, есть middle-вакансия для Data / ML Engineer.

Правила просты: вы пишете статью в хаб Data Mining и, если её рейтинг оказывается самым высоким, SM Lab отгружает вам игровой монитор и грант на написание следующего шедевра.

Победителя выберут читатели, так что не забудьте приподнять рейтинг лучшим постам (и карму их авторам).

Я (@apoltavcev) работаю продюсером спецпроектов в Хабре. Вы наверняка замечали, что техническим текстам с высоким порогом входа гораздо сложнее набирать просмотры и плюсы. Сезоны — наша попытка восстановить справедливость и дать техноавторам ту славу, которую они заслуживают.

Один сезон мы уже провели — он был для джавистов. Авторы получили внимание, читатели 46 отличных постов, а хаб Java стал самым популярным из узкопрофильных. Кажется, теперь мы будем проводить сезоны регулярно.

Похорошеет ли Хабр при сезоне Data Mining — зависит от вас.

Зачем участвовать в сезоне Data Mining

Дело тут не только в призах. Каждый участник бесплатно получает продвижение своего поста в соцсетях Хабра. Это примерно 40k охвата.

Что делать с этим вниманием — решайте сами. Можно укрепить личный бренд или подсветить пет-проект, да даже найти новую работу. Кстати, авторы корпоративных блогов тоже могут участвовать.

Главный приз от SM Lab. Игровой монитор LG 32GP83B-B — для работы тоже подойдёт, у меня такой же. Гарантированно отправим его в любую точку России. Если живёте в другой стране, мы поищем варианты международной доставки, но обещать ничего не можем.
Грант от SM Lab. 30 000 рублейна подготовку ещё одной статьи на любую тему в рамках Data Mining. Во время предыдущего сезона победитель отказался от гранта в пользу другого участника. Так тоже можно: если времени на написание ещё одного текста у вас нет, можете передать этот грант автору полюбившегося вам сезонного поста.
Значок в профиле. Для участников — «Участник сезона Data Mining», а для победителя — «Победитель сезона Data Mining».
Дополнительный инвайт для победителя.

Правила сезона

Остались почти без изменений, но есть нюансы.

Побеждает пост с наибольшим рейтингом. Консилиум собирать было бы долго и неэффективно, поэтому победителя выберет коллективное бессознательное Хабра. Таймаут по голосованию объявим, когда закончим приём заявок.
Один автор — неограниченное количество заявок. Чем больше статей, тем выше шанс привлечь внимание читателей и победить. Участвовать могут не только новые посты, но и старые тексты, опубликованные после 20 августа.
Участвовать могут все — даже авторы из «Песочницы». Отличная возможность привлечь максимум внимания к вашему первому посту.
Только технохардкор. Если вы решили рассказать, как правильно собеседовать дата-инженеров — на сезон такая статья не пройдёт. Как и голые результаты анализа данных без рассказа о технической изнанке. Нас интересуют не сами данные, а моменты, которые пригодятся спецам по Data Science в работе.
Без лишней рекламы или антирекламы. Не хотелось бы, чтобы конкурсным анонсированием воспользовались в PR-войнах. В сезонных постах можно упомянуть компанию, в которой вы работаете, но не более того.

Как подать заявку

Написать подходящий текст для хаба Data Mining. Если сомневаетесь, подойдёт ли тема — можно спросить у меня.

При публикации добавить к посту тег «cезон Data Mining». Важно: можно прикрепить тег и к старому посту, если он опубликован не раньше 20 августа 2022.

Дождаться проверки модератором. Если пост подойдёт под критерии сезона, мы отметим его специальной плашкой под заголовком и добавим в список под постом-анонсом. О результатах модерации отпишемся в личку.

Готово! Вы восхитительны и участвуете в сезоне.

Идеи для постов

Знакомые авторы подкинули мне пару тем для постов, которые они бы и сами прочитали.

Сейчас в интернетах (на Хабре особенно) полно статей о том, как обучать нейросети любого вида на всех популярных фреймворках, но очень мало о том, что делать с этими нейросетями после обучения. А именно — как подготовить их к инференсу в реальных проектах.
Может быть для тех, кто только начинает изучать науку о данных, это не столь важно, но для специалистов вопросы оптимизации и подготовки моделей к проду так же важны, как вопросы обучения.
Я хотел бы почитать про то, как можно и нужно оптимизировать нейронные сети, как правильно конвертировать их в формат, читаемый фреймворками для инференса: opencv-dnn, onnxruntime, openvino и так далее; как устранять проблемы с совместимостью (например, когда в модели присутствует слой, который не реализован в целевом фреймворке), и как приспосабливать обученную модель к различным ускорителям (GPU, NPU) и embedded-устройствам (Jetson, Khadas, Raspberry Pi).

Станислав Матков

CV-engineer в VideoIntellect

Я бы с удовольствием почитал посты про фича-инжиниринг с примерами, очень мало видел информации про генерацию новых признаков. И ещё про классификацию временных рядов и поиск аномалий во временных рядах.

Терминатор

Cyberdyne Systems Model 101, киборг-убийца из будущего
(источник картинки: ruDALL-E)

Посты-участники

Список обновляется, орфография и пунктуация авторские.

Jira, Jirа! Повернись к лесу задом, ко мне передом. Повсеместная цифровизация не только в телевизоре. Она теперь повсюду нас окружает, на работе и не только. Типичным представителем являются трекеры действий (системы Сервис Деск, проектные системы, документообороты и пр.). Общей болевой точкой всех этих систем являются сложная объектная и процессная модель и фокус на поддержку операционного обслуживания. Шаг влево или вправо в попытках понять всю картину целиком повергает аналитиков в уныние и порождает безуспешные проекты на многие месяцы. А вопрос этот висит в воздухе, в том или ином виде, почти ежедневно.

Как организовать потоковую обработку данных: часть 1. В этой статье я расскажу о том, как мы создали универсальный инструмент потоковой обработки данных и построили с его помощью мощную систему стриминга.

Как организовать потоковую обработку данных: часть 2. В первом посте мы обсудили основные компоненты методологии, а сейчас поговорим о том, как ими пользоваться. Поехали!

Проверка нормальности распределения с использованием критерия Эппса-Палли средствами Python. Критерий Эппса-Палли — один из критериев проверки нормальности распределения, основанный на сравнении эмпирической и теоретической характеристических функций.