Достучаться до ИИ: сезон больших данных на Хабре17.04.2023 14:01

Ладно, не заливай! Ни разу не был на берегах Data Lake?! Пойми, в IT только и говорят, что о Data Lake! Как оно бесконечно прекрасно. О бигдате и графах, которые они видели. О том, как дата-сайентист, погружаясь в море данных, преисполнился знания. Мы не хотим, чтобы Хабр там наверху окрестили как-нибудь не так, а потому ещё с начала года мощно прокачиваем ИИ-ландшафт самыми хардкорными и глубокими текстами: уже отгремел сезон ML, закончилась неделя нейроарта, а теперь совместно с Газпромбанком стартует сезон Big Data.

Зачем это нужно

Большие данные — топливо современной экономики. Маркетинговая и продуктовая аналитика, решение управленческих и процессных проблем, настройка алгоритмической ленты в соцсетях и даже предсказание ближайших поломок оборудования атомных электростанций, прибаутки ChatGPT — всё это возможно только благодаря тому, что кто-то заморочился, собрал кучу информации и отыскал в складках функции потерь хороший локальный минимум.

Эта сложная и наукоёмкая сфера развивается каждый день. Быть в курсе всех интересных кейсов и выбрать из огромного потока новостей самое главное в одиночку — просто невозможно. Поэтому так важно, чтобы эксперты делились друг с другом и с сообществом своими важными наработками и мыслями.

Зачем продвигать статьи про большие данные

Мария Косарева

Вице-Президент, начальник Департамента анализа данных и моделирования в Газпромбанке

Хороший кейс или описание нового интересного алгоритма могут на десятки процентов увеличить доход бизнеса или разрешить серьёзные социальные проблемы.
Говорят, что данные — это новая нефть. Они повсюду, их зеттабайты, причем данные принадлежат и никому, и всем одновременно. Казалось бы, каждый человек может воспользоваться данными, но, как и в случае с энергоресурсами, в реальности лишь немногие способны построить сложную инфраструктуру, собрать команду специалистов, умеющих работать с данными и предиктивной аналитикой, инвестировать во внедрение машинного обучения и встроить его в свои бизнес-процессы.
В работе с Big Data и искусственным интеллектом сейчас заинтересованы большинство отраслей: производство, страхование, логистика и, конечно, FinTech. Газпромбанк внедряет машинное обучение не только в процессы кредитования и формирования персонализированных предложений. Мы заинтересованы максимально использовать в процессах data-driven-подход, основанный на данных, а не субъективном мнении.
Сейчас мы реализуем несколько крупных проектов по внедрению искусственного интеллекта в работу со сканами и документами (computer vision), HRTech (графовая аналитика взаимодействия сотрудников), разбор платёжной строки (NLP), оптимальное размещение офисов и банкоматов (геомоделирование) и многое другое. Для нас работа с данными — это способ упрощения работы, дополнительного заработка и сокращения издержек, а не просто хайп.

Правила сезона

Сезон Big Data пройдёт с 17 апреля по 07 июня. Дедлайн приёма заявок — 23:59 07 июня 2023.
Побеждает публикация с наивысшим рейтингом. Голосовать за лучшую статью можно на протяжении всего сезона, а после его завершения мы объявим результаты.
Один автор может прислать сколько угодно заявок. Принимаются не только новые, но и старые тексты, опубликованные после 11 апреля 2023.
Участвовать могут все — даже авторы из «Песочницы». Отличная возможность привлечь максимум внимания к вашей первой статье и сразу попасть «в основу».

Призы и слава

Замолвим за вас словечко перед Skynet и Матрицей — выдадим всем авторам плашку «Участник сезона Big Data», а победителю достанется значок «Победитель сезона Big Data» и дополнительный инвайт на Хабр. Машины вас не забудут.
Автору самой рейтинговой статьи достанется Apple MacBook Air 13.

Грант на 30 000 ₽ для подготовки ещё одной классной статьи (если на новую статью нет времени, грант можно передать другому участнику).

Требования к статьям

В центре внимания статей — Big Data. Применение в реальных задачах, настройка инфраструктуры, подготовка данных, новые подходы к обучению.
Мы ждём статьи, основанные на личном опыте и собственной экспертизе: опыт разработки и использования инструментов Big Data, инструкции по решению задач и проблем, собственное профессиональное мнение и взгляд на развитие этих технологий.
Статьи должны быть полезны другим пользователям и читателям: помогать в работе, разбивать предрассудки, решать профессиональные задачи. Если опытный дата-инженер или дата-аналитик прочитает вашу статью и применит что-то в своей работе — это и есть технохардкор. Материал должен быть про использование, внедрение и построение инфраструктуры работы с большими данными.
Без лишней рекламы или антирекламы. Можно упоминать бренды там, где это уместно, но посвятить статью пиару своего продукта или компании или знатно набросить на конкурентов не получится: все заявки отсматриваем вручную, так что «SPAM! SPAM! SPAM!» не просочится.

Как подать заявку

Написать текст для хаба Big Data. Если сомневаетесь, подойдёт ли тема — можно спросить у @mimizavr.

При публикации добавить к статье тег «сезон Big Data». Важно: можно прикрепить тег и к старой статье, если она опубликована с 10 апреля 2023 по 07 июня 2023.

Дождаться проверки модератором. Если публикация подойдёт под критерии сезона, мы отметим его специальной плашкой под заголовком и добавим в список под анонсом. О результатах модерации вы получите оповещение.

Идеи для статей

По нашему опыту, один из самых сложных барьеров при старте работы со статьями — выбрать тему. О том, что написать в Сезон, мы спросили победителя Сезона Data Mining и ChatGPT. Сравнивайте, вдохновляйтесь, но не путайте инструмент с профильной экспертизой.

Давид Дале

aka cointegrated. Разработчик / Аналитик / Data Scientist / NLPшник

Сейчас у меня основная область интересов — NLP, а в её рамках –
опенсорсные инициативы (особенно не от компаний, а от независимых
энтузиастов), и работа с маленькими моделями (в противоположность
нынешнему хайпу вокруг LLM).

ChatGPT

Генеративный искусственный интеллект

Я могу помочь вам сгенерировать некоторые темы статей для хаба Big Data на сайте Habr.com. Вот три возможные темы:
— Большие данные и искусственный интеллект: как интегрировать NLP и Computer Vision в свои решения;
— Как выбрать подходящий инструмент для визуализации больших данных: обзор популярных библиотек и фреймворков;
— Как применять методы глубокого обучения для анализа больших данных: преимущества и ограничения.

Статьи-участники

Тут будут статьи участников. А пока тут будет нейрокот, который будет уходить всё глубже вниз с каждой новой статьёй

Тот самый кот пристально наблюдает за вашими статьями и ждёт новых