Data Science дайджест №3
Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Data Science за январь.
«Как компьютерное зрение победит очереди и пустые полки в супермаркетах», Хайтек
Руководитель отдела инновационной аналитики и моделирования в Х5 Retail Group Валерий Бабушкин рассказал, какую информацию о покупателе можно получить из чека, сколько зарабатывают Data Scientist и как прокачаться в машинном обучении.
О сборе информации для анализа покупателей. Товары, которые вы купили, хорошо характеризуют вас. Из чека можно узнать приблизительный возраст, семейное положение, предпочтения покупателя — это уже немало информации.
О компьютерном зрении. Мы начинаем тестировать компьютерное зрение в крупных магазинах.
Первая задача — следить за тем, чтобы товар был на прилавке. Камера обнаруживает, что товара осталось мало. Сотрудник получает уведомление и идет на склад. Это поможет не потерять покупателей.
Вторая задача — очередь. Сотрудник сядет за кассу до того, как очередь сформировалась, что сохранит покупателям нервы, а нам — деньги.
О потенциальных сотрудниках. Наши сотрудники — это люди с аналитическим и критическим мышлением. Они должны уметь программировать на Python, знать теорию вероятности и математическую статистику, иметь навыки машинного обучения.
О карьерном росте и зарплате. В ИТ есть градация — джуниор, мидл, сеньор и стажер. Выше — стафф или ведущий, что встречается редко. Должность сеньора обесценивается: у нас их много, но они редко дотягивают до среднего мидла. В среднем джуниор получает где-то 120–150 тыс. рублей в месяц, мидл — до 250 тыс. Сеньоры порядка 400 тыс. рублей. Верхняя планка — больше 600 тыс. рублей.
Обучение в онлайн-университете: курс «Big Data: основы работы с большими массивами данных»
Об образовании. Я закончил два университета, но нигде не занимался машинным обучением, поэтому пришлось получать навыки самостоятельно.
На Coursera есть два серьезных курса: курс Хинтона про машинное обучение и нейронные сети и курс Дафны Коллер про вероятностные неографические модели. Я прошел один из трех курсов Коллер.
Учиться можно не только на Coursera. Например, я читаю много книг. Сейчас закончил книжку Брэдли Эфрона по статистике. До этого — книгу Йена Годфеллоу по глубокому обучению. В самообучении главное — чтение и проверка.
О будущем ритейла. Человек пользуется тем, что может себе позволить, и тем, что ему удобно. Поэтому формат гипермаркетов скоро начнет отмирать.
«Aadhaar: зачем в Индии оцифровали всех граждан», Executive.ru
В сообществе «Executive.ru» рассказали о созданной в Индии системе биометрической идентификации граждан и о том, как она работает.
Что такое Aadhaar. Это биометрическая система, в которой зарегистрирован 1,1 миллиард индийцев. Каждый житель Индии может получить двенадцатизначный идентификационный номер, дающий доступ к системе.
Сдача биометрических данных
Для чего она нужна. Главная цель проекта — борьба с бедностью. Несмотря на успехи индийской экономики, 400 млн. человек живут за чертой бедности. Правительство выделяет средства на поддержку населения, но из-за коррупции и бюрократических проволочек деньги не доходят до жителей.
Какие данные используют. Система включает отпечатки пальцев, снимки радужки глаз, фотографии и личные данные.
Результаты. Aadhaar включили в государственные программы продуктовых карточек, льготного образования, субсидирования потребителей сжиженного газа, медицинской помощи.
«Камера, мотор, Big Data: как киностудии ищут новые фильмы с помощью ИИ», habr.com
Редактор блогов Binary District Мария Салтыкова рассмотрела примеры того, как киностудии пытаются предсказать успех фильма с помощью машинного обучения.
Компания ScriptBook попыталась предугадать успех фильма с помощью киносценария. В систему загрузили сценарий фильма, а через несколько минут получили отчет. Машина анализирует персонажей, предсказывает демографию проекта и прогнозирует возможные кассовые сборы.
Студия 20th Century Fox разработала нейросеть Merlin Video, которая анализирует трейлеры фильмов и определяет, какие объекты и как часто встречаются. Это позволило понять, на какие фильмы могут пойти зрители, которым нравятся такие картины.
В университете Айовы создали базу фильмов и обучили программу искать признаки, которые отличают коммерчески успешные ленты.
«Как создать отдел Data Science и не облажаться», habr.com
Иван Серов из ID Finance рассказал, как запустить работу отдела Data Science, что для этого нужно и какие трудности могут быть.
- Заложите ожидания и KPI при создании отдела.
- Сначала сделайте proof of concept проект, а затем переходите к более сложным вещам.
- Соберите все необходимые данные в удобном для аналитиков виде.
- Создайте отдела аналитики.
- Подберите команду из Project Manager, Data Scientist, Data Engineer и разработчика.
- Не забывайте про внутренние коммуникации и тренинги.
- Выстраивайте внешние коммуникации — работайте с медиа, сообщество, рассказывайте о своих проектах, пишите статьи в тематические издания.
Читать еще:»12 книг по Data Science для новичков и продвинутых»
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.
Полный текст статьи читайте на Нетология