Data Science дайджест №6
Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Data Science.
Обучение в онлайн-университете: курс «Big Data»
«Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов», habr
Пользователь Александр Дончук рассказал в блоге Open Data Science, как создавал систему распознавания дефектов и контроля состояния тележек для локомотивов.
Задача. Создать аппаратно-программный комплекс, который поможет обнаружить дефекты тормозных колодок и передаст данные бригадиру смены.
Оборудование. Использовали камеры Basler и импульсную подсветку 6к люмен. Для серверного железа взяли Intel Core i7–7740X Kaby Lake, 46gb RAM, 1 TB SSD и 3×1080Ti.
Сборка и проверка сигнала управления импульсной подсветкой для камеры
Сбор данных. Собрали около 800 фотографий колодок разной стертости.
Обучение модели. Лучше всего подошла модель c энкодером se_resnext50. Для обучения модели использовали фреймворк Pytorch 1.0.1.
return Compose ([
OneOf ([
CLAHE (clip_limit=2),
IAASharpen (),
IAAEmboss (),
RandomBrightnessContrast (brightness_limit=0.8, contrast_limit=0.8),
HueSaturationValue (hue_shift_limit=50, sat_shift_limit=50, val_shift_limit=50),
RGBShift (r_shift_limit=50, g_shift_limit=50, b_shift_limit=50),
JpegCompression (quality_lower=30),
RandomGamma (),
GaussNoise ()
], p=0.3),
OneOf ([
Blur (),
MotionBlur (),
MedianBlur (),
], p=0.3),
ShiftScaleRotate (shift_limit=0.2, scale_limit=0.4, rotate_limit=5, p=0.5),
Normalize (p=1)
], p=p)
В качестве функции потерь выбрали The Lovasz-Softmax loss.
Программирование REST сервера и клиента на Android. Для REST сервера выбрали flask.
Результат:
«Для чего и как мы скрываем госномера автомобилей в объявлениях Авито», habr
Илья Сергеев в блоге компании Авито рассказал, зачем они скрывают номера автомобилей и какими способами можно решить эту задачу.
По госномеру можно узнать дополнительную информацию об автомобиле: застрахован ли автомобиль, находится ли в федеральном розыске; поэтому пользователи Авито пытаются самостоятельно скрыть номера:
Авито помогает пользователям обезличивать фотографии, чтобы защитить данные о госномерах:
Автоматизировать процесс помогут сверточные нейронные сети: двухэтапные — Faster RCNN, Mask RCNN; одноэтапные — SSD, YOLO, RetinaNet. Они способны находить на картинках множество объектов разных классов и по умолчанию выдают bounding box со сторонами, параллельными осям координат.
Если не изменить bbox regressor так, чтобы получать угол поворота рамки, то номер закроется некрасиво:
Сбор данных. Сборка датасета проходит два этапа:
- собрать картинки автомобилей;
- разметить область с госномером на фотографиях.
Модель. Создаем сеть для предсказания четырёх точек области. Получаем признаки с помощью resnet18, делаем голову для регрессии в четыре точки и голову для определения на картинке номерного знака.
«Как стать Data Engineer», блог Адиля Хаштамова
Разработчик Адиль Хаштамов рассказал в своем блоге, что такое Data Engineer, какие навыки прокачать и сколько зарабатывают специалисты этой области.
Что такое Data Engineer и что нужно знать дата-инженеру. Область data engineering — доставка, хранение и обработка данных. Обеспечение инфраструктуры данных — главная задача дата-инженеров. В Data Engineering нужны знания эффективных алгоритмов и структур данных.
Компании предъявляют такие минимальные требования к специалисту:
- Знать SQL и Python;
- Иметь опыт работы с облачными платформами;
- Знать Java/Scala;
- Работать с базами данных SQL и NoSQL.
Требования к специалисту могут меняться в зависимости от компании: в Google, Amazon, Facebook требования к кандидату выше.
Зарплата в области. Средняя зарплата у Data Engineer в США — 140 тысяч долларов. В России спрос на дата-инженеров только начинает расти, поэтому зарплатная вилка варьируется от 100 тысяч рублей до 250 тысяч.
«Как исследователи в Uber применяют и масштабируют знания о поведении человека», habr
В блоге Skyeng опубликовали перевод статьи команды Uber Labs о том, как знание человеческого поведения применяется на практике и почему для улучшения пользовательского опыта они сотрудничают с маркетологами.
Uber Labs — команда исследователей со знаниями психологии, маркетинга и когнитивных наук. Они знают, что мотивирует людей, как они принимают решения и что сделать, чтобы удовлетворить клиентов. Задача команды — анализ данных для улучшения продуктов в интересах пассажиров и водителей.
Чем занимается команда Uber Labs:
- Консультирует и дает рекомендации командам маркетологов, продактам и специалистам по данным;
- Создает гайдлайны по контенту и разработке и шаблоны на R и Python;
- Предоставляет доступ к своей аналитике и методологии коллегам в Uber.
Кейс: Express POOL. В 2018 году Uber запустил сервис Express POOL, который предлагает разделить плату за поездку с попутчиком, но при этом последнему пассажиру нужно пройтись до точки отправления. Проблема — пользователи отменяли поездки, если приходилось ждать дольше. После консультации с разработчиками сервиса команда Uber labs выяснила, что люди не любят бездействие и хотят, чтобы все действия были прозрачны. Эти рекомендации учли и дополнили в интерфейс продукта.
Дизайн интерфейса Express POOL показывает детальные шаги и использует иконки для получения дополнительной информации о статусе заказа.
Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.
Полный текст статьи читайте на Нетология