Data Science дайджест №6

Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Data Science.

Обучение в онлайн-университете: курс «Big Data»

«Deep Learning — не только котики на мобилках или как мы производим дефектовку тележек локомотивов», habr

Пользователь Александр Дончук рассказал в блоге Open Data Science, как создавал систему распознавания дефектов и контроля состояния тележек для локомотивов.

Задача. Создать аппаратно-программный комплекс, который поможет обнаружить дефекты тормозных колодок и передаст данные бригадиру смены.

Оборудование. Использовали камеры Basler и импульсную подсветку 6к люмен. Для серверного железа взяли Intel Core i7–7740X Kaby Lake, 46gb RAM, 1 TB SSD и 3×1080Ti.


Сборка и проверка сигнала управления импульсной подсветкой для камеры

Сбор данных. Собрали около 800 фотографий колодок разной стертости.

Обучение модели. Лучше всего подошла модель c энкодером se_resnext50. Для обучения модели использовали фреймворк Pytorch 1.0.1.

def train_transform (p=1):
return Compose ([
OneOf ([
CLAHE (clip_limit=2),
IAASharpen (),
IAAEmboss (),
RandomBrightnessContrast (brightness_limit=0.8, contrast_limit=0.8),
HueSaturationValue (hue_shift_limit=50, sat_shift_limit=50, val_shift_limit=50),
RGBShift (r_shift_limit=50, g_shift_limit=50, b_shift_limit=50),
JpegCompression (quality_lower=30),
RandomGamma (),
GaussNoise ()
], p=0.3),
OneOf ([
Blur (),
MotionBlur (),
MedianBlur (),
], p=0.3),
ShiftScaleRotate (shift_limit=0.2, scale_limit=0.4, rotate_limit=5, p=0.5),
Normalize (p=1)
], p=p)

В качестве функции потерь выбрали The Lovasz-Softmax loss.

Программирование REST сервера и клиента на Android. Для REST сервера выбрали flask.

Результат:

«Для чего и как мы скрываем госномера автомобилей в объявлениях Авито», habr

Илья Сергеев в блоге компании Авито рассказал, зачем они скрывают номера автомобилей и какими способами можно решить эту задачу.

По госномеру можно узнать дополнительную информацию об автомобиле: застрахован ли автомобиль, находится ли в федеральном розыске; поэтому пользователи Авито пытаются самостоятельно скрыть номера:

Авито помогает пользователям обезличивать фотографии, чтобы защитить данные о госномерах:

Автоматизировать процесс помогут сверточные нейронные сети: двухэтапные — Faster RCNN, Mask RCNN; одноэтапные — SSD, YOLO, RetinaNet. Они способны находить на картинках множество объектов разных классов и по умолчанию выдают bounding box со сторонами, параллельными осям координат.

Если не изменить bbox regressor так, чтобы получать угол поворота рамки, то номер закроется некрасиво:

Сбор данных. Сборка датасета проходит два этапа:

  1. собрать картинки автомобилей;
  2. разметить область с госномером на фотографиях.

Модель. Создаем сеть для предсказания четырёх точек области. Получаем признаки с помощью resnet18, делаем голову для регрессии в четыре точки и голову для определения на картинке номерного знака.

«Как стать Data Engineer», блог Адиля Хаштамова

Разработчик Адиль Хаштамов рассказал в своем блоге, что такое Data Engineer, какие навыки прокачать и сколько зарабатывают специалисты этой области.

Что такое Data Engineer и что нужно знать дата-инженеру. Область data engineering — доставка, хранение и обработка данных. Обеспечение инфраструктуры данных — главная задача дата-инженеров. В Data Engineering нужны знания эффективных алгоритмов и структур данных.

Компании предъявляют такие минимальные требования к специалисту:

  • Знать SQL и Python;
  • Иметь опыт работы с облачными платформами;
  • Знать Java/Scala;
  • Работать с базами данных SQL и NoSQL.

Требования к специалисту могут меняться в зависимости от компании: в Google, Amazon, Facebook требования к кандидату выше.

Зарплата в области. Средняя зарплата у Data Engineer в США — 140 тысяч долларов. В России спрос на дата-инженеров только начинает расти, поэтому зарплатная вилка варьируется от 100 тысяч рублей до 250 тысяч.

«Как исследователи в Uber применяют и масштабируют знания о поведении человека», habr

В блоге Skyeng опубликовали перевод статьи команды Uber Labs о том, как знание человеческого поведения применяется на практике и почему для улучшения пользовательского опыта они сотрудничают с маркетологами.

Uber Labs — команда исследователей со знаниями психологии, маркетинга и когнитивных наук. Они знают, что мотивирует людей, как они принимают решения и что сделать, чтобы удовлетворить клиентов. Задача команды — анализ данных для улучшения продуктов в интересах пассажиров и водителей.

Чем занимается команда Uber Labs:

  1. Консультирует и дает рекомендации командам маркетологов, продактам и специалистам по данным;
  2. Создает гайдлайны по контенту и разработке и шаблоны на R и Python;
  3. Предоставляет доступ к своей аналитике и методологии коллегам в Uber.

Кейс: Express POOL. В 2018 году Uber запустил сервис Express POOL, который предлагает разделить плату за поездку с попутчиком, но при этом последнему пассажиру нужно пройтись до точки отправления. Проблема — пользователи отменяли поездки, если приходилось ждать дольше. После консультации с разработчиками сервиса команда Uber labs выяснила, что люди не любят бездействие и хотят, чтобы все действия были прозрачны. Эти рекомендации учли и дополнили в интерфейс продукта.


Дизайн интерфейса Express POOL показывает детальные шаги и использует иконки для получения дополнительной информации о статусе заказа.

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Полный текст статьи читайте на Нетология