Data Science-дайджест №7

Редакция Нетологии собрала и законспектировала самые интересные статьи по Data Science.

Обучение в онлайн-университете: профессия «Data Scientist»

«Эксперимент: Фейковый тест Тьюринга», tjournal

Автор телеграм-канала Denis Sexy IT Денис Ширяев провел эксперимент: он свел двух людей, которые думают, что общаются с роботом.

В телеграм-канале опубликовали пост, где рассказали о создании чатбота, натренированного на комментариях из сети. Пользователям нужно было определить, кто был их собеседник: человек или робот?

Но никакой нейронки не было — пользователей разыграли. Большинство людей уверены, что общались с глупым ботом:


Оказалось, что людям нравится прикидываться роботами

«ИИ научился создавать видео с одного кадра. Старые картины теперь можно сделать живыми», habr

В блоге компании Pochtoy рассказали, как «Сколково» и центр Samsung AI делают видео человека из одной картинки.

Специалисты создали систему, которая ищет на фото ориентиры вроде носа, глаз, бровей, подбородка. Она улавливает, что из себя представляет человек, а затем переносит его особенности на видео:

Модель не требует многого — нужно фото одного человека, у которого будут видны хотя бы глаза. Если дать системе видео, где человека находится в таком же положении, как на фото, то система сделает с ним все что угодно. Результат генерируется моментально — достаточно одной картинки. Идеала можно достичь с помощью 32 снимков.


Удалось оживить Мона Лизу


Мерлин Монро вновь запела для нас

«Как мы создавали новостные заголовки на русском языке с помощью Deep Learning», DOU

Data Scientist компании Genesis Виктор Трохименко рассказал, как они создавали новостные заголовки с помощью глубокого обучения.

Автоматизация процессов — тренд в медиабизнесе. В Genesis Media решили помочь авторам писать заголовки с помощью Data Science. За основу взяли казахстанский новостной сайт nur.kz.

Всего собрали 2,8 млн записей с признаками «заголовок» и «текст»:

Операции с регулярными выражениями использовали для предварительной обработки:

Модели

Решения «из коробки». Тестировали два решения: gensim и summa. Они больше подходят для английского языка и не дают нужного результата, поэтому эти варианты отбросили.

TensorFlow. Нашли несколько подходов, где можно обучаться на собственных данных. Сначала взяли модель, которая написана Tensorflow. Для инициализации векторов слов она использует предобученный Glove. Альтернатива Glove — предобученный FastText.

На основе Keras. Решили попробовать еще один вариант — keras-text-summarization. Чтобы решить, какую модель лучше использовать для русского языка, задали вопрос в репозитории. Ответ был такой: «I think recursive-rnn-1 or recursive-rnn-2 should be good for the start».

На основе OpenNMT. OpenNMT — нейронная система машинного перевода с открытым исходным кодом. Ее плюс — можно попробовать разные варианты перевода и обобщений.

Команда Genesis Media остановилась на варианте с Keras, потому что он показал удовлетворительный вариант.

«Самые интересные и быстрорастущие библиотеки Python 2019 года», MentorCruise

В MentorCruise рассказали, на какие библиотеки Python стоит обратить внимание в 2019 году.

PySnooper

У большинства IDE отличный отладчик для Python. Он позволяет проходить по коду, проверять переменные и видеть, где что-то идет не так. Но если вы не работает с IDE — установка утомительна.

PySnooper — альтернатива для этого. Библиотека настроена на две строки, записывает каждый вызов и строку кода в оформленной функции. Затем можно выгрузить ее в стандартный вывод или в файл.

PySnooper позволяет наблюдать за определенными переменными с помощью однострочного изменения кода и может отлаживать многопоточные программы.

Leon

Леон — личный помощник с открытым исходным кодом, похожий на Siri и Google Assistant.

В настоящее время приложение понимает текст и голос, общие английские фразы, имеет доступ к определенным модулям для вычислений и проверки интеграций.

Bullet

Bullet — полезный инструмент для разработчиков, способный создавать настраиваемые приглашения CLI, в том числе простые [y / n] приглашения, а также красивые списки выбора, ввод свободного текста, запросы пароля.

AutoML-GS

Библиотека поддерживает фреймворк. Нужно только предоставить аннотированный CSV, и AutoML автоматически выберет и сравнит подходящие модели.

В библиотеке есть крутые штуки: код автоматически выполняется на бесплатном TPU для максимально быстрого обучения, наборы данных фильтруются и анализируются автоматически, генерируется собственный код Python для интеграции.

«Как устроено A/B-тестирование в Авито», habr

Аналитик Данил Леньков рассказал, как устроена платформа для A/B-тестирования в Авито, и поделился некоторыми техническими деталями.

Для Авито А/B эксперименты — важный инструмент принятия решений. Проверяется каждая гипотеза, а затем принимаются позитивные изменения.

A/B платформа в Авито нужна, чтобы:

  • помогать в запуске экспериментов;
  • контролировать нежелательные пересечения;
  • считать метрики, визуализировать результаты.


Так выглядит полный цикл эксперимент

Для конфигурации экспериментов используют YAM:

Технику хеширования с солью используют для деления трафика на группы:

Эффект «памяти» пользователей устраняют при помощи дополнительного перемешивания второй солью:

Сырые логи сначала раскладывают в Vertica, а затем агрегируют в таблицы-препараты:

T-test, Mann-Whitney U-test помогают измерять значимость отклонений по метрикам:

Для визуализации используют Tableau и веб-вью на Tableau Server.

«Машинное обучение позволит быстро анализировать нанопрепараты для иммунотерапии рака», XX2 ВЕК

Исследователи из Северо-Западного университета (США) изобрели сферические нуклеиновые кислоты (СНК) — наноструктуры из шароподобных форм ДНК и РНК.


СНК с ядром и без

Ученые могут запрограммировать СНК для точечного лечения пациентов: отключение конкретных генов, подавление клеточной активности, стимулирование иммунного ответа организма на разные заболевания.

Машинное обучение помогло создать цифровую модель и определить количество частиц, способных запустить оптимальную активность.

СНК может помочь в лечении различных форм рака, генетических заболеваний и заболеваний нервной системы.

Читать еще: «Data Science для начинающих: обзор сферы и профессий»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Полный текст статьи читайте на Нетология