Data Science-дайджест №12: полезные статьи06.12.2019 14:24

Большая подборка полезных статей: как устроены алгоритмы соцсетей и поисковиков, что такое data-driven подход и где его применяют, и в чём обвиняют Alibaba. На сладкое — красивейшая визуализация данных журнала Nature.

«Умная лента: как устроены алгоритмы соцсетей и почему логику их работы не понимает никто», Нож

В 2012 году исследователи Facebook во главе с дата-сайентистом Адамом Крамером обнаружили, что эмоции заразительны: они удаляли либо все положительные, либо все отрицательные сообщения, чтобы увидеть, как это повлияет на настроение читателя. Кто-то видел только фотографии мертвых собак, а кто-то — невероятно милых младенцев.

Когда позитив в ленте был убавлен, люди написали меньше положительных сообщений и больше отрицательных; когда уменьшили негатив, картина была противоположной. Эти результаты показывают, что эмоции, выраженные другими на фейсбуке, влияют на наши собственные эмоции, что является экспериментальным доказательством возможности массового заражения через социальные сети.

— Из статьи исследовательской группы Facebook в журнале Академии наук США.

Эксперимент длился неделю. В нём неосознанно участвовали 689 003 пользователей фейсбука, которые, возможно, чувствовали себя либо более счастливыми, либо более подавленными, чем обычно.

Социальная сеть давно взяла на себя труд определять, что вам интересно, а что нет

В 2013 году Facebook окончательно заменил старую систему ранжирования новостей EdgeRank на алгоритм машинного обучения, который уже тогда учитывал около 100 тысяч факторов для ранжирования. Среди них почти наверняка учитывается и количество веселых и грустных слов в каждой публикации. Так что эксперимент по манипуляции настроением в новостной ленте не был чем-то особенным: сообщения и так выдаются в ленту с учетом эмоциональной окраски.

Поэтому очень вероятно, что Facebook годами подливает вам побольше эмоциональных сообщений, когда вы долго не пишете.

Часто корпорации сами не знают как работают их алгоритмы, потому что big data, машинное обучение и нейросети фактически устранили людей как контролирующую инстанцию из процесса.

fQFjHU754uNJsIOcsOGY1joT8_ebt1QJwf1qs9eL

Алгоритм может меняться в зависимости от того, с каким типом данных он сейчас имеет дело: Google и Facebook используют десятки версий алгоритмов, которые постоянно меняются. И они не могут гарантировать, что версия, с которой пользователь сталкивается в один момент времени, будет такой же через пять секунд.

Мы всё ещё по старинке представляем себе, что социальные медиа — это что-то вроде почты или телефона, по которым нам посылают свои сообщения наши друзья. И никак не ждём, что телефон даст нам послушать только ту часть звонков, которые он сочтет милыми, чтобы вы не расстраивались и продолжали пользоваться этой телефонной компанией.

— Тарлтон Гиллеспи, американский учёный,
исследователь влияния медиа-технологий на авторское право

Ещё непонятнее, как алгоритмы влияют на поведение людей: большинство исследований касается технических проблем их создания или обратного проектирования, а сами алгоритмы рассматривает как абсолютно идеальные технологические конструкты. Но это не так.

Например, в подходе Facebook к формированию алгоритма в самом начале заложено неявное предположение о неразумности пользователя: якобы он нахватает лишних подписок и утонет в потоке обновлений. Для старых пользователей Livejournal с хронологической лентой это может быть крайне оскорбительно.

Youtube не создает собственный контент, как, например, Netflix. Но он управляет его созданием: с помощью алгоритмического «кнута» и «пряника» платформа продвигает и отбрасывает значительную часть своих каналов, просто меняя настройки.

Города Яндекса

В 2009 году Яндекс ввел географическую привязку в поиске, первый алгоритм назывался «Арзамас». Теперь можно задать в поиске слово «рестораны» и увидеть в лидерах только сайты своего города. Позднее геопривязка была улучшена алгоритмами «Снежинск», «Обнинск» и «Конаково». У Google в 2014-м появился Pigeon, который учитывал данные геолокации и привязку к Google Maps.

В Яндексе пока можно снять геопривязку, Google определяет её автоматически по IP и по истории прошлых местоположений и запросов. Внизу поисковой выдачи есть кнопка «запретить определять мое местоположение», но если её нажать, то Google всё равно будет формировать выдачу с учетом IP, прошлой истории и запросов.

В 2011 алгоритм Яндекса «Рейкьявик» положил начало персонализации поисковой выдачи через куки — по предыдущим запросам. Теперь даже подсказки в поисковой строке обновляются каждый час.

Через год алгоритм «Калининград» стал делить интересы пользователя на краткосрочные и долгосрочные, анализируя историю запросов. По одному и тому же слову можно получить совершенно разные ответы.

«Колибри» у Google и «Палех» у Яндекса работают с «птичьими хвостами» — неточными поисковыми запросами. Нечеткие запросы задают редко, поэтому машинное обучение, работающее с большими данными, ничего не могло с ними сделать. А вот нейросети научили ассоциациям и теперь разговор с алгоритмом стал конструктивен. Например, на запрос «Как назывался искусственный интеллект в Терминаторе?» Яндекс выкидывает на самый верх сниппет «Скайнет» с подробной информацией о своём коллеге.

Народное алгоритмическое воображение

Эмили Педерсен из Калифорнийского университета опубликовала масштабное исследование народных теорий. Большинству блогеров не платят за их работу. Путь к монетизации на ютубе открывает алгоритм, который многим блогерам проще представить в виде персонажа. Всего они описали три типа алгоритмических персон:

Агент — это тот, кто оценивает таланты и помогает блогеру в работе, находя для него аудиторию.
Вахтёр — стоит между создателем и зрителями и решает, что пройдет, а что нет.
Наркодилер — у него только одна цель: держать зрителей на крючке как можно дольше.

В рамках эксперимента по алгоритмическому воображению, исследователи выявили несколько теорий, которые действительно частично описывают разные аспекты работы ленты новостей:

Теория личной вовлечённости — большинство участников исследования считали, что чем больше вы с кем-то общаетесь, тем больше постов этого пользователя будет отображаться в вашей ленте.

Теория глобальной популярности — чем больше людей лайкают и комментируют пост, тем больше людей его видят.

Теория общности — сходство пользователей друг с другом влияет на количество историй, которые они видят от этих друзей. Под сходством понимают совпадение интересов в профиле, принадлежность к одной и той же группе на фейсбуке, общую географию, количество общих друзей и так далее.

Теория ока провидения — алгоритм фейсбука проницателен и абсолютно непознаваем.

Теория случайности — алгоритм действует случайным образом.

Алгоритмы проникли почти во все сферы нашей жизни: их используют для поиска террористов, модерации Википедии, они создают новости в СМИ и приводят к массовой потере рабочих мест в некоторых отраслях промышленности. В будущем их станет ещё больше. Они решают важные вопросы нашей жизни. Но как они управляют нами, мы не знаем.

Обучение в онлайн-университете: профессия «Дата-журналист»

Исследование «Медиазоны» и «Новой газеты» о насилии в семье

Пока Мюнюст уверен, что проблема домашнего насилия в России «сильно преувеличена», дата-журналисты из «Медиазоны» и «Новой газеты» опубликовали масштабное исследование судебных решений, которые выносились женщинам за убийство с 2016 по 2018 год. В статье подробно описаны не только результаты, но и методы исследования.

Это наглядный пример, как дата-журналистика помогает освещать острые социальные вопросы и делает резонансные материалы.

Осторожно, материал по ссылке может травмировать.

«Alibaba против скептиков», Sixth Tone

11 ноября в в Китае прошёл знаменитый День холостяка — главный праздник потребления в году. В этот день весь мир смотрит, как на китайском рынке бьются все мыслимые рекорды продаж.

В этом году только Alibaba Group отчиталась о росте продаж до $38,3 млрд. Продажи компании растут из года в год.

Менеджер отдела Пекинской компании Infobird Software Co. Ltd.D Инь Лицин утверждает, что рекорды продаж Tmall’s Singles 'Day за последние десять почти идеально вписываются в линейную модель с перекрытием более чем на 99%.

В своём посте в китайской социальной сети Weibo Инь назвал основателя Alibaba Джека Ма «большим лжецом», который «обманывал весь мир в течение 10 лет», и предсказал, что рекорд продаж в этом году в день одиночных игр упадет с 267,53 млрд до 268,9 млрд юаней ($38 млрд) — что и произошло. Сейчас пост удалён.

Реакция Alibaba? «Мы звоним в полицию!»

Представители Tmall в ответ на сообщение Инь Лицина заявили, что те, кто распространяет слухи, должны нести юридическую ответственность и что компания подала в суд.

Некоторые эксперты уверены, что цифры продаж в День Холостяка вполне логичны для линейной функции. Лю Ран, бывший директор по стратегическому сотрудничеству в Microsoft, утверждает: скорее всего Alibaba устанавливает свои цели продаж на основе линейного прогноза, а затем корректирует скидки и маркетинг, чтобы гарантированно достигнуть цели.

«Как искусственный интеллект помогает фермерам в выращивании урожая», RusBase

Как фермеры используют искусственный интеллект для обнаружения вредителей и болезней скота. Перевод статьи Business Insider.

Компьютерное зрение на страже полей и ферм

Над аргентинскими полями летают дроны с особыми камерами: с помощью компьютерного зрения они изучают каждый стебель по одному и ищут первые признаки болезней и вредителей.

Дрон использует машинное обучение — алгоритм учит сам себя отмечать такие мелочи, которые ещё не замечают и не могут определить люди.

Стартап Aquabyte разработал похожую стратегию для рыбных хозяйств Норвегии. Там стереоскопические камеры помогают бороться с морскими вшами — вредителем, который принес производителям огромные убытки. Норвежское правительство рассматривает возможность превратить технологию Aquabyte в стандарт рыбных ферм для всей страны.

oYBD6OKZujuLC4T2-mvEi4Uy50ENvdpY3j4tvdP_

Несмотря на большие перспективы, компьютерное зрение — дорогая технология, которую немногие могут себе позволить. Во время эпидемии восточно-африканской чумы промышленные свинофермы в Китае пытались использовать её для обнаружения больных особей, но большинству приходилось обходится своими силами. Некоторые фермеры потеряли все поголовье.

Тепличные условия

Компаниия Root AI разрабатывает роботов для сельского хозяйства в закрытых помещениях. Её глава Джош Лессинг уверена, что будущее за выращиванием в теплицах и при помощи искусственного интеллекта.

Например, робот Virgo научился собирать только спелые томаты, а неспелые оставляет дозревать. Собратья Virgo появятся в нескольких частных теплицах Канады уже в 2020 году.

3aBOdKXndI3MHAoUDm9q6Ed3j0--7H7lSIIVJX5Q

Компания 80 Acres Farms создает полностью автоматизированные фермы — все этапы контролирует искусственный интеллект. Салат и виноград выращивают под светодиодами, из-за чего техники могут контролировать фотосинтез. По словам главы Acres Farms Майка Зелкинда, урожай на его фермах поспевает быстрее и может быть более питательным.

Рынок сельскохозяйственного искусственного интеллекта оценивается в $600 млн. Планируется, что к 2025 году он достигнет $2,6 млрд. Но многие проекты пока находятся на стадии тестирования, а некоторые слишком хороши, чтобы пока оказаться правдой.

»150 years of Nature», статья к юбилею журнала Nature

К своему юбилею британский научный журнал Nature выпустил юбилейную статью, где собрал в одну подборку важные моменты за полтора века. Например, серию эссе «Уроки 150 лет науки» или график, который иллюстрирует эволюцию журнала.

Самая интересная и «залипательная» часть материала — 3D визуализация, которая показывает, как увеличивается роль междисциплинарности в науке. В интернете её уже назвали «ДНК мировой науки». Всего было проанализировано 700 млн цитирований по 38 млн научных статей авторитетных научных журналов за период с 1900 по 2017 год. Достаточно кликнуть на любую точку и внизу появится карточка со ссылкой на статью. Или ввести название интересующей статьи в поиске и визуализация покажет, с какими исследованиями она пересекается. Чем больше точка, тем чаще статью цитировали.

SLbT8Atqg-SSKJyqC5g9Nw8rgJw9oBVZJiEFX7DV

Так авторы показали, как с ростом количества исследователей, научной литературы и знаний, научные усилия все больше интегрируются через границы. И научно-исследовательским учреждениям и спонсорам было бы полезно понять, что междисциплинарность становится нормой.

Обучение в онлайн-университете: профессия «Маркетолог-аналитик»

«Data Driven: как принимать решения на основе данных», Uplab

Понятие Data Driven появилось 90-х годах XX века и получило широкое распространение в бизнесе. В менеджменте чаще всего всего упоминается Data Driven Decision — решения, принятые на основе данных, подразумевается, что нужно понимать данные и уметь строить прогнозы на их основе.

Принципы подхода

Готовность к инвестициям. Данные необходимо извлекать, хранить, анализировать, интерпретировать и визуализировать, это требует времени и денег.
Умение анализировать и интерпретировать. Для этого требуются специальные знания и опыт.
Доверие данным. Данные должны быть точными и чистыми — тогда им можно будет доверять и правильно интерпретировать.
Принятие решений на основе данных. Прежде чем предпринять что-то важное, нужно собрать и проанализировать цифры.

Чтобы подход работал на практике, сначала нужно сделать две вещи:

Определить бизнес-цель на данном этапе. Например, рост прибыли или доли на рынке.
Обозначить стадии и промежуточные цели, достижение которых определяется метриками.

В менеджменте

Data Driven используют крупнейшие корпорации мира: Intel, Google, Chevron. Самый известный пример в России — Сбербанк. В качестве ключевого подхода к моделированию Сбербанк использует CRISP — Cross Industries Standard Process по Data Mining — межотраслевой стандарт извлечения данных.

UP-IbB58AgeHN2RWTzLiSc2Owb7GZ3deTA1qlowR
Рост количества решений, которые Сбербанк принимает на основе данных

Такой подход позволяет управлять компанией эффективнее:

Повышать эффективность инвестиций: данные могут рассказать, как привлечь новую аудиторию, повысить качество пользовательского опыта.
Сократить затраты на маркетинг. Анализ рекламных кампаний направлен на то, чтобы тратить по минимуму, а зарабатывать по максимуму.
Обеспечить рост клиентоориентированности: детальный анализ данных помогает понять предпочтения целевой аудитории, отслеживать отзывы, выстроить персонализированное общение с клиентом.
Быстро реагировать на изменения рынка: отслеживание данных в реальном времени позволяет принимать решения практически молниеносно.

В дизайне

Data Driven Design — проектирование продуктов на основе данных, полученных с помощью тестов, исследований, проверки гипотез. Он помогает исключить вкусовщину и обосновывать все решения. Работа в digital оценивается по KPI — Key Performance Indicators, а чтобы их достичь, необходимо уметь анализировать данные и строить прогнозы.

Но не всё так прекрасно в подходе: есть риск погрязнуть в данных и уделять излишнее внимание мелочам. Это назвали датацентризм.

В 2009 году команда Googlе не смогла выбрать между двумя вариантами синего поэтому они протестировали 41 оттенок, чтобы узнать, какой из них лучше работает. И-за такого подхода уволился ведущий дизайнер корпорации Дуглас Боумен.

В маркетинге

Data Driven Marketing, как вы могли догадаться, маркетинговая стратегия на основе анализа данных. Основная цель — высокая точность персонализации подхода к покупателю, чтобы у него оставалось лучшее впечатление от знакомства продукцией или услугами бренда.

Во время работы маркетологи получают инсайты и представление о трендах отрасли и их основе строят прогнозы. Здесь важно понимание данных, которые уже имеются или могут быть получены, а также способов их организации, анализа и применения. Маркетинг собирает данные об обслуживании клиентов, поведении пользователей на сайте или приложении и их удовлетворённости.

Что может Data Driven Marketing:

Определить целевую аудиторию рекламной кампании.
Таргетировать предложения, сообщения и контент.
Прогнозировать поведение пользователей на основе паттернов поведения.
Повысить эффективность рекламных кампаний.
Увеличить пожизненную ценность клиента (LTV) за счёт повышения количества повторных продаж.
Быстро реагировать на изменения рынка.

Основные метрики

Для электронной коммерции

Cost Per Action — цена за клик.
Conversion Rate — показатель конверсии, процент пользователей, которые оставили заявки или купили.
Shopping Cart Abandonment — «брошенные корзины», количество пользователей, которые бросили оформление заказа на определенном этапе.

Для сервисов с подпиской (SAAS):

Monthly Recurring Revenue — регулярная месячная выручка.
Churn Rate — показатель оттока клиентов, количество пользователей, которые не стали вашими постоянными покупателями и покинули вас.
Lifetime Value — пожизненная ценность клиента, доход с потребителя за все время пользования сервисом.
Customer Retention Rate) — показатель удержания клиентов. Демонстрирует какой процент пользователей вы способны превратить в постоянных клиентов.

Как начать работать с данными: краткий план

Определите источники, убедитесь в точности, актуальности и чистоте данных.
Соберите команду: специалист и аналитик. Например, маркетолог и data scientist.
Соберите данные максимального количества источников на одной платформе: продукт, рекламные кабинеты, CRM, ERP система и так далее.
Создайте инфраструктуру для хранения данных: соберите всю релевантную информацию, систематизируйте её в подходящий формат, загрузите в базу.
Визуализируйте: используйте дашборды и BI-платформы.
Получите опыт: экспериментируйте и оценивайте результаты, развивайтесь в анализе и интерпретации. Всегда проверяйте гипотезы.
Оптимизируйте. Данные необходимо очищать и структурировать, а иногда проверять их на достоверность. Это отнимает время, но необходимо отлаживать процессы.
Формируйте в компании культуру работы с данными.

Обучение в онлайн-университете: курс «Исследуйте в R»

Бонус: «Визуальные элементы R в Power BI», Microsoft

Язык программирования R — самый популярный язык программирования среди специалистов по статистике, обработке и анализу данных, а также бизнес-аналитиков. В сообществе разработчиков ПО с открытым исходным кодом для языка R доступно более 7 000 дополнительных пакетов, а также есть популярные группы пользователей R. Статья о том, как создавать визуальные элементы R для публикации в службе Power BI.

Читать еще: «Будущее за Data Scientist: что нужно знать о профессии и причём тут единороги»

Мнение автора и редакции может не совпадать. Хотите написать колонку для Нетологии? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Полный текст статьи читайте на Нетология