Big Data дайджест №1

Редакция Нетологии собрала и кратко законспектировала самые интересные статьи по Big Data за январь.

«На каком железе анализировать огромный вал информации», habr.сom

Авторы блога компании МТС рассказали, какие технологии позволяют им хранить и обрабатывать большие данные без огромных вложений и чтобы хватало ресурсов для аналитики.

Источники данных:

  • базовые станции с абонентской базой более 78 миллионов клиентов;
  • исторические данные, на которых обучаются Data Science модели;
  • данные из классического хранилища по различным событиям — пользовательским и сетевым.

Задача. Хранить данные с тысячи серверов из регионов и получить возможности аналитики. Для этого нужно оборудование с достаточным ресурсом, количеством ядер CPU и объемом свободной оперативной памяти на узлах.

Тесты оборудования:

2016 год — накопитель Intel DC P3700


Исходные данные теста в 2016 году


Результаты теста в 2016 году

2017 год — серверные Intel Optane SSD на базе памяти 3D XPoint


Исходные данные теста в 2017 году


Результаты теста в 2017 году

Вывод. Результаты тестирования Intel DC P3700 не удовлетворили потребности компании. Оборудование Intel Optane SSD на базе памяти 3D XPoint с увеличенной производительностью подошло для решения поставленных задач. Чем больше данных анализировали в компании, тем эффективнее работало оборудование.

«SAP HANA: где и как эффективно использовать big data и машинное обучение», habr.сom

Автор блога компании SAP проанализировали несколько кейсов с конференций SAP HANA Digital Fest и SAP Data Halloween и рассказали, где SAP HANA поможет работать с большими данными.

В местах массового скопления людей, например, в аэропортах. SAP HANA может прогнозировать пиковые нагрузки, быстро принимать и обрабатывать большой поток данных, пересчитывать нужное количество сотрудников и оборудования онлайн. За счет этого можно избежать сбоев в системах аэропорта из-за чрезмерной нагрузки и таких ситуаций, когда:

  • происходят сбои на информационных табло;
  • из-за сбоев в системах регистрации на стойках собираются очереди;
  • на подъезде к аэропорту образуются пробки;
  • из-за неправильных расчетов смен сотрудников и поломок турникетов, рамок и другого оборудования скапливаются очереди на досмотр и паспортный контроль.

Обучение в онлайн-университете: курс «Аналитик данных»

В ритейле. Система помогает ритейлерам собирать и анализировать информацию о клиентах, чтобы:

  • делать им персональные предложения, например, скидки и бонусы, и стимулировать к покупке;
  • повышать лояльность к компании;
  • нагонять трафик;
  • поднимать маржу;
  • избавляться от неликвида.

SAP HANA собирает статистику о покупателях, прогнозируют их покупки и реакции. Когда клиент приходит в магазин, срабатывает система распознавания лиц. Информация попадает в приложения, которые вычисляют, что нужно предложить покупателю, и передают информацию менеджменту и маркетингу.

На промышленных предприятиях, где нужно предотвращать ЧП. При помощи камер, датчиков и системы предупреждения SAP HANA выполняет задачи виртуального охранника:

  • контролирует, как одет сотрудник на входе на объект;
  • открывает турникет, только если у работника есть вся нужная экипировка;
  • следит за движениями сотрудников на объектах, сигнализирует о падениях и других травмах;
  • проверяет допуски к опасным и секретным установкам.

В благотворительности. Система может взаимодействовать с блокчейном и защищать транзакции-пожертвования. Благодаря ей денежные потоки распределяются прозрачно, а меценаты могут проследить, на что потратили их деньги.

«История больших данных — часть 1», соmputerra.ru

Пользователь Владимир Хазов NetApp рассказал, как развивались Big Data.

Древний мир. Первобытные люди записывали информацию на костях, предположительно, чтобы вести торговую активность. В Вавилоне, Александрии и других древних государствах хранили информацию в книгах в библиотеках.

XVII век. Джо Грант описал теорию, в которой использование аналитики позволяет предупреждать об эпидемии бубонной чумы.

XIX век. Ричард Миллер Девинс создал термин Business Intelligence и рассказал, как ему помогло структурирование и анализ информации о деловой активности. Герман Холлерит создал табулятор — устройство с перфокартами, которое помогло ускорить перепись населения Америки и провести ее за 3 месяца вместо 10 лет.

Вторая мировая война. Британские ученые создали машину анализа данных Colossus, чтобы расшифровывать сообщения противника.

Конец XX — начало XXI века. Математики выделили три направления, на которых нужно сосредоточиться для управления данными: Volume, Velocity и Variety. Позже они стали основой для описательной модели Big Data 3V.


Расшифровка концепции 3V

Сегодня. Сформировалось понимание и задачи Big Data:

  • не всегда большой объем данных говорит о системе;
  • чтобы поддерживать актуальность и ценность данных, нужно быстро обрабатывать их;
  • нужно находить связь между любыми данными, вне зависимости от их структурированности;
  • система должна быть хорошо масштабируемой, чтобы обрабатывать весь поступающий поток информации.

Читать еще: «Как повысить продажи в три раза с помощью Big Data и машинного обучения»

Мнение автора и редакции может не совпадать. Хотите написать колонку для «Нетологии»? Читайте наши условия публикации. Чтобы быть в курсе всех новостей и читать новые статьи, присоединяйтесь к Телеграм-каналу Нетологии.

Полный текст статьи читайте на Нетология